SIMILARITY ANALYSIS IN PATENT TEXTS USING NATURAL LANGUAGE PROCESSING: VECTOR REPRESENTATIONS AND DIMENSIONALITY REDUCTION – A VISUAL APPROACH
DOI:
https://doi.org/10.56238/arev8n6-020Keywords:
Patents, Textual Embeddings, PCA and t-SNE, Natural Language Processing, Technological InnovationAbstract
This article presents an innovative visual approach to analyzing semantic relationships among patent documents, based on Natural Language Processing (NLP) techniques and data visualization. Textual analysis of patents, especially in multilingual contexts, is fundamental for research, technological innovation, and public policy development. Using TF-IDF (Term Frequency–Inverse Document Frequency), cosine similarity, and the K-Means clustering algorithm on the textual body of 720 patent documents, as well as applying vectorization and dimensionality reduction techniques such as PCA (Principal Component Analysis) and t-SNE (t-Distributed Stochastic Neighbor Embedding), we semantically structured a set of patents filed in different languages. Network modeling and its graphical representation enabled the identification of thematic clusters and critical technological areas, highlighting hidden patterns within the data. The results demonstrate the potential of interactive visualizations as strategic tools for managing technological information, supporting examiners, researchers, and policymakers. Furthermore, the study reveals specific challenges faced by certain technologies in the patent granting process, contributing to a deeper understanding of the innovation and intellectual property ecosystem. This study also contributes to research on technical and scientific language by applying vector representations to map semantic similarities among patent abstracts, uncovering linguistic patterns specific to technological domains.
Downloads
References
ALONSO-MARTÍNEZ, Daniel; GONZÁLEZ-ÁLVAREZ, Nuria; NIETO, Mariano. Does international patent collaboration have an effect on entrepreneurship? Journal of International Entrepreneurship, v. 19, p. 539–559, 2021.
ALVES, Renato Lourenço; SOUZA, Paulo Augusto Ramalho de; NEDER, Renato. Análise de Patentes Através de Redes Semânticas: A Inteligência Artificial no Agronegócio entre 2009 e 2018. XLVI Encontro da ANPAD - EnANPAD 2022, São Caetano do Sul, SP, 21-23 set. 2022.
BASSO, Fernanda G. Análise de similaridade em textos de patentes com Processamento de Linguagem Natural: representações vetoriais e redução de dimensionalidade – uma abordagem visual. 2020. Dissertação – Universidade de São Paulo, São Paulo, 2020.
BHATT, Priyanka C.; MISHRA, Durgesh K.; SHRIVASTAVA, Garima. Patent analysis-based technology innovation assessment with the lens of disruptive innovation theory: A case of blockchain technological trajectories. Technological Forecasting and Social Change, v. 198, 123905, 2023. Disponível em: https://www.sciencedirect.com/science/article/abs/pii/S0040162523005498. Acesso em: 5 abr. 2025.
BRITO, Ana Paula Damasceno; OZAKI, Adalton Masalu. Busca patentária: a chave do sucesso em projetos tecnológicos INOVA IFSP. CONICT. 2019.
CÂNDIDO, Rafael; GONÇALVES, Alexandre Leopoldo; LEMOS, Robson Rodrigues. Information Visualization to Support Idea Management. IEEE Latin America Transactions, vol. 20, n. 6, jun. 2022.
DAMO, Emerson. Mapeamento do desenvolvimento tecnológico na indústria por meio de documentos de patentes: análise da inovação na indústria automobilística. 2021. 106 f. Dissertação (Mestrado Profissional em Gestão e Tecnologia em Sistemas Produtivos) – Centro Estadual de Educação Tecnológica Paula Souza, São Paulo, 2021
DUARTE, José Mateus Rodrigues Farias; FILHO, Antonio Carlos de Sousa; GIRÃO, Mauro Vinícius Dutra. Nuvens de palavras auxiliando no aprendizado de Fisiologia Humana: relato de experiência. Revista de Educación en Biología, v. 26, n. 2, p. 24-38, 2023.
INSTITUTO NACIONAL DA PROPRIEDADE INDUSTRIAL. Governança. Ministério do Desenvolvimento, Indústria, Comércio e Serviços. Disponível em: https://www.gov.br/inpi/pt-br/governanca. Acesso em: 9 ago. 2025
KRESTEL, R., CHIKKAMATH, R., HEWEL, C., & RISCH, J. A survey on deep learning for patent analysis. World Patent Information, 65, 102035. 2021.
LEAL, Alfredo Julio; CORTESE, Tatiana; KNIESS, Cláudia Terezinha. Contribuição das informações patentárias na busca de tecnologias para reciclagem do resíduo de equipamento eletroeletrônico. Anais do ENGEMAUSP, 2015. Disponível em: https://engemausp.submissao.com.br/17/anais/arquivos/277.pdf. Acesso em: 1 jun. 2025.
Liu, W.; Zhang, Y.; Luo, X.; Cao, Y.; Gan, K.; Ye, F.; Tang, W.; Zhang, M. Patent transformation prediction: When a patent can be transformed. Information Processing & Management, [S.l.], v. 61, n. 6, p. 103872, nov. 2024. Disponível em: https://doi.org/10.1016/j.ipm.2024.103872. Acesso em: 4 jul. 2025.
MARQUES, Thiago Domingos; GONÇALVES, Alexandre Leopoldo. A importância de um sistema de organização de patentes por análise semântica: proposta de um protótipo. In: X ENPI, 2024, Fortaleza-CE. Anais do X ENPI. Fortaleza-CE: 2024. v. 10, n. 1, p. 01-06.
MARQUES, T. D.; GONÇALVES, A. L.; PAULINO, R. de C. R.; SOUZA, M. V. de; DANDOLINI, G. A. Descobrindo conexões e similaridades em textos de patentes: processamento de linguagem natural e visualização interativa. Revista Delos, [S. l.], v. 18, n. 69, p. e5912, 2025. DOI: 10.55905/rdelosv18.n69-103. Disponível em: https://ojs.revistadelos.com/ojs/index.php/delos/article/view/5912. Acesso em: 28 maio. 2026.
MARQUES, Thiago Domingos; GONÇALVES, Alexandre Leopoldo. Grafos aplicados à análise decisória em patentes: uma abordagem visual da classificação IPC - análise de redes. Revista Delos, v. 18, n. 67, e5030, 2025. Disponível em: https://doi.org/10.55905/rdelosv18.n67-045. Acesso em: 29 maio 2025.
MARQUES, Thiago Domingos; GONÇALVES, Alexandre Leopoldo. Uma revisão integrativa para sistemas de busca por patentes similares utilizando IA: avanços, desafios e aplicações. CIKI/ICKM. 2023. Disponível em: https://proceeding.ciki.ufsc.br/index.php/ciki/article/view/1418/826. Acesso em: 06 mar. 2025.
MARTINS, Claudia A.; FRANCISCO, Rafaela S.; FARIAS, Henrique C.. Classificação e visualização de dados de patentes. In: ESCOLA REGIONAL DE INFORMÁTICA DE MATO GROSSO (ERI-MT), 21. , 2021, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021. p. 116-119. ISSN 2447-5386. DOI: https://doi.org/10.5753/eri-mt.2021.18235.
MIKOLOV, Tomas; CHEN, Kai; CORRADO, Greg; DEAN, Jeffrey. Efficient Estimation of Word Representations in Vector Space. In: INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS (ICLR), 1., 2013, Scottsdale, Arizona, USA. Workshop Track Proceedings. [S.l.: s.n.], 2013.
MIAO, Ran; CHEN, Xueyu; HU, Liang; ZHANG, Zhifei; WAN, Minghua; ZHANG, Qi; ZHAO, Cairong. PatSTEG: modeling formation dynamics of patent citation networks via the semantic-topological evolutionary graph. In: IEEE INTERNATIONAL CONFERENCE ON DATA MINING, 2023, Shanghai. Anais [...]. Piscataway: IEEE, 2023. p. 1312–1317. DOI: https://doi.org/10.1109/ICDM58522.2023.00153. Acesso em: 5 jul. 2025.
MORESI, Eduardo Amadeu D.; PINHO, Isabel; HEDLER, Helga Cristina. Análise qualitativa de informações registradas em patentes. Investigação Qualitativa em Educação: Avanços e Desafios, v. 12, p. 1-10, 2022. DOI: https://doi.org/10.36367/ntqr.12.2022.e616.
MORAES, Lavínia de Carvalho et al. Análise de ambiguidade linguística em modelos de linguagem de grande escala (LLMs). Revista Texto Livre, Minas Gerais, v. 16, n. 4, p. 1–23, 20 dez. 2024. Disponível em: https://doi.org/10.1590/1983--3652.2025.53181. Acesso em: 16 jul. 2025.
NASCIMENTO, T.C, ROJAS CAJAVILCA, E. S., TELES SANTOS, A. Systematization of a Model of Technological Prospection With the Spacenet and Iramuteq Tools: application to the bank of green patent data of the phosphorus element. Cadernos de Prospecção, 12(3), 563-575. Universidade Federal do Oeste da Bahia - UFOB, Barreiras, BA, Brasil. 2019.
OUYANG, Xin; SUN, Zhen; XU, Xinzhen. Patent system in the digital era - Opportunities and new challenges. Journal Of Digital Economy, [S.L.], v. 1, n. 3, p. 166-179, dez. 2022. Elsevier. 2022
PAULINO, Rita de Cássia Romeiro. A interpretação de grafos como imagens complexas em tempos de pandemia de COVID-19 no Brasil. Asas da Palavra, v. 17, n. 1, p. 43-51, jan./jun. 2020.
PINTO, Adilson Luiz; SILVA, Armando Malheiro da; SENA, Priscila Machado Borges. Ontologias baseadas na visualização da informação das redes sociais. Prisma.com, Universidade do Porto, Portugal, 2010. Disponível em: https://www.prisma.com. Acesso em: 31 maio 2025.
PIRES, E. A.; RIBEIRO, N. M.; QUINTELLA, C. M. Sistemas de Busca de Patentes: análise comparativa entre Espacenet, Patentscope, Google Patents, Lens, Derwent Innovation Index e Orbit Intelligence. Cadernos de Prospecção, v. 13, n. 1, p. 13-29, 2020. DOI: 10.9771/cp.v13i1.35147.
REYMOND, David; DEMATRAZ, Jessica. Using networks in patent exploration: application in patent analysis: the democratization of 3D printing. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, v. 19, n. 40, p. 117-144, mai./ago., 2014
RISCH, Julian; KRESTEL, Ralf. Domain-specific word embeddings for patent classification. Data Technologies and Applications, [S.l.], v. 53, n. 1, p. 108–122, mar. 2019. DOI: 10.1108/DTA-01-2019-0002.
SANTOS, André Moraes dos; QUONIAM, Luc; KNIESS, Claudia Terezinha; REYMOND, David. Ferramentas para extração e análise de informações em base de patentes: uma aplicação para o modelo de hélice quíntupla. Anais do III SINGEP e II S2IS – São Paulo – SP – Brasil – 09, 10 e 11 de novembro de 2014. Disponível em: 1. Acesso em: 31 maio 2025.
SOUZA, Jackson Wilke da Cruz; SEMCOVICI, Pedro; PARDO, Thiago Alexandre Salgueiro. Proposta de algoritmo de classificação automática de papéis semânticos em português no âmbito do modelo Abstract Meaning Representation. Texto Livre, Belo Horizonte-MG, v. 18, p. e55346, 2025. DOI: 10.1590/1983-3652.2025.55346. Disponível em: https://periodicos.ufmg.br/index.php/textolivre/article/view/55346. Acesso em: 16 jul. 2025.
SOUZA, Luiz Fernando Spillere de; GONÇALVES, Alexandre Leopoldo; SOUZA, Joao Artur De. Utilização prática de Word Embedding aplicada à classificação de texto. Ciki, 2021, Florianópolis: Universidade Federal de Santa Catarina, 2021.
JIANG, Hongxun; FAN, Shaokun; ZHANG, Nan; ZHU, Bin. Deep learning for predicting patent application outcome: the fusion of text and network embeddings. Journal of Informetrics, v. 17, n. 2, p. 101402, 2023.
VILLA, Anna Maria; WIRZ, Manuel. A sequential patent search approach combining semantics and artificial intelligence to identify initial State-of-the-Art documents. World Patent Information, [S.L.], v. 68, p. 102096, mar. 2022. Elsevier BV. http://dx.doi.org/10.1016/j.wpi.2022.102096.
WITSCHARD, Daniel; JUSUFI, Ilir; MARTINS, Rafael M; KUCHER, Kostiantyn; KERREN, Andreas. Interactive optimization of embedding-based text similarity calculations. Information Visualization, [S.L.], v. 21, n. 4, p. 335-353, 3 ago. 2022. SAGE Publications. http://dx.doi.org/10.1177/14738716221114372.
WOLSKI, Luciano Zamperetti; PIZONI, Willian Aurélio; GONÇALVES, Alexandre Leopoldo. Modelo de classificação de patentes baseado em técnicas de engenharia de conhecimento. In: CONGRESSO INTERNACIONAL DE CONHECIMENTO E INOVAÇÃO – CIKI, 2022. Disponível em: https://proceeding.ciki.ufsc.br/index.php/ciki/article/view/1254/700. Acesso em: 29 maio 2025.