ANÁLISE DE SIMILARIDADE EM TEXTOS DE PATENTES COM PROCESSAMENTO DE LINGUAGEM NATURAL: REPRESENTAÇÕES VETORIAIS E REDUÇÃO DE DIMENSIONALIDADE - UMA ABORDAGEM VISUAL
DOI:
https://doi.org/10.56238/arev8n6-020Palavras-chave:
Patentes, Embeddings Textuais, PCA e t-SNE, Processamento de Linguagem Natural, Inovação TecnológicaResumo
Este artigo apresenta uma abordagem visual inovadora para a análise de relações semânticas entre documentos de patentes, com base em técnicas de Processamento de Linguagem Natural (PLN) e visualização de dados. A análise textual de patentes, especialmente em contextos multilíngues, é fundamental para a pesquisa, a inovação tecnológica e a formulação de políticas públicas. Utilizando TF-IDF (Term Frequency-Inverse Document Frequency), similaridade do cosseno e o algoritmo de agrupamento K-Means, no corpo textual de 720 documentos de patentes, bem como, utilizando vetorização e técnicas de redução de dimensionalidade PCA (Principal Component Analysis) e t-SNE (t-Distributed Stochastic Neighbor Embedding), estruturamos semanticamente um conjunto de patentes depositadas em diferentes idiomas. A modelagem de redes e sua representação gráfica permitiram identificar agrupamentos temáticos e áreas tecnológicas críticas, evidenciando padrões ocultos nos dados. Os resultados demonstram o potencial das visualizações interativas como ferramentas estratégicas para a gestão da informação tecnológica, auxiliando examinadores, pesquisadores e formuladores de políticas. Além disso, o estudo revela desafios específicos enfrentados por determinadas tecnologias no processo de concessão de patentes, contribuindo para uma compreensão mais aprofundada do ecossistema de inovação e propriedade intelectual. Este estudo contribui para os estudos de linguagem técnica e científica ao aplicar representações vetoriais para mapear semelhanças semânticas entre resumos de patentes, revelando padrões linguísticos específicos de áreas tecnológicas.
Downloads
Referências
ALONSO-MARTÍNEZ, Daniel; GONZÁLEZ-ÁLVAREZ, Nuria; NIETO, Mariano. Does international patent collaboration have an effect on entrepreneurship? Journal of International Entrepreneurship, v. 19, p. 539–559, 2021.
ALVES, Renato Lourenço; SOUZA, Paulo Augusto Ramalho de; NEDER, Renato. Análise de Patentes Através de Redes Semânticas: A Inteligência Artificial no Agronegócio entre 2009 e 2018. XLVI Encontro da ANPAD - EnANPAD 2022, São Caetano do Sul, SP, 21-23 set. 2022.
BASSO, Fernanda G. Análise de similaridade em textos de patentes com Processamento de Linguagem Natural: representações vetoriais e redução de dimensionalidade – uma abordagem visual. 2020. Dissertação – Universidade de São Paulo, São Paulo, 2020.
BHATT, Priyanka C.; MISHRA, Durgesh K.; SHRIVASTAVA, Garima. Patent analysis-based technology innovation assessment with the lens of disruptive innovation theory: A case of blockchain technological trajectories. Technological Forecasting and Social Change, v. 198, 123905, 2023. Disponível em: https://www.sciencedirect.com/science/article/abs/pii/S0040162523005498. Acesso em: 5 abr. 2025.
BRITO, Ana Paula Damasceno; OZAKI, Adalton Masalu. Busca patentária: a chave do sucesso em projetos tecnológicos INOVA IFSP. CONICT. 2019.
CÂNDIDO, Rafael; GONÇALVES, Alexandre Leopoldo; LEMOS, Robson Rodrigues. Information Visualization to Support Idea Management. IEEE Latin America Transactions, vol. 20, n. 6, jun. 2022.
DAMO, Emerson. Mapeamento do desenvolvimento tecnológico na indústria por meio de documentos de patentes: análise da inovação na indústria automobilística. 2021. 106 f. Dissertação (Mestrado Profissional em Gestão e Tecnologia em Sistemas Produtivos) – Centro Estadual de Educação Tecnológica Paula Souza, São Paulo, 2021
DUARTE, José Mateus Rodrigues Farias; FILHO, Antonio Carlos de Sousa; GIRÃO, Mauro Vinícius Dutra. Nuvens de palavras auxiliando no aprendizado de Fisiologia Humana: relato de experiência. Revista de Educación en Biología, v. 26, n. 2, p. 24-38, 2023.
INSTITUTO NACIONAL DA PROPRIEDADE INDUSTRIAL. Governança. Ministério do Desenvolvimento, Indústria, Comércio e Serviços. Disponível em: https://www.gov.br/inpi/pt-br/governanca. Acesso em: 9 ago. 2025
KRESTEL, R., CHIKKAMATH, R., HEWEL, C., & RISCH, J. A survey on deep learning for patent analysis. World Patent Information, 65, 102035. 2021.
LEAL, Alfredo Julio; CORTESE, Tatiana; KNIESS, Cláudia Terezinha. Contribuição das informações patentárias na busca de tecnologias para reciclagem do resíduo de equipamento eletroeletrônico. Anais do ENGEMAUSP, 2015. Disponível em: https://engemausp.submissao.com.br/17/anais/arquivos/277.pdf. Acesso em: 1 jun. 2025.
Liu, W.; Zhang, Y.; Luo, X.; Cao, Y.; Gan, K.; Ye, F.; Tang, W.; Zhang, M. Patent transformation prediction: When a patent can be transformed. Information Processing & Management, [S.l.], v. 61, n. 6, p. 103872, nov. 2024. Disponível em: https://doi.org/10.1016/j.ipm.2024.103872. Acesso em: 4 jul. 2025.
MARQUES, Thiago Domingos; GONÇALVES, Alexandre Leopoldo. A importância de um sistema de organização de patentes por análise semântica: proposta de um protótipo. In: X ENPI, 2024, Fortaleza-CE. Anais do X ENPI. Fortaleza-CE: 2024. v. 10, n. 1, p. 01-06.
MARQUES, T. D.; GONÇALVES, A. L.; PAULINO, R. de C. R.; SOUZA, M. V. de; DANDOLINI, G. A. Descobrindo conexões e similaridades em textos de patentes: processamento de linguagem natural e visualização interativa. Revista Delos, [S. l.], v. 18, n. 69, p. e5912, 2025. DOI: 10.55905/rdelosv18.n69-103. Disponível em: https://ojs.revistadelos.com/ojs/index.php/delos/article/view/5912. Acesso em: 28 maio. 2026.
MARQUES, Thiago Domingos; GONÇALVES, Alexandre Leopoldo. Grafos aplicados à análise decisória em patentes: uma abordagem visual da classificação IPC - análise de redes. Revista Delos, v. 18, n. 67, e5030, 2025. Disponível em: https://doi.org/10.55905/rdelosv18.n67-045. Acesso em: 29 maio 2025.
MARQUES, Thiago Domingos; GONÇALVES, Alexandre Leopoldo. Uma revisão integrativa para sistemas de busca por patentes similares utilizando IA: avanços, desafios e aplicações. CIKI/ICKM. 2023. Disponível em: https://proceeding.ciki.ufsc.br/index.php/ciki/article/view/1418/826. Acesso em: 06 mar. 2025.
MARTINS, Claudia A.; FRANCISCO, Rafaela S.; FARIAS, Henrique C.. Classificação e visualização de dados de patentes. In: ESCOLA REGIONAL DE INFORMÁTICA DE MATO GROSSO (ERI-MT), 21. , 2021, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021. p. 116-119. ISSN 2447-5386. DOI: https://doi.org/10.5753/eri-mt.2021.18235.
MIKOLOV, Tomas; CHEN, Kai; CORRADO, Greg; DEAN, Jeffrey. Efficient Estimation of Word Representations in Vector Space. In: INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS (ICLR), 1., 2013, Scottsdale, Arizona, USA. Workshop Track Proceedings. [S.l.: s.n.], 2013.
MIAO, Ran; CHEN, Xueyu; HU, Liang; ZHANG, Zhifei; WAN, Minghua; ZHANG, Qi; ZHAO, Cairong. PatSTEG: modeling formation dynamics of patent citation networks via the semantic-topological evolutionary graph. In: IEEE INTERNATIONAL CONFERENCE ON DATA MINING, 2023, Shanghai. Anais [...]. Piscataway: IEEE, 2023. p. 1312–1317. DOI: https://doi.org/10.1109/ICDM58522.2023.00153. Acesso em: 5 jul. 2025.
MORESI, Eduardo Amadeu D.; PINHO, Isabel; HEDLER, Helga Cristina. Análise qualitativa de informações registradas em patentes. Investigação Qualitativa em Educação: Avanços e Desafios, v. 12, p. 1-10, 2022. DOI: https://doi.org/10.36367/ntqr.12.2022.e616.
MORAES, Lavínia de Carvalho et al. Análise de ambiguidade linguística em modelos de linguagem de grande escala (LLMs). Revista Texto Livre, Minas Gerais, v. 16, n. 4, p. 1–23, 20 dez. 2024. Disponível em: https://doi.org/10.1590/1983--3652.2025.53181. Acesso em: 16 jul. 2025.
NASCIMENTO, T.C, ROJAS CAJAVILCA, E. S., TELES SANTOS, A. Systematization of a Model of Technological Prospection With the Spacenet and Iramuteq Tools: application to the bank of green patent data of the phosphorus element. Cadernos de Prospecção, 12(3), 563-575. Universidade Federal do Oeste da Bahia - UFOB, Barreiras, BA, Brasil. 2019.
OUYANG, Xin; SUN, Zhen; XU, Xinzhen. Patent system in the digital era - Opportunities and new challenges. Journal Of Digital Economy, [S.L.], v. 1, n. 3, p. 166-179, dez. 2022. Elsevier. 2022
PAULINO, Rita de Cássia Romeiro. A interpretação de grafos como imagens complexas em tempos de pandemia de COVID-19 no Brasil. Asas da Palavra, v. 17, n. 1, p. 43-51, jan./jun. 2020.
PINTO, Adilson Luiz; SILVA, Armando Malheiro da; SENA, Priscila Machado Borges. Ontologias baseadas na visualização da informação das redes sociais. Prisma.com, Universidade do Porto, Portugal, 2010. Disponível em: https://www.prisma.com. Acesso em: 31 maio 2025.
PIRES, E. A.; RIBEIRO, N. M.; QUINTELLA, C. M. Sistemas de Busca de Patentes: análise comparativa entre Espacenet, Patentscope, Google Patents, Lens, Derwent Innovation Index e Orbit Intelligence. Cadernos de Prospecção, v. 13, n. 1, p. 13-29, 2020. DOI: 10.9771/cp.v13i1.35147.
REYMOND, David; DEMATRAZ, Jessica. Using networks in patent exploration: application in patent analysis: the democratization of 3D printing. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, v. 19, n. 40, p. 117-144, mai./ago., 2014
RISCH, Julian; KRESTEL, Ralf. Domain-specific word embeddings for patent classification. Data Technologies and Applications, [S.l.], v. 53, n. 1, p. 108–122, mar. 2019. DOI: 10.1108/DTA-01-2019-0002.
SANTOS, André Moraes dos; QUONIAM, Luc; KNIESS, Claudia Terezinha; REYMOND, David. Ferramentas para extração e análise de informações em base de patentes: uma aplicação para o modelo de hélice quíntupla. Anais do III SINGEP e II S2IS – São Paulo – SP – Brasil – 09, 10 e 11 de novembro de 2014. Disponível em: 1. Acesso em: 31 maio 2025.
SOUZA, Jackson Wilke da Cruz; SEMCOVICI, Pedro; PARDO, Thiago Alexandre Salgueiro. Proposta de algoritmo de classificação automática de papéis semânticos em português no âmbito do modelo Abstract Meaning Representation. Texto Livre, Belo Horizonte-MG, v. 18, p. e55346, 2025. DOI: 10.1590/1983-3652.2025.55346. Disponível em: https://periodicos.ufmg.br/index.php/textolivre/article/view/55346. Acesso em: 16 jul. 2025.
SOUZA, Luiz Fernando Spillere de; GONÇALVES, Alexandre Leopoldo; SOUZA, Joao Artur De. Utilização prática de Word Embedding aplicada à classificação de texto. Ciki, 2021, Florianópolis: Universidade Federal de Santa Catarina, 2021.
JIANG, Hongxun; FAN, Shaokun; ZHANG, Nan; ZHU, Bin. Deep learning for predicting patent application outcome: the fusion of text and network embeddings. Journal of Informetrics, v. 17, n. 2, p. 101402, 2023.
VILLA, Anna Maria; WIRZ, Manuel. A sequential patent search approach combining semantics and artificial intelligence to identify initial State-of-the-Art documents. World Patent Information, [S.L.], v. 68, p. 102096, mar. 2022. Elsevier BV. http://dx.doi.org/10.1016/j.wpi.2022.102096.
WITSCHARD, Daniel; JUSUFI, Ilir; MARTINS, Rafael M; KUCHER, Kostiantyn; KERREN, Andreas. Interactive optimization of embedding-based text similarity calculations. Information Visualization, [S.L.], v. 21, n. 4, p. 335-353, 3 ago. 2022. SAGE Publications. http://dx.doi.org/10.1177/14738716221114372.
WOLSKI, Luciano Zamperetti; PIZONI, Willian Aurélio; GONÇALVES, Alexandre Leopoldo. Modelo de classificação de patentes baseado em técnicas de engenharia de conhecimento. In: CONGRESSO INTERNACIONAL DE CONHECIMENTO E INOVAÇÃO – CIKI, 2022. Disponível em: https://proceeding.ciki.ufsc.br/index.php/ciki/article/view/1254/700. Acesso em: 29 maio 2025.