ANÁLISIS DE SIMILITUD EN TEXTOS DE PATENTES MEDIANTE PROCESAMIENTO DEL LENGUAJE NATURAL: REPRESENTACIONES VECTORIALES Y REDUCCIÓN DE DIMENSIONALIDAD: UN ENFOQUE VISUAL

Autores/as

  • Thiago Domingos Marques Autor/a
  • Alexandre Leopoldo Gonçalves Autor/a

DOI:

https://doi.org/10.56238/arev8n6-020

Palabras clave:

Patentes, Incrustaciones Textuales, PCA y t-SNE, rocesamiento del Lenguaje Natural, Innovación Tecnológica

Resumen

Este artículo presenta un enfoque visual innovador para el análisis de las relaciones semánticas entre documentos de patentes, basado en técnicas de procesamiento del lenguaje natural (PLN) y visualización de datos. El análisis textual de patentes, especialmente en contextos multilingües, es fundamental para la investigación, la innovación tecnológica y la formulación de políticas públicas. Mediante TF-IDF (frecuencia de término-frecuencia inversa de documento), similitud de coseno y el algoritmo de agrupamiento K-Means aplicado al texto de 720 documentos de patentes, así como mediante técnicas de vectorización y reducción de dimensionalidad como PCA (análisis de componentes principales) y t-SNE (incrustación estocástica de vecinos distribuidos en t), se estructuró semánticamente un conjunto de patentes presentadas en diferentes idiomas. El modelado de redes y su representación gráfica permitieron identificar grupos temáticos y áreas tecnológicas críticas, destacando patrones ocultos en los datos. Los resultados demuestran el potencial de las visualizaciones interactivas como herramientas estratégicas para la gestión de la información tecnológica, facilitando el trabajo de examinadores, investigadores y responsables políticos. Además, el estudio revela desafíos específicos que enfrentan ciertas tecnologías en el proceso de concesión de patentes, contribuyendo a una comprensión más profunda del ecosistema de innovación y propiedad intelectual. Este estudio contribuye al análisis del lenguaje técnico y científico mediante la aplicación de representaciones vectoriales para mapear similitudes semánticas entre resúmenes de patentes, revelando patrones lingüísticos específicos en áreas tecnológicas.

Descargas

Los datos de descarga aún no están disponibles.

Referencias

ALONSO-MARTÍNEZ, Daniel; GONZÁLEZ-ÁLVAREZ, Nuria; NIETO, Mariano. Does international patent collaboration have an effect on entrepreneurship? Journal of International Entrepreneurship, v. 19, p. 539–559, 2021.

ALVES, Renato Lourenço; SOUZA, Paulo Augusto Ramalho de; NEDER, Renato. Análise de Patentes Através de Redes Semânticas: A Inteligência Artificial no Agronegócio entre 2009 e 2018. XLVI Encontro da ANPAD - EnANPAD 2022, São Caetano do Sul, SP, 21-23 set. 2022.

BASSO, Fernanda G. Análise de similaridade em textos de patentes com Processamento de Linguagem Natural: representações vetoriais e redução de dimensionalidade – uma abordagem visual. 2020. Dissertação – Universidade de São Paulo, São Paulo, 2020.

BHATT, Priyanka C.; MISHRA, Durgesh K.; SHRIVASTAVA, Garima. Patent analysis-based technology innovation assessment with the lens of disruptive innovation theory: A case of blockchain technological trajectories. Technological Forecasting and Social Change, v. 198, 123905, 2023. Disponível em: https://www.sciencedirect.com/science/article/abs/pii/S0040162523005498. Acesso em: 5 abr. 2025.

BRITO, Ana Paula Damasceno; OZAKI, Adalton Masalu. Busca patentária: a chave do sucesso em projetos tecnológicos INOVA IFSP. CONICT. 2019.

CÂNDIDO, Rafael; GONÇALVES, Alexandre Leopoldo; LEMOS, Robson Rodrigues. Information Visualization to Support Idea Management. IEEE Latin America Transactions, vol. 20, n. 6, jun. 2022.

DAMO, Emerson. Mapeamento do desenvolvimento tecnológico na indústria por meio de documentos de patentes: análise da inovação na indústria automobilística. 2021. 106 f. Dissertação (Mestrado Profissional em Gestão e Tecnologia em Sistemas Produtivos) – Centro Estadual de Educação Tecnológica Paula Souza, São Paulo, 2021

DUARTE, José Mateus Rodrigues Farias; FILHO, Antonio Carlos de Sousa; GIRÃO, Mauro Vinícius Dutra. Nuvens de palavras auxiliando no aprendizado de Fisiologia Humana: relato de experiência. Revista de Educación en Biología, v. 26, n. 2, p. 24-38, 2023.

INSTITUTO NACIONAL DA PROPRIEDADE INDUSTRIAL. Governança. Ministério do Desenvolvimento, Indústria, Comércio e Serviços. Disponível em: https://www.gov.br/inpi/pt-br/governanca. Acesso em: 9 ago. 2025

KRESTEL, R., CHIKKAMATH, R., HEWEL, C., & RISCH, J. A survey on deep learning for patent analysis. World Patent Information, 65, 102035. 2021.

LEAL, Alfredo Julio; CORTESE, Tatiana; KNIESS, Cláudia Terezinha. Contribuição das informações patentárias na busca de tecnologias para reciclagem do resíduo de equipamento eletroeletrônico. Anais do ENGEMAUSP, 2015. Disponível em: https://engemausp.submissao.com.br/17/anais/arquivos/277.pdf. Acesso em: 1 jun. 2025.

Liu, W.; Zhang, Y.; Luo, X.; Cao, Y.; Gan, K.; Ye, F.; Tang, W.; Zhang, M. Patent transformation prediction: When a patent can be transformed. Information Processing & Management, [S.l.], v. 61, n. 6, p. 103872, nov. 2024. Disponível em: https://doi.org/10.1016/j.ipm.2024.103872. Acesso em: 4 jul. 2025.

MARQUES, Thiago Domingos; GONÇALVES, Alexandre Leopoldo. A importância de um sistema de organização de patentes por análise semântica: proposta de um protótipo. In: X ENPI, 2024, Fortaleza-CE. Anais do X ENPI. Fortaleza-CE: 2024. v. 10, n. 1, p. 01-06.

MARQUES, T. D.; GONÇALVES, A. L.; PAULINO, R. de C. R.; SOUZA, M. V. de; DANDOLINI, G. A. Descobrindo conexões e similaridades em textos de patentes: processamento de linguagem natural e visualização interativa. Revista Delos, [S. l.], v. 18, n. 69, p. e5912, 2025. DOI: 10.55905/rdelosv18.n69-103. Disponível em: https://ojs.revistadelos.com/ojs/index.php/delos/article/view/5912. Acesso em: 28 maio. 2026.

MARQUES, Thiago Domingos; GONÇALVES, Alexandre Leopoldo. Grafos aplicados à análise decisória em patentes: uma abordagem visual da classificação IPC - análise de redes. Revista Delos, v. 18, n. 67, e5030, 2025. Disponível em: https://doi.org/10.55905/rdelosv18.n67-045. Acesso em: 29 maio 2025.

MARQUES, Thiago Domingos; GONÇALVES, Alexandre Leopoldo. Uma revisão integrativa para sistemas de busca por patentes similares utilizando IA: avanços, desafios e aplicações. CIKI/ICKM. 2023. Disponível em: https://proceeding.ciki.ufsc.br/index.php/ciki/article/view/1418/826. Acesso em: 06 mar. 2025.

MARTINS, Claudia A.; FRANCISCO, Rafaela S.; FARIAS, Henrique C.. Classificação e visualização de dados de patentes. In: ESCOLA REGIONAL DE INFORMÁTICA DE MATO GROSSO (ERI-MT), 21. , 2021, Evento Online. Anais [...]. Porto Alegre: Sociedade Brasileira de Computação, 2021. p. 116-119. ISSN 2447-5386. DOI: https://doi.org/10.5753/eri-mt.2021.18235.

MIKOLOV, Tomas; CHEN, Kai; CORRADO, Greg; DEAN, Jeffrey. Efficient Estimation of Word Representations in Vector Space. In: INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS (ICLR), 1., 2013, Scottsdale, Arizona, USA. Workshop Track Proceedings. [S.l.: s.n.], 2013.

MIAO, Ran; CHEN, Xueyu; HU, Liang; ZHANG, Zhifei; WAN, Minghua; ZHANG, Qi; ZHAO, Cairong. PatSTEG: modeling formation dynamics of patent citation networks via the semantic-topological evolutionary graph. In: IEEE INTERNATIONAL CONFERENCE ON DATA MINING, 2023, Shanghai. Anais [...]. Piscataway: IEEE, 2023. p. 1312–1317. DOI: https://doi.org/10.1109/ICDM58522.2023.00153. Acesso em: 5 jul. 2025.

MORESI, Eduardo Amadeu D.; PINHO, Isabel; HEDLER, Helga Cristina. Análise qualitativa de informações registradas em patentes. Investigação Qualitativa em Educação: Avanços e Desafios, v. 12, p. 1-10, 2022. DOI: https://doi.org/10.36367/ntqr.12.2022.e616.

MORAES, Lavínia de Carvalho et al. Análise de ambiguidade linguística em modelos de linguagem de grande escala (LLMs). Revista Texto Livre, Minas Gerais, v. 16, n. 4, p. 1–23, 20 dez. 2024. Disponível em: https://doi.org/10.1590/1983--3652.2025.53181. Acesso em: 16 jul. 2025.

NASCIMENTO, T.C, ROJAS CAJAVILCA, E. S., TELES SANTOS, A. Systematization of a Model of Technological Prospection With the Spacenet and Iramuteq Tools: application to the bank of green patent data of the phosphorus element. Cadernos de Prospecção, 12(3), 563-575. Universidade Federal do Oeste da Bahia - UFOB, Barreiras, BA, Brasil. 2019.

OUYANG, Xin; SUN, Zhen; XU, Xinzhen. Patent system in the digital era - Opportunities and new challenges. Journal Of Digital Economy, [S.L.], v. 1, n. 3, p. 166-179, dez. 2022. Elsevier. 2022

PAULINO, Rita de Cássia Romeiro. A interpretação de grafos como imagens complexas em tempos de pandemia de COVID-19 no Brasil. Asas da Palavra, v. 17, n. 1, p. 43-51, jan./jun. 2020.

PINTO, Adilson Luiz; SILVA, Armando Malheiro da; SENA, Priscila Machado Borges. Ontologias baseadas na visualização da informação das redes sociais. Prisma.com, Universidade do Porto, Portugal, 2010. Disponível em: https://www.prisma.com. Acesso em: 31 maio 2025.

PIRES, E. A.; RIBEIRO, N. M.; QUINTELLA, C. M. Sistemas de Busca de Patentes: análise comparativa entre Espacenet, Patentscope, Google Patents, Lens, Derwent Innovation Index e Orbit Intelligence. Cadernos de Prospecção, v. 13, n. 1, p. 13-29, 2020. DOI: 10.9771/cp.v13i1.35147.

REYMOND, David; DEMATRAZ, Jessica. Using networks in patent exploration: application in patent analysis: the democratization of 3D printing. Encontros Bibli: revista eletrônica de biblioteconomia e ciência da informação, v. 19, n. 40, p. 117-144, mai./ago., 2014

RISCH, Julian; KRESTEL, Ralf. Domain-specific word embeddings for patent classification. Data Technologies and Applications, [S.l.], v. 53, n. 1, p. 108–122, mar. 2019. DOI: 10.1108/DTA-01-2019-0002.

SANTOS, André Moraes dos; QUONIAM, Luc; KNIESS, Claudia Terezinha; REYMOND, David. Ferramentas para extração e análise de informações em base de patentes: uma aplicação para o modelo de hélice quíntupla. Anais do III SINGEP e II S2IS – São Paulo – SP – Brasil – 09, 10 e 11 de novembro de 2014. Disponível em: 1. Acesso em: 31 maio 2025.

SOUZA, Jackson Wilke da Cruz; SEMCOVICI, Pedro; PARDO, Thiago Alexandre Salgueiro. Proposta de algoritmo de classificação automática de papéis semânticos em português no âmbito do modelo Abstract Meaning Representation. Texto Livre, Belo Horizonte-MG, v. 18, p. e55346, 2025. DOI: 10.1590/1983-3652.2025.55346. Disponível em: https://periodicos.ufmg.br/index.php/textolivre/article/view/55346. Acesso em: 16 jul. 2025.

SOUZA, Luiz Fernando Spillere de; GONÇALVES, Alexandre Leopoldo; SOUZA, Joao Artur De. Utilização prática de Word Embedding aplicada à classificação de texto. Ciki, 2021, Florianópolis: Universidade Federal de Santa Catarina, 2021.

JIANG, Hongxun; FAN, Shaokun; ZHANG, Nan; ZHU, Bin. Deep learning for predicting patent application outcome: the fusion of text and network embeddings. Journal of Informetrics, v. 17, n. 2, p. 101402, 2023.

VILLA, Anna Maria; WIRZ, Manuel. A sequential patent search approach combining semantics and artificial intelligence to identify initial State-of-the-Art documents. World Patent Information, [S.L.], v. 68, p. 102096, mar. 2022. Elsevier BV. http://dx.doi.org/10.1016/j.wpi.2022.102096.

WITSCHARD, Daniel; JUSUFI, Ilir; MARTINS, Rafael M; KUCHER, Kostiantyn; KERREN, Andreas. Interactive optimization of embedding-based text similarity calculations. Information Visualization, [S.L.], v. 21, n. 4, p. 335-353, 3 ago. 2022. SAGE Publications. http://dx.doi.org/10.1177/14738716221114372.

WOLSKI, Luciano Zamperetti; PIZONI, Willian Aurélio; GONÇALVES, Alexandre Leopoldo. Modelo de classificação de patentes baseado em técnicas de engenharia de conhecimento. In: CONGRESSO INTERNACIONAL DE CONHECIMENTO E INOVAÇÃO – CIKI, 2022. Disponível em: https://proceeding.ciki.ufsc.br/index.php/ciki/article/view/1254/700. Acesso em: 29 maio 2025.

Publicado

2026-06-05

Número

Sección

Artigos

Cómo citar

MARQUES, Thiago Domingos; GONÇALVES, Alexandre Leopoldo. ANÁLISIS DE SIMILITUD EN TEXTOS DE PATENTES MEDIANTE PROCESAMIENTO DEL LENGUAJE NATURAL: REPRESENTACIONES VECTORIALES Y REDUCCIÓN DE DIMENSIONALIDAD: UN ENFOQUE VISUAL. ARACÊ , [S. l.], v. 8, n. 6, p. e13372, 2026. DOI: 10.56238/arev8n6-020. Disponível em: https://periodicos.newsciencepubl.com/arace/article/view/13372. Acesso em: 5 jun. 2026.