CLUSTERIZAÇÃO DE DADOS EM DIFERENTES AMBIENTES: UMA ANÁLISE DE CUSTO, TEMPO E QUALIDADE

Guilherme Correia  Dutra; Felipe Nunes  Gaia; Rodrigo Elias  Francisco

doi:10.56238/levv16n49-112

Autores/as

Guilherme Correia Dutra Autor/a
Felipe Nunes Gaia Autor/a
Rodrigo Elias Francisco Autor/a

DOI:

https://doi.org/10.56238/levv16n49-112

Palabras clave:

Agrupamiento, Computación en la nube, Entorno local, ENADE, Puntuación Silhouette, Ciencia de datos

Resumen

Este trabajo busca analizar el rendimiento de algoritmos de clusterización en dos entornos informáticos diferentes: local y en la nube. La investigación se desarrolló con un enfoque cuantitativo y experimental, buscando medir y comparar el rendimiento de cuatro algoritmos (KMeans, MiniBatchKMeans, DBSCAN y HDBSCAN) con base en métricas como el tiempo de ejecución, el costo operativo y la calidad del cluster. Los datos utilizados se extrajeron del Examen Nacional de Rendimiento Estudiantil (ENADE) 2022, específicamente de preguntas relacionadas con la percepción de los estudiantes sobre el impacto de la pandemia en su formación académica. El procesamiento de datos incluyó la limpieza, normalización y estructuración para su análisis en ambos entornos. La implementación se realizó con herramientas como Python, PostgreSQL, Visual Studio Code y Amazon SageMaker, manteniendo los parámetros consistentes en todos los experimentos. La evaluación de la calidad del cluster se basó principalmente en el índice Silhouette, complementado con el análisis de la complejidad computacional y el tiempo de ejecución. Los resultados mostraron que el entorno en la nube tuvo un mejor rendimiento en términos de tiempo, especialmente MiniBatchKMeans, mientras que el entorno local fue más económico en términos de costo total. No se observaron diferencias significativas en la calidad de los clústeres entre los entornos. Se concluye que la elección entre entornos locales y en la nube debe considerar el perfil del proyecto, el volumen de datos, la urgencia del procesamiento y los recursos disponibles. El estudio contribuye a la comprensión práctica de las ventajas y limitaciones de cada infraestructura, ofreciendo apoyo para la toma de decisiones técnicas y estratégicas en el área de la ciencia de datos, especialmente en contextos educativos. El trabajo también refuerza la importancia de la replicabilidad, la automatización de pruebas y la selección cuidadosa de métricas de evaluación para garantizar resultados fiables en experimentos con datos reales.

Descargas

Los datos de descarga aún no están disponibles.

AGRUPACIÓN DE DATOS EN DIFERENTES ENTORNOS: UN ANÁLISIS DE COSTO, TIEMPO Y CALIDAD

Autores/as

DOI:

Palabras clave:

Resumen

Descargas

Descargas

Publicado

Número

Sección

Cómo citar

Google Scholar

Últimas publicaciones

Idioma

Enviar un artículo

Información

Palabras clave