AGRUPACIÓN DE DATOS EN DIFERENTES ENTORNOS: UN ANÁLISIS DE COSTO, TIEMPO Y CALIDAD
DOI:
https://doi.org/10.56238/levv16n49-112Palabras clave:
Agrupamiento, Computación en la nube, Entorno local, ENADE, Puntuación Silhouette, Ciencia de datosResumen
Este trabajo busca analizar el rendimiento de algoritmos de clusterización en dos entornos informáticos diferentes: local y en la nube. La investigación se desarrolló con un enfoque cuantitativo y experimental, buscando medir y comparar el rendimiento de cuatro algoritmos (KMeans, MiniBatchKMeans, DBSCAN y HDBSCAN) con base en métricas como el tiempo de ejecución, el costo operativo y la calidad del cluster. Los datos utilizados se extrajeron del Examen Nacional de Rendimiento Estudiantil (ENADE) 2022, específicamente de preguntas relacionadas con la percepción de los estudiantes sobre el impacto de la pandemia en su formación académica. El procesamiento de datos incluyó la limpieza, normalización y estructuración para su análisis en ambos entornos. La implementación se realizó con herramientas como Python, PostgreSQL, Visual Studio Code y Amazon SageMaker, manteniendo los parámetros consistentes en todos los experimentos. La evaluación de la calidad del cluster se basó principalmente en el índice Silhouette, complementado con el análisis de la complejidad computacional y el tiempo de ejecución. Los resultados mostraron que el entorno en la nube tuvo un mejor rendimiento en términos de tiempo, especialmente MiniBatchKMeans, mientras que el entorno local fue más económico en términos de costo total. No se observaron diferencias significativas en la calidad de los clústeres entre los entornos. Se concluye que la elección entre entornos locales y en la nube debe considerar el perfil del proyecto, el volumen de datos, la urgencia del procesamiento y los recursos disponibles. El estudio contribuye a la comprensión práctica de las ventajas y limitaciones de cada infraestructura, ofreciendo apoyo para la toma de decisiones técnicas y estratégicas en el área de la ciencia de datos, especialmente en contextos educativos. El trabajo también refuerza la importancia de la replicabilidad, la automatización de pruebas y la selección cuidadosa de métricas de evaluación para garantizar resultados fiables en experimentos con datos reales.