CLUSTERIZAÇÃO DE DADOS EM DIFERENTES AMBIENTES: UMA ANÁLISE DE CUSTO, TEMPO E QUALIDADE
DOI:
https://doi.org/10.56238/levv16n49-112Palavras-chave:
Clusterização, Computação em nuvem, Ambiente local, ENADE, Silhouette Score, Ciência de dadosResumo
Este trabalho tem como objetivo analisar o desempenho da aplicação de algoritmos de clusterização em dois ambientes computacionais distintos: local e em nuvem. A pesquisa foi desenvolvida com enfoque quantitativo e experimental, buscando mensurar e comparar o desempenho de quatro algoritmos – KMeans, MiniBatchKMeans, DBSCAN e HDBSCAN – com base em métricas como tempo de execução, custo operacional e qualidade dos agrupamentos. Os dados utilizados foram extraídos do Exame Nacional de Desempenho dos Estudantes (ENADE) de 2022, especificamente das questões relacionadas às percepções dos estudantes sobre o impacto da pandemia em sua formação acadêmica. O tratamento dos dados incluiu limpeza, normalização e estruturação para análise em ambos os ambientes. A implementação foi realizada com ferramentas como Python, PostgreSQL, Visual Studio Code e Amazon SageMaker, mantendo os parâmetros consistentes em todos os experimentos. A avaliação da qualidade dos clusters foi baseada principalmente no índice de Silhouette, complementada por análise de complexidade computacional e tempo de execução. Os resultados demonstraram que o ambiente em nuvem apresentou melhor desempenho em termos de tempo, com destaque para o MiniBatchKMeans, enquanto o ambiente local foi mais econômico em termos de custo total. Não foram observadas diferenças significativas na qualidade dos agrupamentos entre os ambientes. Conclui-se que a escolha entre ambientes locais e em nuvem deve considerar o perfil do projeto, o volume de dados, a urgência de processamento e os recursos disponíveis. O estudo contribui para a compreensão prática das vantagens e limitações de cada infraestrutura, oferecendo subsídios para decisões técnicas e estratégicas na área de ciência de dados, especialmente em contextos educacionais. O trabalho também reforça a importância da replicabilidade, da automação de testes e da escolha criteriosa de métricas de avaliação para garantir resultados confiáveis em experimentos com dados reais.