CLUSTERIZAÇÃO DE DADOS EM DIFERENTES AMBIENTES: UMA ANÁLISE DE CUSTO, TEMPO E QUALIDADE

Autores

  • Guilherme Correia Dutra Author
  • Felipe Nunes Gaia Author
  • Rodrigo Elias Francisco Author

DOI:

https://doi.org/10.56238/levv16n49-112

Palavras-chave:

Clusterização, Computação em nuvem, Ambiente local, ENADE, Silhouette Score, Ciência de dados

Resumo

Este trabalho tem como objetivo analisar o desempenho da aplicação de algoritmos de clusterização em dois ambientes computacionais distintos: local e em nuvem. A pesquisa foi desenvolvida com enfoque quantitativo e experimental, buscando mensurar e comparar o desempenho de quatro algoritmos – KMeans, MiniBatchKMeans, DBSCAN e HDBSCAN – com base em métricas como tempo de execução, custo operacional e qualidade dos agrupamentos. Os dados utilizados foram extraídos do Exame Nacional de Desempenho dos Estudantes (ENADE) de 2022, especificamente das questões relacionadas às percepções dos estudantes sobre o impacto da pandemia em sua formação acadêmica. O tratamento dos dados incluiu limpeza, normalização e estruturação para análise em ambos os ambientes. A implementação foi realizada com ferramentas como Python, PostgreSQL, Visual Studio Code e Amazon SageMaker, mantendo os parâmetros consistentes em todos os experimentos. A avaliação da qualidade dos clusters foi baseada principalmente no índice de Silhouette, complementada por análise de complexidade computacional e tempo de execução. Os resultados demonstraram que o ambiente em nuvem apresentou melhor desempenho em termos de tempo, com destaque para o MiniBatchKMeans, enquanto o ambiente local foi mais econômico em termos de custo total. Não foram observadas diferenças significativas na qualidade dos agrupamentos entre os ambientes. Conclui-se que a escolha entre ambientes locais e em nuvem deve considerar o perfil do projeto, o volume de dados, a urgência de processamento e os recursos disponíveis. O estudo contribui para a compreensão prática das vantagens e limitações de cada infraestrutura, oferecendo subsídios para decisões técnicas e estratégicas na área de ciência de dados, especialmente em contextos educacionais. O trabalho também reforça a importância da replicabilidade, da automação de testes e da escolha criteriosa de métricas de avaliação para garantir resultados confiáveis em experimentos com dados reais.

Downloads

Os dados de download ainda não estão disponíveis.

Downloads

Publicado

2025-06-28

Como Citar

DUTRA, Guilherme Correia; GAIA, Felipe Nunes; FRANCISCO, Rodrigo Elias. CLUSTERIZAÇÃO DE DADOS EM DIFERENTES AMBIENTES: UMA ANÁLISE DE CUSTO, TEMPO E QUALIDADE. LUMEN ET VIRTUS, [S. l.], v. 16, n. 49, p. 7802–7852, 2025. DOI: 10.56238/levv16n49-112. Disponível em: https://periodicos.newsciencepubl.com/LEV/article/view/6235. Acesso em: 5 dez. 2025.