APLICAÇÃO E ANÁLISE DE DESEMPENHO DE ALGORITMOS DE MACHINE LEARNING NA PREDIÇÃO DE CLASSE SOCIAL
DOI:
https://doi.org/10.56238/arev7n7-061Palavras-chave:
Estratificação social, Classes sociais, Machine learningResumo
Esta pesquisa visou empregar algoritmos de machine learning para predizer a classe social com base em um conjunto de características individuais: renda, escolaridade, raça, sexo, idade, região geográfica e situação ocupacional. O objetivo foi obter a mesma categorização de classes sociais para dois conjuntos de dados distintos: a PNAD-C do IBGE e a pesquisa “Opinião sobre o Coronavírus”, do Datafolha, fundamentando-se em uma categorização de referência internacional, para analisar a opinião pública brasileira segundo classe social. Para isso, treinamos e avaliamos seis algoritmos de machine learning: MLP Classifier, Random Forest, KNN, Regressão Logística, SVM e GaussianNB, utilizando a base de dados anual da PNAD-C, e posteriormente aplicamos o modelo que obteve melhor desempenho na base do Datafolha, ambos de 2021. A escolha do modelo baseou-se nos resultados de três métricas de validação: acurácia, F1-Score e área abaixo da curva do ROC. O modelo que apresentou melhor desempenho foi o Random Forest. A análise da aplicação deste modelo na base de dados do Datafolha revelou uma correspondência satisfatória com a distribuição original das features da PNAD-C, especialmente nas variáveis de maior peso: escolaridade, renda e situação ocupacional, corroborando com a literatura sobre estratificação social, além de fornecer novos insights sobre o tema.