APLICACIÓN Y ANÁLISIS DEL RENDIMIENTO DE ALGORITMOS DE APRENDIZAJE AUTOMÁTICO EN LA PREDICCIÓN DE CLASES SOCIALES
DOI:
https://doi.org/10.56238/arev7n7-061Palabras clave:
Estratificación social, Clases sociales, Aprendizaje automáticoResumen
Esta investigación tuvo como objetivo emplear algoritmos de aprendizaje automático para predecir la clase social con base en un conjunto de características individuales: ingresos, educación, raza, género, edad, región geográfica y situación laboral. El objetivo fue obtener la misma categorización de clases sociales para dos conjuntos de datos distintos: la PNAD-C del IBGE y la encuesta "Opinión sobre el Coronavirus" de Datafolha, con base en una categorización de referencia internacional, para analizar la opinión pública brasileña según la clase social. Para ello, entrenamos y evaluamos seis algoritmos de aprendizaje automático: clasificador MLP, Random Forest, KNN, regresión logística, SVM y GaussianNB, utilizando la base de datos anual PNAD-C, y posteriormente aplicamos el modelo con mejor rendimiento en la base de datos Datafolha, ambos de 2021. La elección del modelo se basó en los resultados de tres métricas de validación: precisión, puntuación F1 y área bajo la curva ROC. El modelo con mejor rendimiento fue Random Forest. El análisis de la aplicación de este modelo a la base de datos Datafolha reveló una correspondencia satisfactoria con la distribución original de las características de la PNAD-C, especialmente en las variables con mayor peso: educación, ingresos y situación laboral, lo que corrobora la literatura sobre estratificación social y aporta nuevas perspectivas sobre el tema.
