Ciência de dados aplicada ao PISA 2018
Date
2022
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
UFVJM
Abstract
A educação está presente e ligada a várias áreas de interesse público. Sabendo-se dessa importância,
Avaliações em Larga Escala são aplicadas em diversos países, objetivando servirem de
indicadores desses quadros educacionais, bem como, monitorar as habilidades cognitivas relacionadas
à literacia e à numeracia. O presente estudo aplicou técnicas de Ciência de Dados,
uma área multidisciplinar, que envolve, principalmente aprendizado de máquina e estatística,
sobre dados coletados pelo questionário aplicado aos professores durante a Avaliação em Larga
Escala do Programa Internacional de Avaliação de Estudantes, edição 2018. O trabalho buscou
identificar quais características, coletadas pelo questionário aplicado aos professores, têm mais
impacto sobre o desempenho dos alunos nas avaliações de matemática e ciências. O trabalho
aplicou dois modelos de aprendizado supervisionado, o Decision Tree e o Random Forest, nos
quais a variável dependente foi elaborada com base nas notas médias dos países participantes e
nos níveis de proficiência. Os modelos foram aplicados implementando o algoritmo CART com
critério de classificação Gini, na qual os dados foram divididos através da técnica Holdout com
70% dos dados para treinamento e 30% para teste. A seleção de atributos foi realizada aplicando
o método Recursive Feature Elimination, que reduziu a quantidade de atributos de 167 para 83.
As instâncias com dados faltantes não foram utilizadas nesta pesquisa. O Matthews Correlation
Coefficient-MCC avaliou a qualidade geral dos modelos sendo utilizado como principal meio de
comparação de desempenho de classificação, tendo em vista a constatação de desbalanceamento
das classes. Com o MCC observou-se que, de maneira geral que o Random Forest obteve os
melhores desempenhos com 0,76 para o teste de matemática e 0,71 para ciências. Com o modelo
gerado pelo algoritmo Random Forest, foram identificadas as principais características influenciadoras
de desempenho, em que se destacaram características relacionadas à tecnologia, incentivo
dado aos alunos pelos professores, motivação e valorização do aprendizado e capacitação
dos professores.
Description
Keywords
Citation
ANDRADE, Rochelly Fernandes. Ciência de cados aplicada ao PISA 2018. 2022. 83 p. Dissertação (Mestrado Profissional em Educação em Ciências, Matemática e Tecnologia) – Programa de Pós-graduação em Educação em Ciências, Matemática e Tecnologia, Universidade Federal dos Vales do Jequitinhonha e Mucuri, Diamantina, 2022.