PPGECMaT - Mestrado em Educação em Ciências, Matemática e Tecnologia (Dissertações)
Permanent URI for this collectionhttps://repositorio.ufvjm.edu.br/collections/1b27967a-f431-4aad-b47f-5f3ec53f057e
Browse
Item Ciência de dados aplicada ao PISA 2018(UFVJM, 2022) Andrade, Rochelly Fernandes; Andrade, Alessandro Vivas; Universidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM); Andrade, Alessandro Vivas; Andrade, Helen Rose de Castro Silva; Brandão, Diego Nunes; Pitangui, Cristiano GrijóA educação está presente e ligada a várias áreas de interesse público. Sabendo-se dessa importância, Avaliações em Larga Escala são aplicadas em diversos países, objetivando servirem de indicadores desses quadros educacionais, bem como, monitorar as habilidades cognitivas relacionadas à literacia e à numeracia. O presente estudo aplicou técnicas de Ciência de Dados, uma área multidisciplinar, que envolve, principalmente aprendizado de máquina e estatística, sobre dados coletados pelo questionário aplicado aos professores durante a Avaliação em Larga Escala do Programa Internacional de Avaliação de Estudantes, edição 2018. O trabalho buscou identificar quais características, coletadas pelo questionário aplicado aos professores, têm mais impacto sobre o desempenho dos alunos nas avaliações de matemática e ciências. O trabalho aplicou dois modelos de aprendizado supervisionado, o Decision Tree e o Random Forest, nos quais a variável dependente foi elaborada com base nas notas médias dos países participantes e nos níveis de proficiência. Os modelos foram aplicados implementando o algoritmo CART com critério de classificação Gini, na qual os dados foram divididos através da técnica Holdout com 70% dos dados para treinamento e 30% para teste. A seleção de atributos foi realizada aplicando o método Recursive Feature Elimination, que reduziu a quantidade de atributos de 167 para 83. As instâncias com dados faltantes não foram utilizadas nesta pesquisa. O Matthews Correlation Coefficient-MCC avaliou a qualidade geral dos modelos sendo utilizado como principal meio de comparação de desempenho de classificação, tendo em vista a constatação de desbalanceamento das classes. Com o MCC observou-se que, de maneira geral que o Random Forest obteve os melhores desempenhos com 0,76 para o teste de matemática e 0,71 para ciências. Com o modelo gerado pelo algoritmo Random Forest, foram identificadas as principais características influenciadoras de desempenho, em que se destacaram características relacionadas à tecnologia, incentivo dado aos alunos pelos professores, motivação e valorização do aprendizado e capacitação dos professores.