Ciência de dados aplicada ao PISA 2018
dc.contributor.advisor | Andrade, Alessandro Vivas | |
dc.contributor.author | Andrade, Rochelly Fernandes | |
dc.contributor.institution | Universidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM) | pt_BR |
dc.contributor.referee | Andrade, Alessandro Vivas | |
dc.contributor.referee | Andrade, Helen Rose de Castro Silva | |
dc.contributor.referee | Brandão, Diego Nunes | |
dc.contributor.referee | Pitangui, Cristiano Grijó | |
dc.date.accessioned | 2022-09-19T21:12:38Z | |
dc.date.available | 2022-09-19T21:12:38Z | |
dc.date.issued | 2022 | |
dc.date.submitted | 2022-08-11 | |
dc.description.abstract | A educação está presente e ligada a várias áreas de interesse público. Sabendo-se dessa importância, Avaliações em Larga Escala são aplicadas em diversos países, objetivando servirem de indicadores desses quadros educacionais, bem como, monitorar as habilidades cognitivas relacionadas à literacia e à numeracia. O presente estudo aplicou técnicas de Ciência de Dados, uma área multidisciplinar, que envolve, principalmente aprendizado de máquina e estatística, sobre dados coletados pelo questionário aplicado aos professores durante a Avaliação em Larga Escala do Programa Internacional de Avaliação de Estudantes, edição 2018. O trabalho buscou identificar quais características, coletadas pelo questionário aplicado aos professores, têm mais impacto sobre o desempenho dos alunos nas avaliações de matemática e ciências. O trabalho aplicou dois modelos de aprendizado supervisionado, o Decision Tree e o Random Forest, nos quais a variável dependente foi elaborada com base nas notas médias dos países participantes e nos níveis de proficiência. Os modelos foram aplicados implementando o algoritmo CART com critério de classificação Gini, na qual os dados foram divididos através da técnica Holdout com 70% dos dados para treinamento e 30% para teste. A seleção de atributos foi realizada aplicando o método Recursive Feature Elimination, que reduziu a quantidade de atributos de 167 para 83. As instâncias com dados faltantes não foram utilizadas nesta pesquisa. O Matthews Correlation Coefficient-MCC avaliou a qualidade geral dos modelos sendo utilizado como principal meio de comparação de desempenho de classificação, tendo em vista a constatação de desbalanceamento das classes. Com o MCC observou-se que, de maneira geral que o Random Forest obteve os melhores desempenhos com 0,76 para o teste de matemática e 0,71 para ciências. Com o modelo gerado pelo algoritmo Random Forest, foram identificadas as principais características influenciadoras de desempenho, em que se destacaram características relacionadas à tecnologia, incentivo dado aos alunos pelos professores, motivação e valorização do aprendizado e capacitação dos professores. | pt_BR |
dc.description.abstracts | Education is present and linked to several areas of public interest. Knowing this importance, Large-Scale Assessments are applied in several countries, aiming to serve as indicators of these educational frameworks, as well as monitoring cognitive skills related to literacy and numeracy. The present study applied Data Science techniques, a multidisciplinary area, which mainly involves machine learning and statistics, on data collected by the questionnaire applied to teachers during the Large-Scale Assessment of the Programme for International Student Assessment, 2018 edition. This work sought to identify which characteristics, collected by the questionnaire applied to teachers, have the greatest impact on student performance in mathematics and science assessments. The work applied two supervised learning models, the Decision Tree and the Random Forest, in which the dependent variable was elaborated based on the average scores of the participating countries and on the proficiency levels. The models were applied implementing the CART algorithm with Gini classification criterion, in which the data were divided using the Holdout technique with 70% of the data for training and 30% for testing. Attribute selection was performed using the Recursive Feature Elimination method, which reduced the number of attributes from 167 to 83. Instances with missing data were not used in this research. The Matthews Correlation Coefficient-MCC evaluated the general quality of the models being used as the main means of comparing the classification performance, in view of the verification of class imbalance. With the MCC it was observed that, in general, Random Forest obtained the best performances with 0.76 for the math test and 0.71 for science. With the model generated by the algorithm Random Forest, the main characteristics influencing performance were identified, in which characteristics related to technology, incentive given to students by teachers, motivation and appreciation of learning and teacher training were highlighted. | en |
dc.description.thesis | Dissertação (Mestrado Profissional) – Programa de Pós-graduação em Educação em Ciências, Matemática e Tecnologia, Universidade Federal dos Vales do Jequitinhonha e Mucuri, 2022. | pt_BR |
dc.identifier.citation | ANDRADE, Rochelly Fernandes. Ciência de cados aplicada ao PISA 2018. 2022. 83 p. Dissertação (Mestrado Profissional em Educação em Ciências, Matemática e Tecnologia) – Programa de Pós-graduação em Educação em Ciências, Matemática e Tecnologia, Universidade Federal dos Vales do Jequitinhonha e Mucuri, Diamantina, 2022. | pt_BR |
dc.identifier.uri | https://acervo.ufvjm.edu.br/items/20504eb4-ee13-4bd7-adb3-3d0dc322df00 | |
dc.language.iso | por | |
dc.publisher | UFVJM | pt_BR |
dc.rights | Acesso Aberto | pt_BR |
dc.rights.license | A concessão da licença deste item refere-se ao à termo de autorização impresso assinado pelo autor, assim como na licença Creative Commons, com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade Federal dos Vales do Jequitinhonha e Mucuri e o IBICT a disponibilizar por meio de seus repositórios, sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, e preservação, a partir desta data. | pt_BR |
dc.subject.keyword | Avaliações em Larga Escala | pt_BR |
dc.subject.keyword | Aprendizado de Máquina | pt_BR |
dc.subject.keyword | Ciência de Dados | pt_BR |
dc.subject.keyword | Educação | pt_BR |
dc.subject.keyword | PISA | en |
dc.subject.keyword | Large-scale assessment | en |
dc.subject.keyword | Machine learning | en |
dc.subject.keyword | Data Science | en |
dc.subject.keyword | Education | en |
dc.title | Ciência de dados aplicada ao PISA 2018 | pt_BR |
dc.type | Dissertação | pt_BR |
Files
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 2.11 KB
- Format:
- Item-specific license agreed upon to submission
- Description: