AnoTex: anotador de artigo científico para retextualização automática
Date
2018
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
UFVJM
Abstract
Este trabalho foi desenvolvido no Mestrado Profissional Interdisciplinar em Educação, na área de Educação e Tecnologias Aplicadas em Instituições Educacionais, cujo propósito inicial foi demonstrar a necessidade de uma estreita relação entre um sistema de anotação automática de texto com a análise do gênero do texto base. A anotação textual deve representar as mais variadas formas, níveis e modalidades de manifestação da linguagem verbal que envolve, além dos aspectos semânticos e morfossintáticos, aspectos do discurso que também podem transmitir informações. Para alcançar os objetivos propostos, na análise dos dados estruturados do gênero e na abordagem da relação entre o sistema de anotação do corpus de estudo e o processamento automático, foi proposta a criação de um modelo computacional necessário para a compilação do Corpus linguístico, especializado, representativo do gênero artigo científico. O projeto teve como objeto de estudo os elementos representativos do gênero textual artigo científico, marcados em XML, extraídos e coletados do banco de dados da Biblioteca Eletrônica SciELO. Os dados, que compuseram o corpus de estudo, foram coletados automaticamente, pré-processados, categorizados e disponibilizados em bancos de árvore, pela ferramenta computacional para a anotação textual - AnoTex, que possibilita uma visualização e interação para análises qualitativas e quantitativas dos dados coletados. Como produto final do processo de extração, obteve-se uma base de dados com as informações extraídas e estruturadas no formato XML, que delimitam e identificam as marcações do gênero em análise, disponível para várias ferramentas e aplicações. Os resultados demonstram como a categorização dos elementos constitutivos do gênero, pode condensar as informações disponíveis de forma hierarquizada e dinâmica, construídas durante a compilação. Dentre elas, foi destacada a estrutura básica do artigo científico constituída por seus elementos pré-textuais <front>, textuais <body> e pós-textuais <back>. Para a compilação, anotação, compreensão e validação do corpus, foram utilizados os conceitos de Linguística Textual, Linguística de Corpus e Processamento de Linguagem Natural. Essas áreas de conhecimento exploram as relações entre linguística e informática, tornando possível a construção de sistemas computacionais com capacidade de reconhecer, localizar e produzir informação apresentada em linguagem natural.
Description
Keywords
Citation
FONSECA, Cláudia Aparecida. AnoTex: anotador de artigo científico para retextualização automática. 2018. 111 p. Dissertação (Mestrado Profissional em Educação) – Programa de Pós-Graduação em Educação, Universidade Federal dos Vales do Jequitinhonha e Mucuri, Diamantina, 2018.