AnoTex: anotador de artigo científico para retextualização automática

dc.contributor.advisorGuelpeli, Marcus Vinícius Carvalho
dc.contributor.advisorcoBodolay, Adriana Nascimento
dc.contributor.authorFonseca, Cláudia Aparecida
dc.contributor.institutionUniversidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM)pt_BR
dc.contributor.refereeGuelpeli, Marcus Vinícius Carvalho
dc.contributor.refereeBodolay, Adriana Nascimento
dc.contributor.refereeFonseca, Alexandre Ramos
dc.contributor.refereeHorta, Euler Guimarães
dc.contributor.refereeMaia, Renato Dourado
dc.contributor.refereeCarvalho, Leonardo Lana de
dc.date.accessioned2019-12-05T20:51:35Z
dc.date.available2019-12-05T20:51:35Z
dc.date.issued2018
dc.date.submitted2018-12-06
dc.description.abstractEste trabalho foi desenvolvido no Mestrado Profissional Interdisciplinar em Educação, na área de Educação e Tecnologias Aplicadas em Instituições Educacionais, cujo propósito inicial foi demonstrar a necessidade de uma estreita relação entre um sistema de anotação automática de texto com a análise do gênero do texto base. A anotação textual deve representar as mais variadas formas, níveis e modalidades de manifestação da linguagem verbal que envolve, além dos aspectos semânticos e morfossintáticos, aspectos do discurso que também podem transmitir informações. Para alcançar os objetivos propostos, na análise dos dados estruturados do gênero e na abordagem da relação entre o sistema de anotação do corpus de estudo e o processamento automático, foi proposta a criação de um modelo computacional necessário para a compilação do Corpus linguístico, especializado, representativo do gênero artigo científico. O projeto teve como objeto de estudo os elementos representativos do gênero textual artigo científico, marcados em XML, extraídos e coletados do banco de dados da Biblioteca Eletrônica SciELO. Os dados, que compuseram o corpus de estudo, foram coletados automaticamente, pré-processados, categorizados e disponibilizados em bancos de árvore, pela ferramenta computacional para a anotação textual - AnoTex, que possibilita uma visualização e interação para análises qualitativas e quantitativas dos dados coletados. Como produto final do processo de extração, obteve-se uma base de dados com as informações extraídas e estruturadas no formato XML, que delimitam e identificam as marcações do gênero em análise, disponível para várias ferramentas e aplicações. Os resultados demonstram como a categorização dos elementos constitutivos do gênero, pode condensar as informações disponíveis de forma hierarquizada e dinâmica, construídas durante a compilação. Dentre elas, foi destacada a estrutura básica do artigo científico constituída por seus elementos pré-textuais <front>, textuais <body> e pós-textuais <back>. Para a compilação, anotação, compreensão e validação do corpus, foram utilizados os conceitos de Linguística Textual, Linguística de Corpus e Processamento de Linguagem Natural. Essas áreas de conhecimento exploram as relações entre linguística e informática, tornando possível a construção de sistemas computacionais com capacidade de reconhecer, localizar e produzir informação apresentada em linguagem natural.pt_BR
dc.description.abstractsThis work was developed in the Professional Interdisciplinary Master in Education in the area of Education and Applied Technologies in Educational Institutions, whose initial purpose was to demonstrate the need for a close relationship between an automatic text annotation system and the analysis of the base text genre. The textual annotation must represent the most varied forms, levels and modalities of verbal language manifestation that involves, in addition to the semantic and morphosyntactic aspects, aspects of discourse that can also transmit information. In order to reach the proposed objectives, in the analysis of the structured data of the genre and in the approach of the relationship between the system of annotation of the study corpus and the automatic processing, it was proposed the creation of a computational model necessary for the compilation of the specialized linguistic Corpus, representative of the scientific article genre. The project had as object of study the elements representative of the textual genre scientific article, marked in XML, extracted and collected from the database of the Electronic Library SciELO. The data, which composed the study corpus, were automatically collected, pre-processed, categorized and made available in tree banks, by the computational tool for textual annotation - AnoTex, which enables a visualization and interaction for qualitative and quantitative analysis of collected data . As a final product of the extraction process, we obtained a database with the information extracted and structured in the XML format, which delimits and identifies the markings of the genus under analysis, available for various tools and applications. The results show how the categorization of the constituent elements of the genre can condense the available information in a hierarchical and dynamic way, built during the compilation. Among them, the basic structure of the scientific article constituted by its pre-textual elements <front>, textual <body> and post-textual <back> was highlighted. For the compilation, annotation, comprehension and validation of the corpus, the concepts of Textual Linguistics, Corpus Linguistics and Natural Language Processing were used. These areas of knowledge explore the relationships between linguistics and computer science, making possible the construction of computational systems with the ability to recognize, locate and produce information presented in natural language.en
dc.description.thesisDissertação (Mestrado Profissional) – Programa de Pós-Graduação em Educação, Universidade Federal dos Vales do Jequitinhonha e Mucuri, 2018.pt_BR
dc.identifier.citationFONSECA, Cláudia Aparecida. AnoTex: anotador de artigo científico para retextualização automática. 2018. 111 p. Dissertação (Mestrado Profissional em Educação) – Programa de Pós-Graduação em Educação, Universidade Federal dos Vales do Jequitinhonha e Mucuri, Diamantina, 2018.pt_BR
dc.identifier.urihttps://acervo.ufvjm.edu.br/items/37fefe53-529e-4895-8b58-083f394407f0
dc.language.isopor
dc.publisherUFVJMpt_BR
dc.rightsAcesso Abertopt_BR
dc.rights.licenseA concessão da licença deste item refere-se ao à termo de autorização impresso assinado pelo autor, assim como na licença Creative Commons, com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade Federal dos Vales do Jequitinhonha e Mucuri e o IBICT a disponibilizar por meio de seus repositórios, sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, e preservação, a partir desta data.pt_BR
dc.subject.keywordLinguística de Corpuspt_BR
dc.subject.keywordProcessamento de Linguagem Naturalpt_BR
dc.subject.keywordArtigo científicopt_BR
dc.subject.keywordGênero textualpt_BR
dc.subject.keywordAnotação de Corporapt_BR
dc.subject.keywordCorpus Linguisticsen
dc.subject.keywordNatural Language Processingen
dc.subject.keywordScientific articleen
dc.subject.keywordTextual genreen
dc.subject.keywordAnnotation of Corporaen
dc.titleAnoTex: anotador de artigo científico para retextualização automáticapt_BR
dc.typeDissertaçãopt_BR

Files

Original bundle

Now showing 1 - 1 of 1
Thumbnail Image
Name:
claudia_aparecida_fonseca.pdf
Size:
1.98 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
2.11 KB
Format:
Item-specific license agreed upon to submission
Description: