AnoTex: anotador de artigo científico para retextualização automática

Fonseca, Cláudia Aparecida

AnoTex: anotador de artigo científico para retextualização automática

dc.contributor.advisor	Guelpeli, Marcus Vinícius Carvalho
dc.contributor.advisorco	Bodolay, Adriana Nascimento
dc.contributor.author	Fonseca, Cláudia Aparecida
dc.contributor.institution	Universidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM)	pt_BR
dc.contributor.referee	Guelpeli, Marcus Vinícius Carvalho
dc.contributor.referee	Bodolay, Adriana Nascimento
dc.contributor.referee	Fonseca, Alexandre Ramos
dc.contributor.referee	Horta, Euler Guimarães
dc.contributor.referee	Maia, Renato Dourado
dc.contributor.referee	Carvalho, Leonardo Lana de
dc.date.accessioned	2019-12-05T20:51:35Z
dc.date.available	2019-12-05T20:51:35Z
dc.date.issued	2018
dc.date.submitted	2018-12-06
dc.description.abstract	Este trabalho foi desenvolvido no Mestrado Profissional Interdisciplinar em Educação, na área de Educação e Tecnologias Aplicadas em Instituições Educacionais, cujo propósito inicial foi demonstrar a necessidade de uma estreita relação entre um sistema de anotação automática de texto com a análise do gênero do texto base. A anotação textual deve representar as mais variadas formas, níveis e modalidades de manifestação da linguagem verbal que envolve, além dos aspectos semânticos e morfossintáticos, aspectos do discurso que também podem transmitir informações. Para alcançar os objetivos propostos, na análise dos dados estruturados do gênero e na abordagem da relação entre o sistema de anotação do corpus de estudo e o processamento automático, foi proposta a criação de um modelo computacional necessário para a compilação do Corpus linguístico, especializado, representativo do gênero artigo científico. O projeto teve como objeto de estudo os elementos representativos do gênero textual artigo científico, marcados em XML, extraídos e coletados do banco de dados da Biblioteca Eletrônica SciELO. Os dados, que compuseram o corpus de estudo, foram coletados automaticamente, pré-processados, categorizados e disponibilizados em bancos de árvore, pela ferramenta computacional para a anotação textual - AnoTex, que possibilita uma visualização e interação para análises qualitativas e quantitativas dos dados coletados. Como produto final do processo de extração, obteve-se uma base de dados com as informações extraídas e estruturadas no formato XML, que delimitam e identificam as marcações do gênero em análise, disponível para várias ferramentas e aplicações. Os resultados demonstram como a categorização dos elementos constitutivos do gênero, pode condensar as informações disponíveis de forma hierarquizada e dinâmica, construídas durante a compilação. Dentre elas, foi destacada a estrutura básica do artigo científico constituída por seus elementos pré-textuais <front>, textuais <body> e pós-textuais <back>. Para a compilação, anotação, compreensão e validação do corpus, foram utilizados os conceitos de Linguística Textual, Linguística de Corpus e Processamento de Linguagem Natural. Essas áreas de conhecimento exploram as relações entre linguística e informática, tornando possível a construção de sistemas computacionais com capacidade de reconhecer, localizar e produzir informação apresentada em linguagem natural.	pt_BR
dc.description.abstracts	This work was developed in the Professional Interdisciplinary Master in Education in the area of Education and Applied Technologies in Educational Institutions, whose initial purpose was to demonstrate the need for a close relationship between an automatic text annotation system and the analysis of the base text genre. The textual annotation must represent the most varied forms, levels and modalities of verbal language manifestation that involves, in addition to the semantic and morphosyntactic aspects, aspects of discourse that can also transmit information. In order to reach the proposed objectives, in the analysis of the structured data of the genre and in the approach of the relationship between the system of annotation of the study corpus and the automatic processing, it was proposed the creation of a computational model necessary for the compilation of the specialized linguistic Corpus, representative of the scientific article genre. The project had as object of study the elements representative of the textual genre scientific article, marked in XML, extracted and collected from the database of the Electronic Library SciELO. The data, which composed the study corpus, were automatically collected, pre-processed, categorized and made available in tree banks, by the computational tool for textual annotation - AnoTex, which enables a visualization and interaction for qualitative and quantitative analysis of collected data . As a final product of the extraction process, we obtained a database with the information extracted and structured in the XML format, which delimits and identifies the markings of the genus under analysis, available for various tools and applications. The results show how the categorization of the constituent elements of the genre can condense the available information in a hierarchical and dynamic way, built during the compilation. Among them, the basic structure of the scientific article constituted by its pre-textual elements <front>, textual <body> and post-textual <back> was highlighted. For the compilation, annotation, comprehension and validation of the corpus, the concepts of Textual Linguistics, Corpus Linguistics and Natural Language Processing were used. These areas of knowledge explore the relationships between linguistics and computer science, making possible the construction of computational systems with the ability to recognize, locate and produce information presented in natural language.	en
dc.description.thesis	Dissertação (Mestrado Profissional) – Programa de Pós-Graduação em Educação, Universidade Federal dos Vales do Jequitinhonha e Mucuri, 2018.	pt_BR
dc.identifier.citation	FONSECA, Cláudia Aparecida. AnoTex: anotador de artigo científico para retextualização automática. 2018. 111 p. Dissertação (Mestrado Profissional em Educação) – Programa de Pós-Graduação em Educação, Universidade Federal dos Vales do Jequitinhonha e Mucuri, Diamantina, 2018.	pt_BR
dc.identifier.uri	https://acervo.ufvjm.edu.br/items/37fefe53-529e-4895-8b58-083f394407f0
dc.language.iso	por
dc.publisher	UFVJM	pt_BR
dc.rights	Acesso Aberto	pt_BR
dc.rights.license	A concessão da licença deste item refere-se ao à termo de autorização impresso assinado pelo autor, assim como na licença Creative Commons, com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade Federal dos Vales do Jequitinhonha e Mucuri e o IBICT a disponibilizar por meio de seus repositórios, sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, e preservação, a partir desta data.	pt_BR
dc.subject.keyword	Linguística de Corpus	pt_BR
dc.subject.keyword	Processamento de Linguagem Natural	pt_BR
dc.subject.keyword	Artigo científico	pt_BR
dc.subject.keyword	Gênero textual	pt_BR
dc.subject.keyword	Anotação de Corpora	pt_BR
dc.subject.keyword	Corpus Linguistics	en
dc.subject.keyword	Natural Language Processing	en
dc.subject.keyword	Scientific article	en
dc.subject.keyword	Textual genre	en
dc.subject.keyword	Annotation of Corpora	en
dc.title	AnoTex: anotador de artigo científico para retextualização automática	pt_BR
dc.type	Dissertação	pt_BR

Files

Original bundle

Now showing 1 - 1 of 1

Name:: claudia_aparecida_fonseca.pdf
Size:: 1.98 MB
Format:: Adobe Portable Document Format

Download

License bundle

Now showing 1 - 1 of 1

Name:: license.txt
Size:: 2.11 KB
Format:: Item-specific license agreed upon to submission
Description:

Download

Collections

PPGED - Mestrado Profissional em Educação (Dissertações)