PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática

dc.contributor.advisorGuelpeli, Marcus Vinícius Carvalho
dc.contributor.authorRocha, Valdir Júnior Cordeiro
dc.contributor.institutionUniversidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM)pt_BR
dc.contributor.refereeGuelpeli, Marcus Vinícius Carvalho
dc.contributor.refereeBerti, Cláudia Beatriz
dc.contributor.refereeHorta, Euler Guimarães
dc.contributor.refereeFonseca, Alexandre Ramos
dc.date.accessioned2018-05-04T16:22:37Z
dc.date.available2018-05-04T16:22:37Z
dc.date.issued2017
dc.date.submitted2017-12-05
dc.description.abstractCom a ampliação do acesso à internet e a criação de ferramentas que possibilitam pessoas a criarem conteúdo, a informação disponível cresce de forma acelerada. Textos sobre os mais diversos assuntos e autores são criados todos os dias. É impossível absorver a quantidade de informação disponível, o que dificulta a escolha da mais adequada para determinado interesse ou público. A sumarização automática de textos, além de apresentar um texto de forma condensada, pode simplifica-lo, gerando uma alternativa para ganho de tempo e ampliação do acesso a informação contida aos mais diferentes tipos de leitores. Os sumarizadores automáticos existentes atualmente na literatura não apresentam métodos de personificação dos sumários para cada tipo de leitor, e consequentemente geram resultados pouco precisos. Este trabalho tem como objetivo utilizar o sumarizador automático de textos PragmaSUM em textos educacionais com novas técnicas de sumarização utilizando palavras-chave. A utilização de métodos de personificação do sumário com palavras-chave visa aumentar a precisão e melhorar o desempenho do PragmaSUM e seus sumários. Para isto, um corpus formado apenas por artigos científicos da área educacional foi criado para realização de testes e comparações entre diferentes sumarizadores e métodos de sumarização. O desempenho dos sumarizadores foi medido pelas métricas Recall, Precision e F-Measure presentes na ferramenta ROUGE e validados com os testes estatísticos ANOVA de Friedman e Coeficiente de Concordância de Kendall. Os resultados obtidos apontam uma melhora no desempenho com a utilização de palavras-chave na sumarização com o PragmaSUM, indicando a importância na escolha adequada destas palavras-chave para classificação do conteúdo do texto fonte.pt_BR
dc.description.abstractsBy expanding access to the internet and creating tools that enable people to create content, available information grows rapidly. Texts on the most diverse subjects and authors are created every day. It is impossible to absorb the amount of information available, which makes it difficult to choose the most appropriate for a particular interest or public. Automatic text summarization, as well as presenting a condensed text, can simplify it, generating an alternative to gain time and increase the access to information contained to the most different types of readers. The automatic summarizers that currently exist in the literature do not present methods of personification of the summaries for each type of reader, and consequently generate results inaccurate. This work aims to use the PragmaSUM automatic text summarizer in educational texts with new summarization techniques using keywords. Using summary keywords impersonation methods is intended to increase accuracy and improve the performance of PragmaSUM and its summaries. For this, a corpus formed only by scientific articles of the educational area was created to carry out tests and comparisons between different summarizers and summarization methods. The performance of the summarizers was measured by the Recall, Precision and F-Measure metrics present in the ROUGE tool and validated with the Friedman ANOVA statistical tests and Kendall's coefficient of agreement. The results obtained indicate an improvement in the performance with the use of keywords in the summarization with PragmaSUM, pointing out importance in the appropriate choice of these keywords for classification of the content of the source text.en
dc.description.thesisDissertação (Mestrado Profissional) – Programa de Pós-Graduação em Educação, Universidade Federal dos Vales do Jequitinhonha e Mucuri, 2017.pt_BR
dc.identifier.citationROCHA, Valdir Júnior Cordeiro. PragmaSUM: novos métodos na utilização de palavras-chave na sumarização automática. 2017. 88 p. Dissertação (Mestrado Profissional) – Programa de Pós-Graduação em Educação, Universidade Federal dos Vales do Jequitinhonha e Mucuri, Diamantina, 2017.pt_BR
dc.identifier.urihttps://acervo.ufvjm.edu.br/items/f41a0724-7b3f-46c1-abd7-531b47b92442
dc.language.isopor
dc.publisherUFVJMpt_BR
dc.rightsAcesso Abertopt_BR
dc.rights.licenseA concessão da licença deste item refere-se ao à termo de autorização impresso assinado pelo autor, assim como na licença Creative Commons, com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade Federal dos Vales do Jequitinhonha e Mucuri e o IBICT a disponibilizar por meio de seus repositórios, sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, e preservação, a partir desta data.pt_BR
dc.subject.keywordPragmaSUMpt_BR
dc.subject.keywordSumarização automática de textospt_BR
dc.subject.keywordROUGEpt_BR
dc.subject.keywordLinguística computacionalen
dc.subject.keywordLinguística de corpusen
dc.subject.keywordAutomatic summarization of textsen
dc.subject.keywordComputational linguisticsen
dc.subject.keywordCorpus Linguisticspt_BR
dc.titlePragmaSUM: novos métodos na utilização de palavras-chave na sumarização automáticapt_BR
dc.typeDissertaçãopt_BR

Files

Original bundle

Now showing 1 - 1 of 1
Thumbnail Image
Name:
valdir_junior_cordeiro_rocha.pdf
Size:
3.58 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
2.11 KB
Format:
Item-specific license agreed upon to submission
Description: