PPGED - Mestrado Profissional em Educação (Dissertações)

Permanent URI for this collectionhttps://repositorio.ufvjm.edu.br/collections/7dace26e-c209-4368-bebd-d4b441715786

Browse

Search Results

Now showing 1 - 3 of 3
  • Thumbnail Image
    Item
    Um modelo baseado em regras para a detecção de bots no Twitter
    (UFVJM, 2019) Leite, Maria Alice Gomes Lopes; Guelpeli, Marcus Vinícius Carvalho; Santos, Caroline Queiroz; Universidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM); Santos, Caroline Queiroz; Villela, Maria Lúcia Bento; Maia, Renato Dourado
    O grande crescimento do uso cotidiano das redes sociais on-line pela sociedade transformou-as em importantes fontes de estudos em diversas áreas. Os dados gerados por essas redes passaram a ser utilizados em pesquisas de diferentes fins, que vão desde a previsão do mercado de ações e resultados de eleições, até o comportamento humano. Porém, as amostras de dados extraídas dessas redes tornaram-se vulneráveis às atividades dos bots, contas automatizadas utilizadas com o objetivo de enganar e influenciar outros usuários. Diante disso, este trabalho propôs uma abordagem supervisionada de extração de conhecimento de uma base de dados da literatura, por meio de técnicas que visam não somente classificar, mas descrever as principais características dos bots no Twitter, gerando assim um modelo de classificação baseado em regras. Após a interpretação e modelagem do problema, os dados foram preparados, inserindo, modificando, preenchendo e excluindo atributos por meio de informações de contexto para as diferentes técnicas de Inteligência Artificial aplicadas. A Árvore de Decisão construiu condições sequenciais em linguagem natural, demonstrando um poder de classificação de 0,97 para a AUC-ROC. Novas regras foram geradas,por meio de indução, baseada em escores, a fim de encontrar condicões que foram negligenciadas pela árvore. Essas regras foram avaliadas pela métricas de Cobertura, Confiança e Lift, e demonstraram um alto poder discriminante. Este trabalho visa contribuir com a camada de filtro de bots no Framework Oráculo, que, por meio de uma interface amigável, visa coletar dados do Twitter com pouca interferência de contas maliciosas. Esse framework está sendo construído pelo Grupo de Pesquisa MTPLNAM e será disponibilizado para toda a comunidade sob licença de software livre.
  • Thumbnail Image
    Item
    Framework Oráculo: camada de coleta e mineração de textos para o Twitter
    (UFVJM, 2019) Oliveira, Hércules Batista de; Guelpeli, Marcus Vinícius Carvalho; Universidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM); Guelpeli, Marcus Vinícius Carvalho; Fonseca, Alexandre Ramos; Villela, Maria Lúcia Bento; Maia, Renato Dourado
    As redes sociais online constituem um importante espaço de convivência para a população, com aplicações em comunicação, diversão, propaganda, mobilização social e comunitária. Os dados compartilhados em tais redes constituem fonte de pesquisa de diversos trabalhos que buscam analisar as interações dos seus usuários. Para que se possam analisar os dados coletados de maneira eficiente, devido ao grande volume produzido por essas redes, faz-se necessária a utilização de técnicas de mineração de textos. Nesse processo de mineração de texto apresenta-se o desafio da falta de acesso direto aos dados das redes sociais online, o que torna necessário utilizar ferramentas especializadas para realizar a coleta de dados. O framework Oráculo, em desenvolvimento pelo grupo de pesquisa MTPLNAM, é formado por diferentes camadas. Nesta pesquisa foi desenvolvida a camada de coleta e mineração de textos, que aplica diferentes técnicas e algoritmos para coletar texto do Twitter, buscando contornar as limitações impostas pela API disponibilizada por ele, e integra um minerador de textos para analisar as coletas realizadas. Essa camada do framework dispõe de interface web, permitindo a utilização por pesquisadores não familiarizados com a área de computação. Foram realizados testes comparativos de desempenho entre o framework Oráculo e outra ferramenta semelhante de coleta e mineração de textos, o DMIT-CAT. Os resultados desses testes apontam que o framework Oráculo teve desempenho superior ao DMI-TCAT em número de tweets coletados nos cenários analisados. Testes estatísticos foram executados e validaram os resultados dos testes de desempenho.
  • Thumbnail Image
    Item
    ENEM nas redes sociais: mineração de textos e clusterização
    (UFVJM, 2017) Silva, Leila Maria; Guelpeli, Marcus Vinícius Carvalho; Universidade Federal dos Vales do Jequitinhonha e Mucuri (UFVJM); Guelpeli, Marcus Vinícius Carvalho; Fonseca, Alexandre Ramos; Sabino, Geruza de Fátima Tomé; Villela, Maria Lucia Bento
    A internet é hoje a maior fonte de informação eletrônica existente. Cresce a cada dia o número de usuários da internet, e consequentemente o uso das redes sociais online. São muitas as informações novas que ficam embutidas nas bases de dados textuais. Por causa da sua natureza dinâmica, ou seja, milhões de páginas surgem e desaparecem todos os dias, a tarefa de encontrar informações relevantes nessas bases de dados se torna muito difícil. As técnicas de mineração de textos para a descoberta de informações na web surgiram da necessidade de sanar este problema. O presente trabalho versa sobre a aplicação de métodos de mineração de textos com clusterização na grande quantidade de mensagens sobre o Exame Nacional do Ensino Médio no ano de 2016 provenientes da rede social Twitter. O foco deste estudo está na obtenção de grupos de textos, a fim de possibilitar uma visualização resumida e sintetizada dos assuntos mais comentados pelos usuários. Para manipulação dessas bases textuais, o Modelo Cassiopeia foi utilizado empregando seu algoritmo de agrupamento textual que tem como principal finalidade gerar agrupamentos, ou seja, clusters (grupos) de documentos textuais que apresentam algum tipo de similaridade. O Modelo Cassiopeia apresenta um limite de processamento com a quantidade máxima de 700 tweets. Os tweets passam primeiramente pela fase de limpeza dos textos no pré-processamento, logo após, a utilização do algoritmo no processamento e por fim, as análises dos resultados no pós-processamento. Os resultados obtidos neste trabalho mostram valores coesos quanto à similaridade dos documentos dentro de um cluster e entre os clusters, avaliados por medidas de agrupamento textual, proposto pelo Modelo Cassiopeia. Isso demonstra a aplicabilidade dessa proposta para a visualização sintetizada das informações mais significativas de um determinado tema, muitas vezes permitindo que ações sejam antecipadas e impactos sobre a população afetada sejam reduzidos.