@MASTERSTHESIS{ 2018:1385286481, title = {Uma medida de similaridade textual para identificação de plágio em fóruns educacionais}, year = {2018}, url = "http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/7868", abstract = "Com o crescente uso da tecnologia como ferramenta de apoio educacional, o uso de Ambiente Virtual de Aprendizagem (AVA) tem aumentado nos últimos anos. Estes ambientes disponibilizam várias ferramentas para melhorar a interação entre professores e alunos, tais como fórum, blog, wiki, entre outras. Estas ferramentas possuem um grande potencial para gerar conteúdo, o que pode ser usado para auxiliar no processo de ensino-aprendizagem. Porém, devido a grande quantidade de interações entre os alunos e o professor, torna-se difícil para o professor avaliar e acompanhar todo o material que é disponibilizado pelos alunos. Uma ferramenta que se destaca em relação à geração de conteúdo colaborativo é o fórum. Dentre as possíveis funcionalidades dos fóruns se destaca a questão da avaliação. Muitas disciplinas a distância utilizam a interação no fórum como forma de avaliação dos alunos. Contudo, devido a grande quantidade de dados postado na ferramenta, é difícil para o professor identificar problemas nas postagens, como por exemplo a detecção de plágio. A base fundamental para a criação de sistemas automáticos de detecção de plágio é a criação de uma medida de similaridade que possa medir a relação existente entre dois textos. A similaridade entre textos é importante em diversas aplicações de Processamento de Linguagem Natural (PLN), como recuperação de informação, sumarização de texto, extração de informações e agrupamento de texto. Várias medidas de similaridade entre textos já foram criadas; entretanto, em geral, elas são dependentes de idioma. No caso do português, poucas medidas foram encontradas e a maioria utiliza apenas técnicas estatísticas, não levando em consideração aspectos semânticos dos textos. Além disso, existem trabalhos na literatura para identificação de plágio em atividades, artigos científicos ou trabalhos de conclusão de curso. No entanto, quando o contexto é fóruns educacionais a identificação de plágio se torna ainda mais difícil por causa principalmente do tamanho do texto e por não exigir uma linguagem formal. Diante disso, este trabalho propõe uma medida que calcula a similaridade existente entre sentenças escritas em português levando em consideração a semântica dos textos. Esta medida foi avaliada na base da competição Workshop de Avaliação de Similaridade Semântica e Inferência Textual (ASSIN) 2016. A medida proposta alcançou resultados melhores que o primeiro colocado da competição atingindo 0,70 de correlação de Pearson e 0,47 de erro quadrático médio. Além desta avaliação, foi realizado um estudo de caso para avaliação de similaridade em postagens de fóruns educacionais em uma disciplina de Ciência da Computação. Os resultados foram avaliados pelos professores da disciplina que confirmaram a eficácia da ferramenta.", publisher = {Universidade Federal Rural de Pernambuco}, scholl = {Programa de Pós-Graduação em Informática Aplicada}, note = {Departamento de Estatística e Informática} }