Compartilhamento |
|
Use este identificador para citar ou linkar para este item:
http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/7680
Tipo do documento: | Dissertação |
Título: | Redução de características baseada em grupos semânticos aplicados à classificação de textos |
Autor: | MARQUES, Elaine Cristina Moreira |
Primeiro orientador: | MELLO, Rafael Ferreira Leite de |
Primeiro coorientador: | OLIVEIRA JUNIOR, Wilson Rosa de |
Primeiro membro da banca: | OLIVEIRA JUNIOR, Wilson Rosa de |
Segundo membro da banca: | SILVA, Adenilton José da |
Terceiro membro da banca: | COSTA, Evandro de Barros |
Resumo: | A classificação de textos é uma técnica que tem como objetivo organizar e categorizar informações, a partir de documentos textuais presentes nas plataformas digitais. Usualmente cada uma das palavras que constituem os documentos são consideradas como uma característica. Esta abordagem para representações textuais simples é chamada Bag of Words. Embora estas características sejam importantes para classificar documentos, a maioria delas são irrelevantes e/ou redundantes o que provoca problemas como alta dimensionalidade, tornando a categorização custosa em termos de memória e execução. Para reduzir a grande demanda de recursos computacionais, técnicas de redução de dimensionalidade são aplicadas, como a seleção e a transformação de características. A seleção de características é bastante utilizada na literatura, pelo fato desta possuir um custo computacional mais baixo em relação as outras técnicas. Nesta técnica, características são selecionadas sem apresentar modificações nas características originais, ou seja, ocorre a seleção de um subconjunto que contém apenas as características mais relevantes do conjunto original. Na transformação de características ocorre a formação de um novo conjunto de características, sendo este novo conjunto menor que o conjunto original, contendo novas palavras ocasionadas por meio da combinação ou transformação das palavras originais. É importante frisar que ambos os métodos possuem algum tipo de perda de informação. O objetivo deste trabalho é propor um novo método de redução de dimensionalidade que minimize a perda de informação das características a partir da criação de grupos de palavras semanticamente relacionadas utilizando algoritmos de agrupamento e Word Embeddings. Com isso, é possível reduzir a quantidade de características mantendo a semântica de cada palavra. Neste trabalho a redução ocorreu por meio da criação de grupos semânticos. Inicialmente as palavras das bases de dados passaram por uma vetorização, utilizando os métodos Word2Vec e o Glove. Após a vetorização das palavras, foram aplicados os algoritmos de agrupamento, criando grupos menores de características em relação aos grupos originais. O método foi aplicado em bases de dados bastante utilizadas na literatura, alcançando bons resultados, principalmente em dados mais desestruturados, como páginas da Web, notícias, postagens feitas em Twitter, entre outras. |
Abstract: | The classification of texts is a technique that aims to organize and categorize information, from textual documents present on digital platforms. Usually each of the words that constitute the documents are considered as a characteristic. This approach to simple textual representations is called Bag of Words. Although these characteristics are important for classifying documents, most of them are irrelevant and/or redundant, which causes problems such as high dimensionality, making categorization costly in terms of memory and execution. In order to reduce the large demand for computational resources, dimensionality reduction techniques are applied, such as the selection and transformation of characteristics. Characteristic selection is widely used in the literature because it has a lower computational cost compared to other techniques . In this technique, characteristics are selected without presenting modifications in the original characteristics, that is, the selection of a subset that contains only the most relevant characteristics of the original set occurs. In the transformation of characteristics occurs the formation of a new set of characteristics, this new set being smaller than the original set, containing new words caused by the combination or transformation of the original words. It is important to stress that both methods have some kind of loss of information. The objective of this work is to propose a new dimensionality reduction method that minimizes the loss of characteristic information from the creation of semantically related groups of words using clustering algorithms and Word Embeddings. With this, it is possible to reduce the amount of characteristics maintaining the semantics of each word. In this work the reduction occurred through the creation of semantic groups. Initially, the words in the databases were vectorized using Word2Vec and Glove methods. After the words were vectorized, the clustering algorithms were applied, creating smaller groups of characteristics in relation to the original groups. The method was applied in widely used databases in the literature, reaching good results, especially in more unstructured data, such as Web pages, news, Twitter posts, among others. |
Palavras-chave: | Agrupamento de texto Classificação de texto Redução de dimensionalidade Algoritmos de agrupamento |
Área(s) do CNPq: | CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA |
Idioma: | por |
País: | Brasil |
Instituição: | Universidade Federal Rural de Pernambuco |
Sigla da instituição: | UFRPE |
Departamento: | Departamento de Estatística e Informática |
Programa: | Programa de Pós-Graduação em Biometria e Estatística Aplicada |
Citação: | MARQUES, Elaine Cristina Moreira. Redução de características baseada em grupos semânticos aplicados à classificação de textos. 2018. 101 f. Dissertação (Programa de Pós-Graduação em Biometria e Estatística Aplicada) - Universidade Federal Rural de Pernambuco, Recife. |
Tipo de acesso: | Acesso Aberto |
URI: | http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/7680 |
Data de defesa: | 17-Jul-2018 |
Aparece nas coleções: | Mestrado em Biometria e Estatística Aplicada |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Elaine Cristina Moreira Marques.pdf | Documento principal | 4,5 MB | Adobe PDF | Baixar/Abrir Pré-Visualizar |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.