Redução de características baseada em grupos semânticos aplicados à classificação de textos

Exportar este item:

Use este identificador para citar ou linkar para este item: http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/7680

Tipo do documento:	Dissertação
Título:	Redução de características baseada em grupos semânticos aplicados à classificação de textos
Autor:	MARQUES, Elaine Cristina Moreira
Primeiro orientador:	MELLO, Rafael Ferreira Leite de
Primeiro coorientador:	OLIVEIRA JUNIOR, Wilson Rosa de
Primeiro membro da banca:	OLIVEIRA JUNIOR, Wilson Rosa de
Segundo membro da banca:	SILVA, Adenilton José da
Terceiro membro da banca:	COSTA, Evandro de Barros
Resumo:	A classificação de textos é uma técnica que tem como objetivo organizar e categorizar informações, a partir de documentos textuais presentes nas plataformas digitais. Usualmente cada uma das palavras que constituem os documentos são consideradas como uma característica. Esta abordagem para representações textuais simples é chamada Bag of Words. Embora estas características sejam importantes para classificar documentos, a maioria delas são irrelevantes e/ou redundantes o que provoca problemas como alta dimensionalidade, tornando a categorização custosa em termos de memória e execução. Para reduzir a grande demanda de recursos computacionais, técnicas de redução de dimensionalidade são aplicadas, como a seleção e a transformação de características. A seleção de características é bastante utilizada na literatura, pelo fato desta possuir um custo computacional mais baixo em relação as outras técnicas. Nesta técnica, características são selecionadas sem apresentar modificações nas características originais, ou seja, ocorre a seleção de um subconjunto que contém apenas as características mais relevantes do conjunto original. Na transformação de características ocorre a formação de um novo conjunto de características, sendo este novo conjunto menor que o conjunto original, contendo novas palavras ocasionadas por meio da combinação ou transformação das palavras originais. É importante frisar que ambos os métodos possuem algum tipo de perda de informação. O objetivo deste trabalho é propor um novo método de redução de dimensionalidade que minimize a perda de informação das características a partir da criação de grupos de palavras semanticamente relacionadas utilizando algoritmos de agrupamento e Word Embeddings. Com isso, é possível reduzir a quantidade de características mantendo a semântica de cada palavra. Neste trabalho a redução ocorreu por meio da criação de grupos semânticos. Inicialmente as palavras das bases de dados passaram por uma vetorização, utilizando os métodos Word2Vec e o Glove. Após a vetorização das palavras, foram aplicados os algoritmos de agrupamento, criando grupos menores de características em relação aos grupos originais. O método foi aplicado em bases de dados bastante utilizadas na literatura, alcançando bons resultados, principalmente em dados mais desestruturados, como páginas da Web, notícias, postagens feitas em Twitter, entre outras.
Abstract:	The classification of texts is a technique that aims to organize and categorize information, from textual documents present on digital platforms. Usually each of the words that constitute the documents are considered as a characteristic. This approach to simple textual representations is called Bag of Words. Although these characteristics are important for classifying documents, most of them are irrelevant and/or redundant, which causes problems such as high dimensionality, making categorization costly in terms of memory and execution. In order to reduce the large demand for computational resources, dimensionality reduction techniques are applied, such as the selection and transformation of characteristics. Characteristic selection is widely used in the literature because it has a lower computational cost compared to other techniques . In this technique, characteristics are selected without presenting modifications in the original characteristics, that is, the selection of a subset that contains only the most relevant characteristics of the original set occurs. In the transformation of characteristics occurs the formation of a new set of characteristics, this new set being smaller than the original set, containing new words caused by the combination or transformation of the original words. It is important to stress that both methods have some kind of loss of information. The objective of this work is to propose a new dimensionality reduction method that minimizes the loss of characteristic information from the creation of semantically related groups of words using clustering algorithms and Word Embeddings. With this, it is possible to reduce the amount of characteristics maintaining the semantics of each word. In this work the reduction occurred through the creation of semantic groups. Initially, the words in the databases were vectorized using Word2Vec and Glove methods. After the words were vectorized, the clustering algorithms were applied, creating smaller groups of characteristics in relation to the original groups. The method was applied in widely used databases in the literature, reaching good results, especially in more unstructured data, such as Web pages, news, Twitter posts, among others.
Palavras-chave:	Agrupamento de texto Classificação de texto Redução de dimensionalidade Algoritmos de agrupamento
Área(s) do CNPq:	CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
Idioma:	por
País:	Brasil
Instituição:	Universidade Federal Rural de Pernambuco
Sigla da instituição:	UFRPE
Departamento:	Departamento de Estatística e Informática
Programa:	Programa de Pós-Graduação em Biometria e Estatística Aplicada
Citação:	MARQUES, Elaine Cristina Moreira. Redução de características baseada em grupos semânticos aplicados à classificação de textos. 2018. 101 f. Dissertação (Programa de Pós-Graduação em Biometria e Estatística Aplicada) - Universidade Federal Rural de Pernambuco, Recife.
Tipo de acesso:	Acesso Aberto
URI:	http://www.tede2.ufrpe.br:8080/tede2/handle/tede2/7680
Data de defesa:	17-Jul-2018
Aparece nas coleções:	Mestrado em Biometria e Estatística Aplicada

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Elaine Cristina Moreira Marques.pdf	Documento principal	4,5 MB	Adobe PDF	Baixar/Abrir Pré-Visualizar ×

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Biblioteca Digital de Teses e Dissertações

Biblioteca Digital de Teses e Dissertações