00 CAMPUS ARISTÓTELES CALAZANS SIMÕES (CAMPUS A. C. SIMÕES) IC - INSTITUTO DE COMPUTAÇÃO Dissertações e Teses defendidas na UFAL - IC
Use este identificador para citar ou linkar para este item: http://www.repositorio.ufal.br/jspui/handle/riufal/6174
Tipo: Dissertação
Título: Categorização de textos por aprendizagem de máquina
Título(s) alternativo(s): Machine learning text categorization
Autor(es): Santos, Keila Barbosa Costa dos
Primeiro Orientador: Orgambide, Alejandro Cesar Frery
metadata.dc.contributor.advisor-co1: Ramos Filho, Heitor Soares
metadata.dc.contributor.referee1: Aquino, André Luiz Lins de
metadata.dc.contributor.referee2: Coelho, Jorge Artur Peçanha de Miranda
metadata.dc.contributor.referee3: Rosso, Osvaldo Anibal
Resumo: A categorização automática de textos em classes pré-definidas tem testemunhado um interesse crescente nos últimos anos,devido à maior disponibilidade de documentos em formato digital e à necessidade subseqüente de organizá-los. Na comunidade de pesquisa,a abordagem dominante para esses problemas é baseada em técnicas de aprendizado de máquina: um processo indutivo geral constrói automaticamente um classificador aprendendo a partir de um conjunto de documentos pré-classificados, as características das categorias.As vantagens dessa abordagem sobre a abordagem de engenharia do conhecimento (consistindo na definição manual de um classificador por especialistas de domínio) são uma eficácia muito boa, economias consideráveis em termos de força de trabalho especializada e portabilidade direta para diferentes domínios. Esta pesquisa discute as principais abordagens para classificação de texto que se enquadram no paradigma de aprendizado de máquina. Discutiremos em detalhes questões relativas a representação de documentos, construção de classificadores e avaliação de classificadores assim como os métodos Deep Learning. As Redes neurais profundas (DNNs) revolucionaram o campo do Processamento Natural de Linguagem (PNL). As Redes Neural Convolucional (CNN) e Redes Neural Recorrente (RNN), são os dois principais tipos de Arquiteturas DNN amplamente exploradas para lidar com várias tarefas de PNL. ACNN é supostamente boa em extrair recursos de posição e variáveis e RNN na modelagem de unidades em sequência. O estado da arte em muitas tarefas de PNL geralmente mudam devido à batalha de CNN se RNNs. Este trabalho é uma comparação entre os modelos clássicos de aprendizado de máquina (Maximum Entropy Modeling,Support Vector Machine, Bootstrap Aggregating, Boosting, Redes neurais da NNET, Random Forest, Análise discriminante linear escalada, DecisionTreese Naïve Bayes) e desta nova abordagem que encontra-se no estado da arte utilizando redes CNN e RNN, com objetivo principal a construção do índice da revista IEEE Geoscience and Remote Sensing Letters, observando a performance e o desempenho de diferentes modelos, a classificação é realizada a partir de dois conjuntos de dados (Título e Abstract) dos artigos da IEEEGRSL. Em contrapartida aos métodos tradicionais, introduzimos uma rede neural convolucional recorrente para classificação de texto a partir do Abstract dos artigos da revista por observar que os modelos clássicos tendem a perder precisão quando elevamos a quantidade de dados. Os resultados experimentais mostram que o método proposto tiveram uma performance satisfatória, porém a rede RCNN superou os métodos clássicos em desempenho. No entanto, ao implementar essa técnica de classificação utilizando Deep Learning, os índices de acerto para o conjunto de dados Abstract superou os modelos clássicos implementado neste trabalho, chegando a uma precisão de 94% com uma performance de 6 segundos.
Abstract: Automatic categorization of texts into predefined classes has witnessed a growing interest in recent years, due to the increased availability of documents in digital format and the subsequent need to organize them. In the research community, the dominant approach to these problems is based on machine learning techniques: a general inductive process automatically builds a classifier learning from a set of pre-classified documents, the characteristics of categories. The advantages of this approach over the knowledge engineering approach (consisting of the manual definition of a classifier by domain experts) are very good effectiveness, considerable savings in terms of skilled workforce and direct portability to different domains. This research discusses the main approaches to text classification that fit the machine learning paradigm. We will discuss in detail issues relating to document representation, classifier construction, and classifier evaluation as well as the Deep Learning methods. Deep neural networks (DNNs) have revolutionized the field of Natural Language Processing (NLP). Convolutional Neural Networks (CNN) and Recurrent Neural Networks (RNN) are the two main types of widely exploited DNN architectures to handle various NLP tasks. CNN is supposed to be good at extracting position and variable resources and RNN in sequence unit modeling. The state of the art in many NLP tasks usually changes due to the battle of CNNs and RNNs. This work is a comparison between the classic machine learning models (Maximum Entropy Modeling, Support Vector Machine, Bootstrap Aggregating, Boosting, NNET Neural Networks, Random Forest, Scaled Discriminant Analysis, Decision Trees and Naïve Bayes) and this new approach which is state of the art using CNN and RNN networks, with the main objective of building the index of the journal IEEE Geoscience and Remote Sensing Letters, observing the performance and the performance of different models, the classification is performed from of two datasets (Title and Abstract) from IEEEGRSL articles. In contrast to the traditional methods, we introduced a recurring convolutional neural network for text classification from the Abstract of the journal’s articles by noting that classic models tend to lose accuracy when we increase the amount of data. The experimental results show that the proposed method had a satisfactory performance, but the RCNN network surpassed the classical methods in performance. However, when implementing this classification technique using Deep Learning, the hit ratios for the Abstract dataset surpassed the classic models implemented in this paper, reaching a precision of 94 % with a performance of 6 seconds.
Palavras-chave: Aprendizado de máquina
Processamento de linguagem natural (Computação)
Redes neurais (Computação)
Inteligência artificial
Machine Learning
Natural Language Processing (Computing)
Neural Networks (Computing)
Artificial intelligence
Artificial Neural Network
Recurrent Neural Networks
Convolutional Neural Networks
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: por
País: Brasil
Editor: Universidade Federal de Alagoas
Sigla da Instituição: UFAL
metadata.dc.publisher.program: Programa de Pós-Graduação em Modelagem Computacional de Conhecimento
Citação: SANTOS, Keila Barbosa Costa dos. Categorização de textos por aprendizagem de máquina. 2019. 85 f. Dissertação (Mestrado em Modelagem Computacional de Conhecimento) – Instituto de Computação, Programa de Pós Graduação em Modelagem Computacional de Conhecimento, Universidade Federal de Alagoas, Maceió, 2019.
Tipo de Acesso: Acesso Aberto
URI: http://www.repositorio.ufal.br/handle/riufal/6174
Data do documento: 10-jul-2019
Aparece nas coleções:Dissertações e Teses defendidas na UFAL - IC

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Categorização de textos por aprendizagem de máquina.pdf3.46 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.