Identificação automática de comentários tóxicos em discussões online: uma análise de toxidade utilizando processamento de linguagem natural e aprendizado de máquina

Santos, Jadson César da Silva

E-mail: ri@sibi.ufal.br - Horário: 8h às 17h - Fone: 3214-1660

ATENÇÃO

1) As PRODUÇÕES ACADÊMICAS devem ser encaminhadas para o e-mail ri@sibi.ufal.br, juntamente com o Termo de Autorização para a Publicação (assinado).
2) Devem estar inseridas no CORPO da produção acadêmica, os seguintes documentos:
FICHA CATALOGRÁFICA - elaborada por um bibliotecário.
FOLHA DE APROVAÇÃO - deve estar assinada por todos ou, pelo menos, dois membros da banca examinadora. Excepcionalmente, poderá ser assinada por um
membro da banca examinadora e pelo respectivo Coordenador do Curso de Graduação ou Programa de Pós-Graduação.
3) O TERMO DE AUTORIZAÇÃO PARA PUBLICAÇÃO deverá estar preenchido, de acordo com o tipo de produção, assinado pelo(a) autor(a) e enviado por e-mail,
juntamente com o trabalho acadêmico.
OBS 1.: os TCC dos CURSOS DE PEDAGOGIA (Presencial e EaD) do Centro de Educação (CEDU) devem ser enviados, exclusivamente, para os e-mails
coordpedufal@gmail.com e pedagogiauab@gmail.com.
OBS 2.: o tempo de resposta às solicitações enviadas ao RIUFAL é de quatro dias úteis.
OBS 3.: para mais informações sobre o RIUFAL, acesse www.sibi.ufal.br.

00 CAMPUS ARISTÓTELES CALAZANS SIMÕES (CAMPUS A. C. SIMÕES) IC - INSTITUTO DE COMPUTAÇÃO TRABALHOS DE CONCLUSÃO DE CURSO (TCC) - GRADUAÇÃO - IC Trabalhos de Conclusão de Curso (TCC) - Bacharelado - ENGENHARIA DE COMPUTAÇÃO- IC

Use este identificador para citar ou linkar para este item: http://www.repositorio.ufal.br/jspui/handle/123456789/15045

Tipo:	Trabalho de Conclusão de Curso
Título:	Identificação automática de comentários tóxicos em discussões online: uma análise de toxidade utilizando processamento de linguagem natural e aprendizado de máquina
Título(s) alternativo(s):	Automatic identification of toxic comments in online discussions: a toxicity analysis using natural language processing and machine learning
Autor(es):	Santos, Jadson César da Silva
Primeiro Orientador:	Silva, Leandro Dias da
metadata.dc.contributor.advisor-co1:	Lima, Marcos Antonio Barbosa
metadata.dc.contributor.referee1:	Santos Neto, Baldoino Fonseca dos
metadata.dc.contributor.referee2:	Costa, Evandro de Barros
Resumo:	Este trabalho aborda a classificação de comentários tóxicos presentes em plataformas de mídia social e seu impacto, utilizando como base de dados da competição "Jigsaw Toxic Comment Classification Challenge"da plataforma Kaggle. O problema dos comentários tóxicos é discutido em relação ao ambiente online e sua influência negativa. O objetivo do estudo é contribuir para uma moderação eficaz da toxicidade nas plataformas digitais por meio de modelos de classificação de machine learning. A metodologia envolveu treinamentos iniciais, onde cada modelo foi designado para uma classe específica e selecionados aqueles com a maior pontuação F1-score para refinamento dos hiperparâmetros. Foram utilizados os algoritmos SVM, RF, LR e LSTM, juntamente com os vetorizadores TFIDF, CountVectorizer e Tokenizer (exclusivamente para LSTM). Os resultados demonstraram resultados satisfatórios, superando em alguns casos as expectativas da literatura, com validação cruzada que comprovou a robustez dos modelos. Conclui-se que os objetivos do trabalho foram alcançados, e sugere-se para análises futuras a incorporação de técnicas utilizadas na competição e na literatura para melhorar o desempenho na competição da base de dados.
Abstract:	This work addresses the classification of toxic comments present on social media platforms and their impact, using the "Jigsaw Toxic Comment Classification Challenge" dataset from the Kaggle platform. The issue of toxic comments is discussed in relation to the online environment and its negative influence. The study aims to contribute to effective moderation of toxicity on digital platforms through machine learning classification models. The methodology involved initial training, where each model was assigned to a specific class, and those with the highest F1- score were selected for hyperparameter refinement. The algorithms SVM, RF, LR, and LSTM were used, along with the vectorizers TFIDF, CountVectorizer, and Tokenizer (exclusively for LSTM). The results showed satisfactory outcomes, surpassing, in some cases, the expectations of the literature, with cross-validation confirming the robustness of the models. It is concluded that the objectives of the work were achieved, and it is suggested for future analyses to incorporate techniques used in the competition and literature to enhance performance in the competition dataset.
Palavras-chave:	Processamento de Linguagem Natural Aprendizado do computador Ambiente online - Comentários Tóxicos Validação Cruzada Natural Language Processing Machine Learning Text Classification Toxic Comments Cross-validation
CNPq:	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma:	por
País:	Brasil
Editor:	Universidade Federal de Alagoas
Sigla da Instituição:	UFAL
metadata.dc.publisher.department:	Curso de Engenharia da Computação - Bacharelado
Citação:	SANTOS, Jadson César da Silva. Identificação automática de comentários tóxicos em discussões online: uma análise de toxidade utilizando processamento de linguagem natural e aprendizado de máquina. 2024. 43 f. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) – Instituto de Computação, Universidade Federal de Alagoas, Maceió, 2024.
Tipo de Acesso:	Acesso Aberto
URI:	http://www.repositorio.ufal.br/jspui/handle/123456789/15045
Data do documento:	30-abr-2024
Aparece nas coleções:	Trabalhos de Conclusão de Curso (TCC) - Bacharelado - ENGENHARIA DE COMPUTAÇÃO- IC

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
Identificação automática de comentários tóxicos em discussões online_uma análise de toxidade utilizando processamento de linguagem natural e aprendizado de máquina.pdf	Identificação automática de comentários tóxicos em discussões online: uma análise de toxidade utilizando processamento de linguagem natural e aprendizado de máquina	2.66 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Visualizar estatísticas