00 CAMPUS ARISTÓTELES CALAZANS SIMÕES (CAMPUS A. C. SIMÕES) IC - INSTITUTO DE COMPUTAÇÃO TRABALHOS DE CONCLUSÃO DE CURSO (TCC) - GRADUAÇÃO - IC Trabalhos de Conclusão de Curso (TCC) - Bacharelado - CIÊNCIA DA COMPUTAÇÃO- IC
Use este identificador para citar ou linkar para este item: http://www.repositorio.ufal.br/jspui/handle/123456789/13899
Tipo: Trabalho de Conclusão de Curso
Título: Reconhecimento de entidades características para classificação de nódulos pulmonares em laudos médicos
Autor(es): Omena, Lucas Agra de
Primeiro Orientador: Oliveira, Marcelo Costa
metadata.dc.contributor.referee1: Santos Neto, Baldoíno Fonseca dos
metadata.dc.contributor.referee2: Vieira, Thales Miranda de Almeida
Resumo: O câncer de pulmão é o tipo de doença neoplástica maligna mais mortífera, ocasionando 1.8 milhão de vítimas em 2020, em número absoluto sendo superior a soma do segundo e terceiro colocados (câncer colorretal e de fígado). Estudos mostram que o diagnóstico precoce da doença é fundamental para aumentar as chances de sucesso do tratamento, feito majoritariamente pela detecção de nódulos pulmonares através de tomografias computadorizadas (TC) de tórax. Os resultados desses exames são tipicamente armazenados de forma não estruturada, em formato de texto livre, depois de passar por um processo que contribui para a sua corrupção, como erros gramaticais, erros de digitação, ou até mesmo falta de convenção dos termos clínicos. Essa falta de estruturação dos dados cria um obstáculo desnecessário para o diagnóstico da doença, ao ser necessário buscar nesses resultados a presença de nódulos com características malignas. Com o objetivo de identificar e extrair as informações relevantes para o diagnóstico, foi treinado um modelo utilizando técnicas de deep-learning para fazer o reconhecimento de entidades, permitindo a identificação, em laudos textuais de TCs de tórax, dessas entidades cor respondentes às características nodulares. O método de definição das entidades in-loco levou em consideração que as entidades identificadas pelo modelo possibilitassem a classificação nódular de acordo com a diretriz internacional Lung-Rads. Definiu-se então seis entidades com o propósito de identificar quantidade, tipo, tamanho, local e características gerais dos nódulos além da presença de enfisema pulmonar. Para o treinamento do modelo foi utilizado a ferramenta spaCy, usando como base uma arquitetura de modelo de linguagem pré-treinado BERT, em português brasileiro, em que foi obtido uma medida F1 de 91,89%, utilizando um conjunto de dados com 600 documentos, cedidos pelo hospital Unimed Maceió e anotados manualmente como descrito na metodologia.
Abstract: Lung cancer is the deadliest type of malignant neoplastic disease, causing 1.8 million victims in 2020. In absolute numbers, it is higher than the second and third leading types combined (colo rectal and liver cancer). Studies show that early diagnosis is crucial to increase the chances of successful treatment, primarily achieved through the detection of lung nodules via lung compu terized tomography (CT) scans. As a typical practice, the results of these scans are data stored in an unstructured, free text format, after passing through a storing process that contributes to its corruption, such as grammatical errors, typos, or even lack of convention of clinical terms. This lack of data structure creates an unnecessary obstacle for the disease diagnosis, as it is necessary to search in these results for the presence of nodules with malignant characteristics. Aiming for identifying and extracting relevant data for the disease diagnosis, a deep-learning model was trained to perform a named entity recognition task, enabling the retrieval of entities related to the nodules aspects from textual lung CT scan reports. The entities were defined taking in con sideration the characteristics needed to enable the classification according to the international Lung-Rads guideline. Six entities were defined to identify the quantity, type, size, location, and general characteristics of the nodules, as well as the presence of pulmonary emphysema. The spaCy framework was used to train the model, employing a BERT pre-trained language model architecture in Brazilian Portuguese. The model achieved a F1 score of 91.89% using a dataset of 600 documents provided by Unimed Maceio Hospital, manually annotated as described in the methodology.
Palavras-chave: Medicina
Lung RADs
Processamento de linguagem natural
Aprendizagem de máquina
Aprendizagem profunda
Prova pericial
Transformers
Representação de Codificador Bidirecional para Transformadores
SpaCy (Framework)
healthcare
lung rads
nlp
machine learning
deep learning
NER
medical reports
transformers
bert
spacy
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: por
País: Brasil
Editor: Universidade Federal de Alagoas
Sigla da Instituição: UFAL
metadata.dc.publisher.department: Curso de Ciências da Computação - Bacharelado
Citação: OMENA, Lucas Agra de. Reconhecimento de entidades características para classificação de nódulos pulmonares em laudos médicos. 2024. 27 f. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Instituto de Computação, Universidade Federal de Alagoas, Maceió, 2023.
Tipo de Acesso: Acesso Aberto
URI: http://www.repositorio.ufal.br/jspui/handle/123456789/13899
Data do documento: 17-out-2023
Aparece nas coleções:Trabalhos de Conclusão de Curso (TCC) - Bacharelado - CIÊNCIA DA COMPUTAÇÃO- IC

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Reconhecimento de entidades características para classificação de nódulos pulmonares em laudos médicos.pdf1.8 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.