00 CAMPUS ARISTÓTELES CALAZANS SIMÕES (CAMPUS A. C. SIMÕES) IC - INSTITUTO DE COMPUTAÇÃO Dissertações e Teses defendidas na UFAL - IC
Use este identificador para citar ou linkar para este item: http://www.repositorio.ufal.br/jspui/handle/123456789/8814
Tipo: Dissertação
Título: Systematic review and meta-analysis: processes towards selection automation
Título(s) alternativo(s): Revisão Sistemática e Metanálise – Processos para automação da Seleção
Autor(es): Quindai João, Randy Ambrósio
Primeiro Orientador: Aquino, Andre Luiz Lins de
metadata.dc.contributor.advisor-co1: Queiroz, Fabiane da Silva
metadata.dc.contributor.referee1: Pinheiro, Rian Gabriel Santos
metadata.dc.contributor.referee2: Coelho, Jorge Artur Peçanha de Miranda
Resumo: Evidências científicas na área médica e outras disciplinas estão sendo produzidas e publicadas em uma escala e taxa sem precedentes. Essas evidências podem assumir muitas formas, os tipos e fontes mais comuns e, convencionais de evidência publicada incluem artigos de periódicos, resumos / artigos de conferências, relatórios técnicos e registros de ensaios clínicos. Para acompanhar o cenário da medicina em rápida evolução e para responder às necessidades críticas das crises de saúde pública de hoje em tempo hábil, há uma necessidade crescente de explorar, alavancar e integrar os resultados das novas evidências. Uma linha comum em todas essas evidências é que tais dados são, em geral, armazenados em um formato ruidoso e não estruturado, o que torna incrivelmente desafiador conduzir atividades de pesquisa, síntese e geração de relatórios de dados. Métodos secundários de pesquisa, como a síntese de evidências e revisão sistemática, estão se espalhando por todos os campos de pesquisa. O objetivo deste projeto de pesquisa foi estabelecer uma estrutura baseada em evidências para uma solução ótima de Processamento de Linguagem Natural (PLN) (incluindo um protótipo funcional) para apoiar a extração de informação de artigos científicos na forma de texto de forma automática. As mais recentes inovações em inteligência artificial (IA), aprendizado de máquina, ferramentas e técnicas de PLN oferecem a capacidade de extrair, analisar, sintetizar e compreender rapidamente dados textuais não estruturados em escala. Avanços recentes nessas tecnologias levaram a modelos de PLN amplamente aprimorados, que são capazes de capturar e modelar relacionamentos linguísticos mais complexos do que nunca. Ao fornecer a capacidade de avaliar e analisar grandes quantidades desses dados, o PLN abriu vastas oportunidades. Sendo assim, nossa maior meta foi estabelecer uma estrutura baseada em evidências para uma solução de PLN ideal, com a estrutura da revisão sistemática tradicional, onde todas as etapas são previstas e padronizadas. Procuramos desse modo, reduzir a carga do especialista de revisão, mantendo os altos padrões de qualidade e abrangência disponíveis numa revisão sistemática, desenvolvemos uma abordagem de triagem semiautomatizada usando os critérios definidos pelo revisor escritos em linguagem comum. Também oferecemos uma extração de tópicos simplificada e comparamos com a Alocação de Dirichlet Latente tradicional (LDA). Para o agrupamento dos estudos, transformamos o título, o resumo e as palavras-chaves em uma nuvem de palavras para cada estudo e agrupamos usando uma técnica de PLN chamada Sentence Boundary Detection (Detecção de limite de sentença) para encontrar e segmentar sentenças individuais significativas, assim, estudos com as mesmas sentenças são colocados juntos, organizados e agrupados por frequência de sentenças. Alcançamos a geração de resumo para estudos agrupados usando geração de linguagem natural. Realizamos uma comparação da Geração de Cadeia de Markov com a geração de Rede Neural Recorrente para avaliação da qualidade do texto gerado. Disponibilizamos gráficos de dados explorando os dados BibTeX e minerando relações de mudanças semânticas ou grupos de colaboração do autor. A metodologia de resultados segue as melhores práticas para a realização e relato de revisões, resolvendo um problema prático de forma eficaz e com resultados reproduzíveis e repetíveis. Esses resultados mostram que a ferramenta desejada é viável com o atual estado da arte da tecnologia. Esse trabalho resultou em uma startup que entrega produtos para explorar e analisar documentos científicos em larga escala, e foi validado pelo usuário final.
Abstract: Public health evidence and other disciplines are being produced and published at an unprecedented rate and scale. This evidence can take many forms, the more common and conventional types and sources of published evidence include journal articles, conference abstracts/proceedings, technical reports, and clinical trial records/registries. To keep pace with the rapidly evolving public health landscape, and to respond to the critical needs, issues, and public health crises of today in a timely manner, there is a growing need to explore, leverage and integrate insights from more novel sources of evidence. A common thread across all this evidence is that such data is, at large, stored in a noisy, unstructured format, which makes secondary research-led activities in data extraction, synthesis, and reporting incredibly challenging. Secondary public health research methods, such as evidence synthesis and systematic reviewing, are spreading across all research fields. The aim of this research project was to establish an evidence-based framework for an optimal Natural Language Processing (NLP) solution (including a working prototype) to support public health evidence extraction and synthesis research activity. The latest innovations in artificial intelligence (AI), machine learning, and NLP tools and techniques offer the ability to rapidly extract, analyze, synthesize, and understand unstructured textual data, at scale. Recent breakthroughs in these technologies have led to vastly improved NLP models, which are able to capture and model more complex linguistic relationships than ever before. By providing the ability to assess and analyze large quantities of this data, NLP has opened up vast opportunities The aim of this research project was to establish an evidence-based framework for an optimal NLP solution (including a working prototype) to support public health evidence extraction and synthesis research activity. The traditional systematic review framework is a feasible starting point, where all steps are predicted and standardized. In order to reduce systematic reviewer burden while maintaining the high standards of systematic review validity and comprehensiveness we, developed a semi-automation screening approach using the reviewer’s criteria written in natural language. We offer a simplified topic’s extraction too and compare it to the traditional Latent Dirichlet Allocation (LDA). For clustering of studies, we transformed the title, abstract and keywords, into a wordcloud for each study, and grouped using a NLP technique called Sentence Boundary Detection for finding and segmenting meaningful individual sentences, studies with same sentences are put together, organized, and clustered by sentences frequency. We achieve the generation of summary for clustered studies using natural language generation. We perform a comparison of Markov Chain Generation with Recurrent Neural Network Generation for quality assessment of the generated text. We obtain data graphics by exploring BIBTEXdata already available, and mining relations of semantic changes or author’s groups of collaboration. The results methodology follows the best practices for conducting and reporting reviews, thus solving a practical problem effectively with reproducible and repeatable results. These results show that the desired tool is feasible with the current state of the art technology. This work resulted in a startup that delivers products to explore and analyze scientific documents in large scale, and it has been validated by the end user.
Palavras-chave: Processamento de Linguagem Natural (PLN)
Alocação de Dirichlet Latente tradicional (LDA)
Revisão Sistemática da Literatura
Sistemas de Informação
Automação
SLR
NLG
Bibliometrics
Information Systems
Quantitative methods
NLP
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: eng
País: Brasil
Editor: Universidade Federal de Alagoas
Sigla da Instituição: UFAL
metadata.dc.publisher.program: Programa de Pós-Graduação em Informática
Citação: QUINDAI JOÃO, Randy Ambrósio. Systematic review and meta-analysis: processes towards selection automation. 2022. 58 f. Dissertação (Mestrado em Informática) – Instituto de Computação, Universidade Federal de Alagoas, Maceió, 2018.
Tipo de Acesso: Acesso Aberto
URI: http://www.repositorio.ufal.br/jspui/handle/123456789/8814
Data do documento: 28-ago-2021
Aparece nas coleções:Dissertações e Teses defendidas na UFAL - IC

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Systematic review and meta-analysis - processes towars selection automation.pdf3.71 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.