00 CAMPUS ARISTÓTELES CALAZANS SIMÕES (CAMPUS A. C. SIMÕES) IC - INSTITUTO DE COMPUTAÇÃO Dissertações e Teses defendidas na UFAL - IC
Use este identificador para citar ou linkar para este item: http://www.repositorio.ufal.br/jspui/handle/123456789/15032
Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisor1Aquino, Andre Luiz Lins de-
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/7957606883987162pt_BR
dc.contributor.advisor-co1Pinheiro, Rian Gabriel Santos-
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/1447954471683870pt_BR
dc.contributor.referee1Queiroz, Fabiane da Silva-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/6904714912452282pt_BR
dc.contributor.referee2Silva, Fábio José Coutinho da-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/6352083877939941pt_BR
dc.contributor.referee3Coelho, Igor Machado-
dc.contributor.referee3Latteshttp://lattes.cnpq.br/5298061910591710pt_BR
dc.creatorCosta, Danilo Fernandes-
dc.creator.Latteshttp://lattes.cnpq.br/7150009303100168pt_BR
dc.date.accessioned2024-12-10T18:04:47Z-
dc.date.available2024-12-10-
dc.date.available2024-12-10T18:04:47Z-
dc.date.issued2024-04-19-
dc.identifier.citationCOSTA, Danilo Fernandes. A multi-start simulated annealing strategy for data lake organization problem. 2024. 54 f. Dissertação (Mestrado em Informática) - Instituto de Computação, Programa de Pós-Graduação em Informática, Universidade Federal de Alagoas, Maceió, 2024.pt_BR
dc.identifier.urihttp://www.repositorio.ufal.br/jspui/handle/123456789/15032-
dc.description.abstractData Lake is the solution for Big Data that has received the most attention recently. Its main feature is handling vast volumes of heterogeneous data in its raw format. However, this makes data access, management, and exploration more complex. Such a challenge defines the organizational problem. The Data Lake Organization Problem comprises optimized data navigation structures generation to reduce the user’s time exploring all available data. The goal is to find a data organization that maximizes the expected probability of table discovery during user navigation. For this problem, we propose a simulated annealing metaheuristic and compare it with the Organize literature solution on benchmark instances. We also propose a more efficient variation that prunes excessive computations. The instances are Socrata Open Data Lake samples with varying topics and open data from government entities worldwide. To validate our proposals, we performed statistical analysis using a non-parametric test, which confirmed the dominance of our proposition over the state-of-the-art. Our best proposal was more efficient and increased the expected probability of table discovery up to 44%. Thus, our strategy can find better solutions in the benchmarks evaluated even without exhaustively analyzing all of them and more effectively exploring the space of solutions.pt_BR
dc.languageengpt_BR
dc.publisherUniversidade Federal de Alagoaspt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.programPrograma de Pós-Graduação em Informáticapt_BR
dc.publisher.initialsUFALpt_BR
dc.rightsAcesso Abertopt_BR
dc.subjectData lakept_BR
dc.subjectOrganizaçãopt_BR
dc.subjectMeta-heurísticapt_BR
dc.subjectDescoberta de datasetspt_BR
dc.subjectTaxonomiapt_BR
dc.subjectOtimizaçãopt_BR
dc.subjectDataset discoverypt_BR
dc.subjectTaxonomypt_BR
dc.subjectOptimizationpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
dc.titleA multi-start simulated annealing strategy for data lake organization problempt_BR
dc.title.alternativeUma estratégia de recozimento simulado com multi-início para o problema de organização de data lakept_BR
dc.typeDissertaçãopt_BR
dc.description.resumoData Lake é a solução para Big Data que mais tem recebido atenção na atualidade. Sua principal característica é a capacidade de administrar imensos volumes de dados heterogêneos em seu formato bruto. Contudo, isto torna o acesso, a gestão e a exploração de dados mais complexos. Esse desafio define um problema organizacional. O Problema de Organização de Data Lake consiste na geração de uma estrutura navegacional otimizada para reduzir o esforço do usuário na exploração de todos os dados disponíveis. O objetivo é encontrar uma organização de dados que maximize a probabilidade esperada de descoberta de tabelas durante a navegação do utilizador. Para este problema, propomos uma metaheurística de recozimento simulado e comparamo-la com a solução Organize da literatura em instâncias de referência. Propomos também uma variação mais eficiente que elimina os cálculos excessivos. As instâncias são amostras do Socrata Open Data Lake com tópicos variados e dados abertos de entidades governamentais de todo o mundo. Para validar as nossas propostas, realizamos uma análise estatística utilizando um teste não paramétrico, que confirmou o domínio da nossa proposta sobre o estado-da-arte. Nossa melhor proposta foi mais eficiente e aumentou a probabilidade esperada de descoberta de tabelas em até 44%. Assim, nossa estratégia pode encontrar melhores soluções nos benchmarks avaliados mesmo sem analisá-los exaustivamente e explorar mais efetivamente o espaço de soluções.pt_BR
Aparece nas coleções:Dissertações e Teses defendidas na UFAL - IC

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
A multi-start simulated annealing strategy for data lake organization problem.pdfA multi-start simulated annealing strategy for data lake organization problem1.64 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.