Use este identificador para citar ou linkar para este item:
http://www.repositorio.ufal.br/jspui/handle/123456789/15032
Tipo: | Dissertação |
Título: | A multi-start simulated annealing strategy for data lake organization problem |
Título(s) alternativo(s): | Uma estratégia de recozimento simulado com multi-início para o problema de organização de data lake |
Autor(es): | Costa, Danilo Fernandes |
Primeiro Orientador: | Aquino, Andre Luiz Lins de |
metadata.dc.contributor.advisor-co1: | Pinheiro, Rian Gabriel Santos |
metadata.dc.contributor.referee1: | Queiroz, Fabiane da Silva |
metadata.dc.contributor.referee2: | Silva, Fábio José Coutinho da |
metadata.dc.contributor.referee3: | Coelho, Igor Machado |
Resumo: | Data Lake é a solução para Big Data que mais tem recebido atenção na atualidade. Sua principal característica é a capacidade de administrar imensos volumes de dados heterogêneos em seu formato bruto. Contudo, isto torna o acesso, a gestão e a exploração de dados mais complexos. Esse desafio define um problema organizacional. O Problema de Organização de Data Lake consiste na geração de uma estrutura navegacional otimizada para reduzir o esforço do usuário na exploração de todos os dados disponíveis. O objetivo é encontrar uma organização de dados que maximize a probabilidade esperada de descoberta de tabelas durante a navegação do utilizador. Para este problema, propomos uma metaheurística de recozimento simulado e comparamo-la com a solução Organize da literatura em instâncias de referência. Propomos também uma variação mais eficiente que elimina os cálculos excessivos. As instâncias são amostras do Socrata Open Data Lake com tópicos variados e dados abertos de entidades governamentais de todo o mundo. Para validar as nossas propostas, realizamos uma análise estatística utilizando um teste não paramétrico, que confirmou o domínio da nossa proposta sobre o estado-da-arte. Nossa melhor proposta foi mais eficiente e aumentou a probabilidade esperada de descoberta de tabelas em até 44%. Assim, nossa estratégia pode encontrar melhores soluções nos benchmarks avaliados mesmo sem analisá-los exaustivamente e explorar mais efetivamente o espaço de soluções. |
Abstract: | Data Lake is the solution for Big Data that has received the most attention recently. Its main feature is handling vast volumes of heterogeneous data in its raw format. However, this makes data access, management, and exploration more complex. Such a challenge defines the organizational problem. The Data Lake Organization Problem comprises optimized data navigation structures generation to reduce the user’s time exploring all available data. The goal is to find a data organization that maximizes the expected probability of table discovery during user navigation. For this problem, we propose a simulated annealing metaheuristic and compare it with the Organize literature solution on benchmark instances. We also propose a more efficient variation that prunes excessive computations. The instances are Socrata Open Data Lake samples with varying topics and open data from government entities worldwide. To validate our proposals, we performed statistical analysis using a non-parametric test, which confirmed the dominance of our proposition over the state-of-the-art. Our best proposal was more efficient and increased the expected probability of table discovery up to 44%. Thus, our strategy can find better solutions in the benchmarks evaluated even without exhaustively analyzing all of them and more effectively exploring the space of solutions. |
Palavras-chave: | Data lake Organização Meta-heurística Descoberta de datasets Taxonomia Otimização Dataset discovery Taxonomy Optimization |
CNPq: | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
Idioma: | eng |
País: | Brasil |
Editor: | Universidade Federal de Alagoas |
Sigla da Instituição: | UFAL |
metadata.dc.publisher.program: | Programa de Pós-Graduação em Informática |
Citação: | COSTA, Danilo Fernandes. A multi-start simulated annealing strategy for data lake organization problem. 2024. 54 f. Dissertação (Mestrado em Informática) - Instituto de Computação, Programa de Pós-Graduação em Informática, Universidade Federal de Alagoas, Maceió, 2024. |
Tipo de Acesso: | Acesso Aberto |
URI: | http://www.repositorio.ufal.br/jspui/handle/123456789/15032 |
Data do documento: | 19-abr-2024 |
Aparece nas coleções: | Dissertações e Teses defendidas na UFAL - IC |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
A multi-start simulated annealing strategy for data lake organization problem.pdf | A multi-start simulated annealing strategy for data lake organization problem | 1.64 MB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.