00 CAMPUS ARISTÓTELES CALAZANS SIMÕES (CAMPUS A. C. SIMÕES) IC - INSTITUTO DE COMPUTAÇÃO Dissertações e Teses defendidas na UFAL - IC
Use este identificador para citar ou linkar para este item: http://www.repositorio.ufal.br/jspui/handle/riufal/1719
Tipo: Dissertação
Título: Uma abordagem não intrusiva e automática para configuração do Hadoop
Título(s) alternativo(s): An approach non intrusive and automation for Hadoop configuration
Autor(es): Alves, Nathália de Meneses
Primeiro Orientador: Freitas, André Lage
metadata.dc.contributor.advisor-co1: Machado, Aydano Pamponet
metadata.dc.contributor.referee1: Ramos Filho, Heitor Soares
metadata.dc.contributor.referee2: Brasileiro, Francisco Vilar
Resumo: Nas últimas décadas, a quantidade de dados gerados no mundo tem aumentado de maneira significativa. A Computação em Nuvem juntamente com o modelo de programação Map- Reduce, através do arcabouço Hadoop, têm sido utilizados para o processamento desses dados. Contudo, os sistemas contemporâneos ainda são complexos e dinâmicos, tornando-se difíceis de se configurar. A configuração automática de software é uma solução para esse problema, ajudando os programadores e administradores gerir a complexidade desses sistemas. Por exemplo, há soluções na literatura que utilizam aprendizado de máquina para a configuração automática do Hadoop com o intuito de melhorar o desempenho das suas aplicações. Apesar desses avanços, as soluções atuais para configurar automaticamente o Hadoop utilizam soluções muito específicas, aplicando algoritmos de aprendizagem de máquinas isoladamente. Assim, esses algoritmos não são comparados entre si para entender qual abordagem é mais adequada para a configuração automática do Hadoop. Além disso, essas soluções são intrusivas, ou seja, expõem detalhes operacionais para programadores e/ou administradores de sistemas. Esse trabalho tem por objetivo propor uma abordagem transparente, modular e híbrida para melhorar o desempenho de aplicações Hadoop. A abordagem propõe uma arquitetura e implementação de software transparente que configura automaticamente o Hadoop. Além disso, a abordagem propõe uma solução híbrida que combina Algoritmos Genéticos e várias técnicas de aprendizado de máquina (machine learning) implementadas em módulos separados. Um protótipo de pesquisa foi implementado a avaliado mostrando que a abordagem proposta consegue diminuir significativamente o tempo de execução das aplicações Hadoop WordCount e Terasort. Além disso, a abordagem consegue convergir rapidamente para a configuração mais adequada de cada aplicação, alcançando baixos níveis de custos adicionais (overhead).
Abstract: The amount of digital data produce in the last years has increased significantly. MapRe- duce framework such as Hadoop have been widely used for processing big data on top of cloud resources. In spite of these advances, contemporary systems are complex and dy- namic which makes them hard to configure in order to improve application performance. Software auto-tuning is a solution to this problem as it helps developers and system ad- ministrators to handle hundreds of system parameters. For example, current work in the literature use machine learning algorithms for Hadoop automatic configuration to improve performance. However, these solutions use single machine learning algorithms, thus making unfeasible to compare these solutions with each other to understand which approach is best suited given an application and its input. In addition, current work is intrusive or expose operational details for developers and/or system administrators. This work proposes a transparent, modular and hybrid approach to improve the performance of Hadoop applications. The approach proposes an architecture and implementation of transparent software that automatically configures the Hadoop. Furthermore, this ap- proach proposes a hybrid solution that combines genetic algorithms with various machine learning techniques as separate modules. A research prototype was implemented and eval- uated proving that the proposed approach can significantly reduce the execution time of applications Hadoop WordCount and Terasort autonomously. Furthermore, the approach converges quickly to the most suitable configuration application with low overhead.
Palavras-chave: Dados - Estruturas (Ciência da computação)
Computação em nuvem
Algoritmos genéticos
MapReduce
Hadoop
Data-structures (computer science)
Cloud computing
Genetic algorithms
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: por
País: Brasil
Editor: Universidade Federal de Alagoas
Sigla da Instituição: UFAL
metadata.dc.publisher.program: Programa de Pós-Graduação em Informática
Citação: ALVES, Nathália de Meneses. Uma abordagem não intrusiva e automática oara configuração do Hadoop. 2015. 101 f. Dissertação (Mestrado em Informática) - Instituto de Computação, Programa de Pós-Graduação em Informática, Universidade Federal de Alagoas, Maceió, 2015.
Tipo de Acesso: Acesso Aberto
URI: http://www.repositorio.ufal.br/handle/riufal/1719
Data do documento: 29-set-2015
Aparece nas coleções:Dissertações e Teses defendidas na UFAL - IC

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Uma abordagem não intrusiva e automática para configuração do Hadoop.pdf2.19 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.