00 CAMPUS ARISTÓTELES CALAZANS SIMÕES (CAMPUS A. C. SIMÕES) IC - INSTITUTO DE COMPUTAÇÃO Dissertações e Teses defendidas na UFAL - IC
Use este identificador para citar ou linkar para este item: http://www.repositorio.ufal.br/jspui/handle/123456789/10781
Tipo: Dissertação
Título: Brazilian data scientists: revealing their challenges and practices on machine learning model development
Título(s) alternativo(s): Cientistas de dados brasileiros: revelando seus desafios e práticas no desenvolvimento de modelos de aprendizado de máquina
Autor(es): Correia, João Lucas Marques
Primeiro Orientador: Santos Neto, Baldoino Fonseca dos
metadata.dc.contributor.advisor-co1: Mello, Rafael Maiani de
metadata.dc.contributor.referee1: Cordeiro, Thiago Damasceno
metadata.dc.contributor.referee2: Garcia, Alessandro Fabricio
Resumo: Cientistas de dados com frequência desenvolvem modelos de aprendizagem de máquina para resolver uma variedade de problemas tanto na indústria como na academia. Para construir esses modelos, estes profissionais executam atividades que também são executadas no ciclo tradicional do desenvolvimento de software, como a elicitação e implementação de requisitos. É factivel argumentar que os cientistas de dados poderiam tirar vantagem dos métodos utilizados pela engenharia de software tradicional para construir modelos de aprendizagem de máquina. Entretanto, o desenvolvimento de código voltado para aprendizagem de máquina possui particularidades que podem levar a desafios que podem que necessitam da adoção de novas práticas de desenvolvimento. De modo que a literatura atual não caracteriza esse tipo de conhecimento do ponto de vista dos cientistas de dados. Neste trabalho, nós caracterizamos os desafios e práticas a respeito da engenharia de modelos de aprendizagem de máquina que merecem atenção da comunidade de pesquisa. Para isto, nós executamos um estudo qualitativo com oito desenvolvedores de software membros de cinco companhias distintas, com diferentes níveis de experiência no desenvolvimento de modelos de aprendizagem de máquina. Nossos achados sugerem que: (i) o processamento de dados e a engenharia de atributos são os estágios de desenvolvimento mais desafiadores durante o desenvolvimento de um modelo de aprendizagem de máquina; (ii) é essencial uma sinergia entre os cientistas de dados e especialistas no domínio da aplicação do modelo; e (iii) o desenvolvimento de modelos de aprendizagem de máquina sofre da falta de suporte de um processo de engenharia bem definido.
Abstract: Data scientists often develop machine learning models to solve a variety of problems in the industry and academy. To build these models, these professionals usually perform activities that are also performed in the traditional software development lifecycle, such as eliciting and implementing requirements. One might argue that data scientists could rely on the engineering of traditional software development to build machine learning models. However, machine learning development presents certain characteristics, which may raise challenges that lead to the need for adopting new practices. The literature lacks in characterizing this knowledge from the perspective of the data scientists. In this work, we characterize challenges and practices addressing the engineering of machine learning models that deserve attention from the research community. To this end, we performed a qualitative study with eight data scientists across five different companies having different levels of experience in developing machine learning models. Our findings suggest that: (i) data processing and feature engineering are the most challenging stages in the development of machine learning models; (ii) it is essential synergy between data scientists and domain experts in most of stages; and (iii) the development of machine learning models lacks the support of a well engineered process.
Palavras-chave: Engenharia de software
Aprendizagem de máquina
Estudo empírico
Software engineering
Machine learning
Practitioner
Empirical study
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: por
País: Brasil
Editor: Universidade Federal de Alagoas
Sigla da Instituição: UFAL
metadata.dc.publisher.program: Programa de Pós-Graduação em Informática
Citação: CORREIA, João Lucas Marques. Brazilian data scientists: revealing their challenges and practices on machine learning model development. 2023. 72 f. Dissertação (Mestrado em Informática) – Programa de Pós-Graduação em Informática, Instituto de Computação, Universidade Federal de Alagoas, Maceió, 2021.
Tipo de Acesso: Acesso Aberto
URI: http://www.repositorio.ufal.br/jspui/handle/123456789/10781
Data do documento: 9-jun-2021
Aparece nas coleções:Dissertações e Teses defendidas na UFAL - IC

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Brazilian data scientists_revealing their challenges and practices on machine learning model development.pdf1.14 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.