00 CAMPUS ARISTÓTELES CALAZANS SIMÕES (CAMPUS A. C. SIMÕES) IC - INSTITUTO DE COMPUTAÇÃO Dissertações e Teses defendidas na UFAL - IC
Use este identificador para citar ou linkar para este item: http://www.repositorio.ufal.br/jspui/handle/riufal/1779
Tipo: Dissertação
Título: Uma abordagem semiautomática dirigida a métricas para avaliação da qualidade de datasets conectados
Título(s) alternativo(s): A semiautomatic approach to metrics for quality assessment of connected datasets
Autor(es): Oliveira, Danila Feitosa de Carvalho
Primeiro Orientador: Santana, Ig Ibert Bittencourt
metadata.dc.contributor.referee1: Silva, Rafael de Amorim
metadata.dc.contributor.referee2: Lóscio, Bernadette Farias
Resumo: Dados Conectados tem contribuído com uma grande quantidade de informações na Web, representadas em formatos estruturados e conectados com outras informações. O principal objetivo das iniciativas de dados conectados é criar conhecimento pela conexão de dados dispersos e relacionados. A atual Linked Open Data Cloud (LOD Cloud) consiste em mais de 50 bilhões de fatos representados como triplas RDF. Essas informações pertencem a um grande número de datasets que cobrem diversos domínios, como ciência, dados geográficos, governamentais, etc. Entretanto, estudos recentes mostram que a maioria desses datasets sofrem de vários problemas de qualidade de dados, tais como, representacionais, inconsistências e questões de interoperabilidade. Esses problemas dificultam a interpretação dos dados e afetam a qualidade dos resultados. Desta forma, um desafio da área é analisar a qualidade de datasets conectados e deixá-la explícita. Com isso, este trabalho tem como objetivo criar uma solução computacional baseada em dimensões de qualidade e boas práticas de publicação que execute a verificação e validação semiautomática da qualidade de datasets conectados. Para isto, foram analisadas dimensões de qualidade e as mesmas foram correlacionadas com as melhores práticas de qualidade de dados contidas nos documentos “Data on the Web Best Practices” e “Best Practices for Publishing Linked Data”. Para validação da proposta, foi executado um experimento com o objetivo de avaliar a solução desenvolvida, visando identificar se a mesma torna eficiente a avaliação da qualidade de datasets conectados, através da comparação da solução computacional semiautomática, proposta nesta dissertação, com a abordagem manual de avaliação da qualidade de dataset conectados. Como resultado, espera-se que a solução semiautomática seja um meio eficiente de executar a avaliação da qualidade de um dataset conectado, diminuindo o tempo de avaliação, bem como a carga de trabalho do avaliador. A contribuição dessa dissertação é disponibilizar um meio de avaliação voltado às melhores práticas do W3C, com base em dimensões de qualidade existentes na literatura.
Abstract: Linked Data has contributed to a lot of information on the Web represented in structured formats and linked to other information. The main purpose of linked data initiatives is to create knowledge by linking scattered and relational data. The current Linked Open Data Cloud (LOD Cloud) consists of more than 50 billion facts represented as RDF triples. This information belongs to a large number of covering various domains, such as science, geography, government, etc. However, recent studies show that most of these datasets suffer from various data quality problems, such as representational problems, inconsistency problems, and interoperability issues. These problems make data interpretation difficult and affect the quality of the results. In this way, a challenge in the area is to analyze the quality of linked datasets and make it explicit. This work aims to create a computational solution based on quality dimensions and best practices for publishing that performs the semiautomatic verification and validation of the quality of linked datasets. For this, quality dimensions were analyzed and correlated to the best practices of data quality contained in the documents, “Data on the Web Best Practices” and “Best Practices for Publishing Linked Data”. To validate the proposal, an experiment was carried out to evaluate the developed solution and identify if it makes the evaluation of the quality of linked datasets more efficient by comparing the semiautomatic computational solution proposed in this dissertation to the manual approach of quality evaluation of linked datasets. As a result, a semiautomatic solution is expected to be an efficient way of performing the quality evaluation of a linked dataset and reduce the evaluation time as well as the workload of the user. The contribution of this dissertation is to provide an evaluation alternative focused on the best practices of the W3C, based on the quality dimensions existing in the literature.
Palavras-chave: Dados conectados
Qualidade de dado - Datasets
Métrica
Publishing linked data
Quality dimensions
Best practices
Data quality
CNPq: CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Idioma: por
País: Brasil
Editor: Universidade Federal de Alagoas
Sigla da Instituição: UFAL
metadata.dc.publisher.program: Programa de Pós-Graduação em Informática
Citação: OLIVEIRA, Danila Feitosa de Carvalho. Uma abordagem semiautomática dirigida a métricas para avaliação da qualidade de datasets conectados. 2017. 123 f. Dissertação (Mestrado em Informática) - Instituto de Computação, Programa de Pós-Graduação em Informática, Universidade Federal de Alagoas, Maceió, 2017.
Tipo de Acesso: Acesso Aberto
URI: http://www.repositorio.ufal.br/handle/riufal/1779
Data do documento: 7-fev-2017
Aparece nas coleções:Dissertações e Teses defendidas na UFAL - IC

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
Uma abordagem semiautomática dirigida a métricas para avaliação da qualidade de datasets conectados.pdf3.25 MBAdobe PDFVisualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.