O que é um Dataset

O que é um Dataset

Se você estuda ou pesquisa materiais relacionados a bancos de dados ou ciência de dados (ou áreas correlatas), já deve ter se deparado com o termo “dataset” em algum momento. Talvez até já tenha utilizado um em algum projeto, mesmo que não se lembre do fato.

Mas, o que é um data set? Será o mesmo que um database (banco de dados)? Qual a relação entre dataset e database? E quanto de “data” (dados) é necessário para termos um um “set” (conjunto) deles?

Vou responder a essas e  outras perguntas sobre o assunto neste artigo. 

Coleções de dados

Um data set (ou ainda dataset) é, basicamente, uma coleção de dados.

Esses dados podem ser tabulares (na forma de uma tabela), como os encontrados em bancos de dados relacionais, ou ainda podem ser coleções de arquivos ou documentos em formatos variados.

Um grupo de registros pode ser chamado de data set. Em um dataset podemos armazenar os mais variados tipos de informações, tais como registros médicos, dados de sensores, informações científicas, dados estatísticos como dados de censos, e muitas outras.

Esses dados são então utilizados por aplicações para realizar processos de análise, com o intuito de obter informações e novos insights para um negócio.

Onde conseguimos um Data set?

Diversos data sets estão disponíveis para uso pelo público, para pesquisas ou simplesmente aprendizado de alguma tecnologia como Big Data, Machine Learning ou Bancos Relacionais.

Exemplos incluem:

Alguns sites disponibilizam e permitem a publicação de data sets abertos (ou com algum custo), como por exemplo:

  • Data Hub – Diretório de data sets abertos gerenciado por uma comunidade
  • World Bank Open Data – Dados de Desenvolvimento Mundial do Banco Mundial
  • DATA.GOV – Dados abertos do governo dos Estados Unidos da América 
  • dados.gov.br – Portal Brasileiro de Dados abertos 
  • IMF Data – Dados do Fundo Monetário Internacional (FMI)
  • Kaggle Datasets – Sistema de busca de data sets do Kaggle

Os datasets podem ser gerados a partir de inúmeras fontes de dados distintas, como por exemplo dados de compras realizadas pelos usuários de uma loja, avaliações desses usuários sobre os produtos ou serviços adquiridos, preenchimento de formulários e pesquisas online (ou físicas), oriundos de sistemas eletrônicos como sensores de dados físicos, e muitas outras.

Como é composto um Dataset

No geral, um data set consiste de dois componentes básicos: linhas e colunas, mas não exatamente como em uma planilha. Comumente, cada linha de um data set contém dados a respeito de uma informação em particular – similar a uma tabela, mas não necessariamente idêntico. É comum o emprego de arquivos CSV (valores separados por vírgulas) para a criação de datasets.

Como exemplo, podemos considerar o fragmento de conjunto de dados a seguir, que trata de elementos químicos da tabela periódica. Trata-se de uma tabela de dados, na forma de uma planilha, que pode ser importada em programas de análise de dados e manipulada com o emprego de técnicas, funções e bibliotecas específicas.

Data Set de Elementos Químicos - Bóson Treinamentos

Data Set de Elementos Químicos – Bóson Treinamentos

Neste exemplo, cada coluna se refere a uma propriedade específica dos elementos químicos, e cada linha contém o conjunto de propriedades de um elemento em particular. Para cada elemento há uma linha de dados.

Já o fragmento do data set openfootball a seguir, armazenado no Github e descoberto a partir do Data Hub, traz dados sobre as finais da Copa do Mundo de Futebol masculino de 1994, realizada nos EUA.

Note que o formato é diferente do exemplo anterior (elementos químicos), tratando-se de um arquivo de texto puro:

Data Set Copa do Mundo 1994

Dados da Copa do Mundo 1994 do Data Set OpenFootball

Porém, os dados ainda assim estão armazenados em um formato tabular, com cada linha no geral remetendo a uma partida específica, e cada coluna a uma informação sobre as partidas.

A última linha (linha 41) mostra os dados da final entre Brasil e Itália, e podemos ver que a partida foi realizada no Rose Bowl, em Pasadena, com vitória do Brasil por 3 a 2 nos pênaltis, após empate em 0 x 0 no tempo normal e prorrogação*

*dia memorável, quebrei o lustre da sala da casa de meus avós com uma cabeçada (sem querer) após o pênalti de R. Baggio, ao dar um pulo para comemorar.

Ferramentas usadas para analisar data sets

Muitas ferramentas podem ser empregadas na análise e uso dos dados de um data set, com algumas das mais comuns listadas a seguir:

  • Bibliotecas das linguagens R e Python (como o Pandas)
  • Tableau
  • Microsoft Excel
  • Power BI
  • QlikView
  • RapidMiner
  • Linguagem SQL

entre muitos outros pacotes de software e bibliotecas de funções.

Diferença entre Dado, Dataset e Banco de Dados

É muito comum confundir esses termos, pois se referem a conceitos similares entre si. Mas eles não são a mesma coisa. Qual a diferença então entre Data set, Dados e Bancos de Dados (Database)?

Vejamos:

  • Dados são observações ou medições brutas (não processadas ou processadas) representadas como texto, números ou outros formatos.
  • Data set é uma coleção estruturada de dados, geralmente associados a um assunto específico.
  • Já um Banco de Dados é uma coleção organizada de dados, que podem ser armazenados na forma de datasets correlacionados. Esses conjuntos de dados são geralmente armazenados e acessados eletronicamente a partir de um sistema informatizado (como um SGBD) que permite que os dados sejam facilmente acessados, manipulados e atualizados.

Conclusão

Um dataset é um conjunto de dados tabulados e organizados em um arquivo de formato específico (.csv, .xls, .botxt, etc.), empregado em várias áreas das ciências de dados como fonte de informação para pesquisa, estudo, obtenção de informações e treinamento de sistemas de aprendizado de máquina (machine learning) e inteligência artificial, entre outros.

E, falando em Ciência de Dados, quais linguagens de programação são as mais indicadas para trabalhar nessa área? Confira neste artigo: 7 linguagens de programação para Ciência de Dados.

Sobre Fábio dos Reis (1376 Artigos)
Fábio dos Reis trabalha com tecnologias variadas há mais de 25 anos, tendo atuado nos campos de Eletrônica, Telecomunicações, Programação de Computadores e Redes de Dados. É um entusiasta de Unix, Linux e Open Source em geral, adora Eletrônica e Música, e estuda idiomas, além de ministrar cursos e palestras sobre diversas tecnologias em São Paulo e outras cidades do Brasil.
Contato: Website

Escreva um comentário

Seu e-mail não será divulgado


*