O que é Data Mining – Introdução à Mineração de Dados

O que é Data Mining

Neste artigo introdutório vamos apresentar o conceito de Data Mining. Algumas vezes também chamado de Knowledge Discovery in Databases (KDD), o Data Mining ("Mineração de Dados") consiste na extração de padrões que representam o conhecimento armazenado de forma implícita em grandes bancos de dados, data warehouses ou ainda outros repositórios de informação em grande quantidade.

Nossa capacidade de gerar e coletar dados vem aumentando muito rapidamente nos últimos anos. Dados científicos, médicos, demográficos, financeiros, dados oriundos de sensores (vide "Internet das Coisas") - a quantidade de dados disponível atualmente é gigantesca, e a análise desses dados se mostra impossível pelos humanos com o uso de ferramentas tradicionais de gerenciamento de dados.

A análise desse "oceano" de dados é extremamente importante, pois permite descobrir tendências e informações escondidas, e pesquisadores nas mais variadas áreas do conhecimento, como estatística, visualização de dados, inteligência artificial, machine learning e outras vem contribuindo ativamente para a disciplina.

Múltiplas Disciplinas

O Data Mining é um campo multidisciplinar, englobando técnicas e teorias das mais variadas áreas da tecnologia, como por exemplo:

  • Bancos de Dados
  • Machine learning
  • Inteligência Artificial
  • Redes Neurais
  • Reconhecimento de Padrões
  • Estatística
  • Aquisição de Conhecimento
  • Visualização de dados
  • Computação de alta performance

E muitas outras mais.

Mas, porque usar técnicas de Mineração de Dados?

As técnicas de mineração de dados foram desenvolvidas devido à ampla disponibilidade de grandes quantidades de dados pelas empresas e à necessidade de transformar esses dados em informações e conhecimento úteis.

O conhecimento obtido a partir da mineração de dados pode ser aplicado a inúmeras áreas do conhecimento, como por exemplo:

  • Controle de processos
  • Gerenciamento de negócios
  • Análise de mercados
  • Design de engenharia
  • Análises financeiras
  • Publicidade
  • Exploração espacial

entre muitas outras.

Evolução dos bancos de dados

A indústria de bancos de dados seguiu um caminho evolucionário bem peculiar, principalmente no que diz respeito às técnicas de coleta de dados, criação dos bancos em si, gerenciamento de dados, armazenamento de dados, análise e interpretação de dados, entre outras, a partir dos anos 1980. Uma análise mais completa e detalhada sobre essa evolução será tratado em outro artigo, mais específico.

Armazenamento de Dados

Os dados podem ser armazenados em muitos tipos distintos de bancos de dados. Um exemplo típico, altamente relacionado às tecnologias de mineração de dados, é o Data Warehouse, que é um repositório de múltiplas fontes de dados heterogêneas (fontes de dados diferentes entre si), organizadas em um esquema unificado e armazenadas em um único local, de modo a simplificar o gerenciamento da tomada de decisões.

O Data Warehousing inclui a limpeza dos dados, integração desses dados e também técnicas de OLAP - On-Line Analytical Processing, entre outras técnicas. Vamos falar sobre elas em artigos específicos sobre cada tecnologia empregada.

Processo de Descoberta de Conhecimento

O processo de descoberta de conhecimento consiste na sequência de passos descrita a seguir:

  1. Limpeza dos dados
  2. Integração dos dados
  3. Seleção dos dados
  4. Transformação dos dados
  5. Mineração dos dados
  6. Avaliação dos dados
  7. Apresentação do conhecimento

Arquitetura de um sistema de Data Mining

A arquitetura de um sistema de mineração de dados típico possui os seguintes componentes principais:

  1. Repositório de informações (banco de dados, data warehouse, ou outro)
  2. Servidor de Banco de Dados ou Data Warehousing
  3. Base de Conhecimento (KB - Knowledge  Base)
  4. Motor de Data Mining
  5. Módulo de Avaliação de Padrões
  6. Interface de Usuário

Próximo: Conceitos e Técnicas de Data Mining

 

Sobre Fábio dos Reis (1262 Artigos)
Fábio dos Reis trabalha com tecnologias variadas há mais de 25 anos, tendo atuado nos campos de Eletrônica, Telecomunicações, Programação de Computadores e Redes de Dados. É um entusiasta de Unix, Linux e Open Source em geral, adora Eletrônica e Música, e estuda idiomas, além de ministrar cursos e palestras sobre diversas tecnologias em São Paulo e outras cidades do Brasil.
Contato: Website

Escreva um comentário

Seu e-mail não será divulgado


*