Dicionário de Bancos de Dados e Big Data

Dicionário de Bancos de Dados

Neste artigo trago um pequeno glossário ou mini-dicionário de termos relacionados à tecnologias variadas de Bancos de Dados em geral, além de Modelagem de Dados, Visualização de Dados, Ciência de Dados (Data Science), Data Mining e Big Data, com muitas dezenas de definições e explicações concisas sobre cada termo associado.

Mais definições são adicionadas periodicamente para manter este glossário de bancos de dados o mais completo possível. Se você não encontrar algum termo aqui listado, nos informe usando a seção de comentários que providenciaremos uma nova entrada rapidamente.

Para consultar um termo basta clicar abaixo no caractere inicial para ir direto à seção desejada, ou então explore o dicionário de bancos de dados completo para aprender muita coisa sobre Bancos de Dados, relacionais e não-relacionais:

0-9 A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

0-9

1NF: Ver Primeira Formal Normal.

2NF: Ver Segunda Formal Normal.

3NF: Ver Terceira Formal Normal.

4NF: Ver Quarta Formal Normal.

5NF: Ver Quinta Formal Normal.

A

ABS: Operador escalar que retorna o valos absoluto de seu argumento, que é um valor de tipo numérico.

Access: Microsoft Access. Sistema de Gerenciamento de Bancos de Dados Relacionais da Microsoft, integrante do pacote Microsoft Office Professional. Empregado para RAD (Rapid Application Development) de aplicações desktop com acesso a bancos de dados.

ACID: (Atomicidade, Consistência, Isolação, Durabilidade) Termo que se refere às propriedades modelo de transações em bancos de dados, tradicionalmente usadas em bancos de dados SQL.

ADT: Abstract Data Type / Tipo de Dado Abstrato. Refere-se a tipos de dados específicos, geralmente construídos a partir de tipos de dados mais simples, ou primitivos.

Aggregate: Um cluster de objetos de domínio que podem ser tratados como uma única unidade. Uma unidade ideal para armazenamento de dados em grandes sistemas distribuídos.

Alta Disponibilidade: Termo chave para a continuidade de um negócio, a alta disponibilidade se refere ao tempo em que um sistema (ou banco de dados) opera em um nível de serviço acordado, entregando serviços aos usuários – estando “disponível”.
A alta disponibilidade (HAHigh Availability) é geralmente medida em “noves”, ou seja, quantas vezes o número 9 aparece no valor da disponibilidade – 90% (um nove), 99% (dois noves), 99,9% (três noves), e assim por diante.

AND: Operador lógico que implementa a função booleana and entre dois operandos (geralmente, em filtros de consultas, como cláusulas WHERE e BETWEEN)

Anomalia: Problema que ocorre em bancos de dados mal planejados e não-normalizados, geralmente por excesso de dados armazenados em uma mesma tabela. São causadas pela existência de dependências parciais ou transitivas em uma tabela.

Apache Cassandra: Um sistema de banco de dados distribuído de código aberto que pode armazenar e gerenciar grandes volumes de dados entre servidores e pode ser um banco de dados de leitura intensiva para grandes sistemas de BI.

Apache Hadoop: Uma ferramenta de código aberto para processar e armazenar grandes conjuntos de dados distribuídos em máquinas usando o MapReduce.

Apache Lucene: Uma biblioteca de recuperação de texto open source que é comumente usada para pesquisa de texto completo, implementação de mecanismos de pesquisa e implementação de sistemas de recomendação.

Apache Spark: Uma estrutura de processamento paralelo de código aberto que lida com aplicativos analíticos de dados de grande escala, análises em tempo real e cargas de trabalho de processamento de dados.

Armazém de Dados: Ver Data Warehouse

Armazenamento Colunar: Ver Wide-Column Store.

Atributo: Os atributos descrevem características de uma entidade, como por exemplo os atributos fabricante, modelo, cor e placa em uma entidade Automóvel. Um atributo representa um elemento de dados primitivo. Uma coluna.

Atributo Atômico: Atributo que não possui características especiais, sendo indivisível. Ex.: CPF de uma pessoa

Atributo Composto: Atributo formado por itens menores (sub-elementos); pode ser subdividido em outros atributos. Ex.: o endereço de uma empresa

Atributo Determinante: Atributo que define de forma única as instâncias de uma entidade.

Atributo Multivalorado: Atributo que pode conter mais de um valor para um mesmo registro (informação). Ex.: Telefone da empresa.

Auto-incremento: Constraint especial aplicada a uma coluna em uma tabela que permite a geração de valores numéricos sequenciais de forma automática, sempre que um novo registro é inserido, eliminando a necessidade de fornecer um valor para a coluna.

B

Banco de Dados: Um banco de dados (database) é uma coleção de dados relacionados e armazenados em algum meio, de forma organizada e que permite o acesso a esses dados, por meio de um Sistema de Gerenciamento de Bancos de Dados.

BASE (Basic Availability, Soft State, Eventual Consistency): Um termo que se refere às propriedades do modelo de transações do banco de dados, especificamente para bancos de dados NoSQL que precisam gerenciar dados não estruturados.

Base de Dados: O mesmo que Banco de Dados

B-Tree: Uma estrutura de dados na qual todos os nós terminais estão à mesma distância da base, e todos os nós não terminais estão entre subárvores n e 2n ou ponteiros. É otimizada para sistemas que lêem e escrevem grandes blocos de dados ou executam principalmente leituras. Empregada, por exemplo, na criação de índices em bancos de dados relacionais.

BI: Ver Business Intelligence

Big Data: Um termo comum para grandes quantidades de dados. Para serem qualificados como Big Data, os dados devem ser inseridos no sistema em alta velocidade, com grande variação ou em grandes volumes.

BigQuery: Serviço Web baseado na nuvem para análise de dados em Big Data, empregado para o processamento de conjuntos de dados muito grandes (da ordem de bilhões de linhas) e somente-leitura, usando uma sintaxe estilo SQL.

BigTable: Tipo de tabela em nuvem que pode operar com bilhões de linhas e milhares de colunas, permitindo o armazenamento de terabytes de dados – ou até mesmo petabytes. Roda na platafoma de nuvem Google Cloud Platform.

BLOB: Abreviação de Binary Large Object. Tipo de dados empregado geralmente para o armazenamento de dados binários de grande tamanho, como multimídia de imagens, sons ou vídeos, entre outros.

Boyce-Codd: Forma normal que trata de dependências funcionais

BOOLEAN: Tipo de dado escalar, que contém apenas dois valores possíveis: TRUE e FALSE (verdadeiro e falso).

Business intelligence: Inteligência de Negócios, é o processo de visualização e análise de dados corporativos com o objetivo de tomar decisões acionáveis e informadas.

C

CAP: Teorema CAP ou ainda Teorema de Brewer, é um teorema empregado para descrever o comportamento de um sistema de bancos de dados distribuídos. Diz respeito aos comportamentos de um banco de dados distribuído – Consistent (C), Available (A) e Partition Tolerant (P).

Cardinalidade: Número de elementos em um conjunto. Em uma relação, se refere ao número de registros que se relacionam com outra relação. Por exemplo, podemos falar em cardinalidade 1:1 (um-para-um), na qual um registro de uma tabela somente se relaciona com um registro de outra tabela. A cardinalidade pode assumir outros valores também, como 1:N (um-para-muitos), N:M (muitos-para-muitos), 0:1 (zero-para-um), etc.

CASCADE: A opção CASCADE em uma definição de chave estrangeira permite excluir ou atualizar os registros relacionados presentes na tabela filha automaticamente, quando um registro da tabela pai for atualizado ou excluído.

Cassandra: Apache Cassandra, sistema de gerenciamento de bancos de dados NoSQL de código aberto, do tipo armazenamento colunar, usado para manipular grandes quantidades de dados distribuídos em diversos servidores. Empregado por empresas e organizações como a Apple, CERN, Discord, Globo.com, Netflix e Uber, entre outras.

CAST: Função ou operador que permite receber um valor de um tipo específico (como um inteiro TINYINT) e retornar o valor convertido em um tipo diferente (como uma string VARCHAR).

Chave: Uma chave consiste em uma ou mais colunas de uma relação cujos valores são usados para identificar de forma exclusiva uma linha ou conjunto de linhas.

Chave Alternativa: Chave candidata que não é usada como chave primária em uma tabela.

Chave Candidata: Atributo ou grupo de atributos em uma entidade com o potencial para se tornarem uma chave primária.

Chave Composta: Chave que é composta de dois ou mais atributos (colunas). Geralmente empregada quando não é possível utilizar uma única coluna de uma tabela para identificar de forma exclusiva seus registros.

Chave Estrangeira: Coluna de uma tabela que estabelece um Relacionamento com a Chave Primária de outra tabela.

Chave Primária: Chave candidata escolhida para ser a chave principal na relação. Identifica de forma exclusiva os registros em uma tabela, não podendo ter repetição de valores nem tampouco valor nulo.

Chave Substituta: O mesmo que Chave Surrogada

Chave Surrogada: Valor numérico, único, adicionado a uma relação para servir como chave primária. Frequentemente usadas em lugar de uma chave primária composta.

Ciência de Dados: (Data Science) Campo da tecnologia interdisciplinar que emprega métodos científicos, processos, algoritmos e sistemas para extrair informação e insights de bases de dados estruturadas e não-estruturadas. Se relaciona com tecnologias como Data Mining, Aprendizado de Máquina e Big Data.

Cloud-native database: Um banco de dados que é construído e executado no modelo de entrega de computação em nuvem.

Cluster: Um subconjunto de dados que compartilham características específicas. Também pode se referir a várias máquinas que trabalham juntas para resolver um único problema.

Codd, E. F.: Edgar Frank Codd. Cientista da computação que inventou o modelo relacional para gerenciamento de bancos de dados.

Coluna: Em bancos de dados relacionais, é um domínio de valores de um tipo específico. Dependendo do estágio da modelagem também é conhecida como Atributo de uma relação.

COMMIT: Operação que efetiva em definitivo uma transação (conjunto de operações), senão houver falha em nenhuma dessas operações.

Complex event processing: Um processo organizacional para coletar dados de vários fluxos para fins de análise e planejamento.

Consistência: Um dos quatro principais atributos de uma transação de banco de dados, significa que, se uma transação falhar, os dados serão retornados ao seu estado original, e se não falharem, um novo estado de dados será criado.

Consulta: Requisição de dados a partir de uma ou mais tabelas de um banco de dados, que podem ser obtidos a partir dos resultados retornados pela execução de uma declaração SQL ou por outros métodos de mineração de dados

Consulta Ad-Hoc: Consulta criada “no momento” quando não é possível obter as informações desejadas usando as consultas SQL pré-determinadas em uma aplicação.

CONSTRAINT: Restrição de integridade. Declaração empregada para configurar restrições em tabelas, tais como a definição da Chave Primária, Chave Estrangeira ou colunas CHECK, entre outras.

COUNT: Função de agregação que permite contar o número de registros em tabelas.

CRUD: Acrônimo que descreve as quatro operações básicas em um sistema de bancos de dados: Create (criar), Read (ler / consultar), Update (atualizar) e Delete (excluir).

Cursor: Mecanismo que simula um ponteiro para uma linha em um conjunto de resultados. Um cursor seleciona um dataset, obtém um registro por vez desse conjunto, e então processa o registro atual. Então, o próximo registro é buscado para processamento.

D

Dados Estruturados: Dados claramente definidos, que podem ser pesquisados e analisados com facilidade. Geralmente armazenados em armazéns de dados (data warehouse) ou sistemas similares. Um exemplo são os dados em um banco de dados relacional.

Dados Não-Estruturados: Dados armazenados geralmente em um formato nativo ou bruto, proveniente de diversas fontes e em vários formatos. Costumam ser armazenados em sistemas do tipo lago de dados (data lake). Esse tipo de dado não é facilmente categorizado, e requer processamento para que possa ser utilizado. Por exemplo, dados provenientes de documentos de texto, imagens, logs de sistemas e redes sociais. Cerca de 80% dos dados no mundo são dados não estruturados.

Dados Semi-Estruturados: Dados sem estrutura aparente, mas que possuem ao menos uma parte estruturada, por exemplo na forma de metadados. Um exemplo são as mensagens de e-mail, que possuem metadados estruturados no cabeçalho (“destinatário”, “assunto”,  etc.), e dados não estruturados no corpo da mensagem.

Database: O mesmo que Banco de Dados

Database clustering: Conexão entre dois ou mais servidores e instâncias a um banco de dados, geralmente para obter as vantagens de tolerância a falhas, balanceamento de carga e processamento paralelo.

Data Lake: Repositório no qual os dados são armazenados de forma bruta, em seu formato nativo, independente da fonte desses dados. Contém dados estruturados, semiestruturados e não-estruturados, para posterior tratamento e análise.

Data lineage: Informações sobre de onde os dados vieram, como são alterados e para onde são transferidos; pode ser usado para resolver problemas de validação e depuração em bancos de dados.

Data management: O ciclo de vida completo de como uma organização lida com armazenamento, processamento e análise de conjuntos de dados.

Data Mart: Repositório que armazena dados relacionados a uma área específica, como vendas, finanças, engenharia, RH, etc., sendo um subconjunto de dados de um Data Warehouse. Projetado para uso por grupos ou departamentos específicos.

Data mining: Processo de descobrir padrões em grandes conjuntos de dados e transformar essas informações em um formato compreensível. Uma prática para gerar novas informações através do processo de examinar e analisar grandes bancos de dados.

Database management system (DBMS): Um conjunto de softwares e ferramentas que gerencia a comunicação entre o usuário final e o banco de dados.

Data preparation: (“Preparação de dados”)O processo de coleta, limpeza e consolidação de dados em um arquivo ou tabela de dados, principalmente para uso em análise.

Data science: Um campo de atuação que explora processos e métodos repetíveis para obter informações a partir de dados. Ver Ciência de Dados.

Data validation: (“Validação de Dados”)Ato de examinar conjuntos de dados para garantir que todos os dados estejam limpos, corretos e úteis antes de serem processados.

Data Warehouse: Ou Armazém de Dados. Uma grande coleção de dados de várias fontes usados para ajudar as empresas a tomar decisões informadas. Repositório central composto por dados extraídos de sistemas transacionais, de diversas áreas, cujo objetivo principal é o suporte a usuários de um sistema e tomada de decisão. Contém dados estruturados e tratados, prontos para uso. Repositório de grande volume de dados, contendo dados históricos, o qual é empregado como ferramenta de apoio a decisão em sistemas de inteligência de negócios (business intelligence)

DBA: Database Administrator. Papel do profissional que administra bancos de dados em uma organização.

DB2: Sistema de gerenciamento de bancos de dados relacionais criado e mantido pela empresa IBM.

DCL: Data Control Language. Subconjunto do SQL que inclui comandos empregados para efetuar controle de acesso em bancos de dados, como os comandos GRANT e REVOKE.

DDL: Data Definition Language. Subconjunto do SQL que inclui comandos empregados para definir a estrutura de um banco de dados, como os comandos CREATE, ALTER e DROP.

Dependência: Restrição aplicada sobre atributos, ou ainda que define a relação entre dois ou mais atributos em uma tabela. Ocorre quando um atributo em uma tabela é determinado por outro atributo – quando um atributo depende de outro para fazer sentido.

Dependência Funcional: Tipo de dependência em uma tabela na qual um atributo Y depende de um atributo X se e somente se cada valor de X tiver associado a ele exatamente um valor de Y.

Dependência Transitiva: Ocorre quando um campo não-chave não depende diretamente da chave primária da tabela, nem mesmo de forma parcial, porém depende de algum outro campo não-chave na mesma tabela.

DER: Diagrama Entidade-Relacionamento. Diagrama gráfico que permite representar as entidades, seus atributos e inter-relacionamentos em um processo de modelagem de bancos de dados.

Diagrama Entidade-Relacionamento: O mesmo que DER.

Dicionário de Dados: (DD) Documento empregado para armazenar informações sobre o conteúdo, formato e a estrutura de um banco de dados, assim como os relacionamentos entre os seus elementos. Permite limitar erros ao criar a estrutura física de um banco de dados no computador durante o processo de modelagem. Também chamado de “Repositório de Metadados”.

Distributed relational database: Banco de Dados Distribuído. Um banco de dados que contém objetos, como tabelas, que fazem parte de sistemas diferentes, mas interconectados.

Distributed system: Sistema Distribuído. Uma coleção de computadores individuais que funcionam juntos e parecem funcionar como um único sistema. Isso requer acesso a um banco de dados central, várias cópias de um banco de dados em cada computador ou partições de banco de dados em cada máquina..

DML: Data Manipulation Language. Subconjunto do SQL que inclui comandos empregados para efetuar a manipulação de registros nas tabelas, tais como os comandos INSERT, UPDATE e DELETE.

Document store: Armazém de Documentos. Um tipo de banco de dados que agrega dados de documentos em vez de tabelas definidas e é usado para apresentar dados de documentos em um formato pesquisável.

Domínio: Basicamente, é o tipo de dado empregado em uma coluna de um banco de dados. Por exemplo, o domínio pode ser inteiro (INT) ou string (VARCHAR), ou ainda algum tipo personalizado de dados. É a coleção de valores que um dado pode conter.

DQL: Data Query Language. Subconjunto do SQL que inclui comandos empregados para realizar consultas a dados armazenados nas tabelas, como o comando SELECT.

Dynamo DB: Um serviço de banco de dados NoSQL da AWS com baixa latência que pode facilmente armazenar e recuperar dados grandes e atender grandes quantidades de tráfego.

E

ElasticSearch: Um mecanismo de pesquisa baseado em Java criado sob o Apache Lucene que pesquisa e indexa arquivos quase em tempo real e indexa automaticamente documentos JSON.

Engenharia de Dados: A coleta, armazenamento e processamento de dados para que possam ser consultados por um cientista de dados.

Entidade: Algo de importância para um usuário ou organização que precisa ser representado em um banco de dados. Representa um tema, tópico ou conceito de negócio.

Entidade Forte: Uma entidade forte é aquela que pode existir no BD por si só, sem depender de outras entidades.

Entidade Fraca: Uma entidade fraca é uma entidade cujas instâncias não podem existir no BD sem que exista uma instância de outra entidade;

Entidade ID-Dependente: Caso especial de entidade fraca onde o identificador da entidade dependente inclui o identificador da entidade da qual ela depende.

Esquema: Termo para descrever a estrutura de dados exclusiva de um banco de dados individual.

ETL: Sigla de “Extract, Transfom, Load“, ou o processo de Extrair, Transformar e Carregar dados de um banco de dados e movê-los para outro banco de dados, sendo uma função comum realizada em Data Warehousing.

Eventual consistency: (Consistência Eventual) A ideia de que os bancos de dados em conformidade com o modelo BASE conterão dados que se tornarão consistentes ao longo do tempo.

Explosão de Dados: Termo que denota a já vasta e cada vez maior quantidade de dados que são gerados a cada minuto, estruturados, não estruturados e semiestruturados. De acordo com um estudo da IBM, cerca de 2,5 EB (exabytes) de dados são gerados por dia no mundo.

F

Fault tolerance: (Tolerância a Falhas) A capacidade de um sistema de responder a falhas de hardware ou software sem interromper outros sistemas.

FN: Ver Forma Normal

Forma Normal: Refere-se ao estado em que uma tabela se encontra durante a etapa de normalização no processo de modelagem de dados, a qual tem por objetivo eliminar redundâncias e garantir a consistência e atomicidade dos dados que serão armazenados no banco. Veja também: Normalização.

G

GIS: Sistema de Informações Geográficas

Graph store: Um tipo de banco de dados usado para lidar com entidades que possuem um grande número de relacionamentos, como gráficos sociais, sistemas de tags ou qualquer domínio rico em links; também é usado frequentemente para serviços de roteamento e localização.

H

Hadoop: Um framework da Apache Software Foundation desenvolvido especificamente para alta escalabilidade, computação distribuída e com uso intensivo de dados. Usado principalmente para o processamento em lote de grandes conjuntos de dados de forma muito eficiente.

High availability (HA): (Alta Disponibilidade). Conceito que se refere à disponibilidade contínua de recursos em um sistema de computador, mesmo após a ocorrência de falhas de componentes. Isso pode ser alcançado com o emprego de hardware redundante, soluções de software e outras estratégias específicas.

Hybrid transaction/analytical processing: Uma arquitetura de aplicativo que diz “quebrar o muro” entre processamento e análise de transações e que permite a tomada de decisões em tempo real.

I

Índice: Trata-se de uma estrutura de dados empregada para otimizar a seleção de um conjunto específico de colunas em um banco de dados relacional.

Instância de Entidade: Uma instância de entidade é uma ocorrência específica de uma entidade

Integridade de Dados: Manutenção e garantia da consistência e precisão dos dados, sendo um aspecto crítico no design, implementação e uso de sistemas de armazenamento de dados.
A integridade é atingida por meio da aplicação de Restrições de Integridade.

Integridade Referencial: Uma Restrição de Integridade Referencial assegura que valores de uma coluna em uma tabela são válidos baseados nos valores em uma outra tabela relacionada.
Ex.: Se um produto de ID 523 foi cadastrado em uma tabela de Produtos_Vendidos, então um produto com ID 523 deve existir na tabela de Produtos_Cadastrados relacionada.

In-memory: Como um termo de mercado generalizado, descreve as ferramentas de gerenciamento de dados que carregam dados na RAM ou na memória flash, em vez de unidades de disco rígido ou de estado sólido.

J

Join: Junção. Cláusula em SQL que combina colunas de uma ou mais tabelas em um banco de dados relacional usando valores em comum de cada tabela. Existem vários tipos de joins, como INNER JOIN, OUTER JOIN, LEFT JOIN, RIGHT JOIN e CROSS JOIN, entre outras.

Journaling: Refere-se ao registro simultâneo em tempo real de todas as atualizações de dados em um banco de dados. O log resultante funciona como uma trilha de auditoria que pode ser usada para reconstruir o banco de dados se os dados originais forem corrompidos ou excluídos.

JPA (Java Persistence API): Uma especificação Java para acesso, gerenciamento e persistência de dados entre classes e objetos Java e bancos de dados relacionais.

K

Key-value store: Um tipo de banco de dados que armazena dados em pares chave-valor simples. Eles são usados para lidar com várias leituras e gravações pequenas, contínuas e potencialmente voláteis..

L

Lago de Dados: Ver Data Lake

Lightning memory-mapped database (LMDB): Um banco de dados copy-on-write com índices B-Tree que é totalmente transacional, compatível com ACID, pequeno em tamanho e que emprega MVCC.

Linha: Em SGBDRs, trata-se de um conjunto de valores de colunas relacionados, conhecido por vezes também como tupla ou registro.

Log-structured merge (LSM) tree: Uma estrutura de dados que grava e edita dados usando segmentos imutáveis ou execuções que geralmente são organizadas em níveis. Existem várias estratégias, mas o primeiro nível geralmente contém os dados mais recentes e ativos.

M

MapReduce: Um modelo de programação criado pelo Google para alta escalabilidade e distribuição em vários clusters para fins de processamento de dados.

MariaDB: SGBDR de código aberto derivado (fork) do MySQL, totalmente compatível e que tem por objetivo substitui-lo após a aquisição do MySQL pela Oracle. Foi desenvolvido pelos desenvolvedores originais do MySQL, é mantido atualmente por uma comunidade.

Matplotlib: Biblioteca gráfica 2D, que contém uma grande coleção de módulos para exibição de gráficos e visualização de dados, usando a linguagem Python.

MER: Modelo Entidade-Relacionamento. Modelo que descreve itens de interesse em um domínio específico do conhecimento em um banco de dados. Composto de entidades, seus atributos e relacionamentos entre essas entidades. Desenvolvido por Peter Chen e publicado em um artigo em 1976.

Mercado de Dados: Ver Data Mart.

Mineração de Dados: Ver Data Mining.

Modelagem de Dados:  Processo de criação de um Modelo de Dados para um sistema de informação, com a aplicação de técnicas específicas de modelagem. Inclui processos para definir e analisar os requisitos de dados necessários para suportar processos de negócio com sistemas informatizados em organizações.

Modelo Conceitual: Primeira fase da modelagem de dados, onde representaremos o mundo real por meio de uma visão simplificada dos dados e seus relacionamentos. Assim podemos determinar quais informações serão armazenadas efetivamente em m banco de dados.

Modelo Entidade-Relacionamento: O mesmo que MER.

Modelo Físico: Em modelagem de dados, fase derivada a partir de um modelo lógico, na quale são detalhados os componentes de estrutura física do banco de dados, incluindo as tabelas, campos, tipos de valores, restrições, etc.
Após a criação do modelo físico, podemos partir para a implementação física do banco de dados, utilizando o SGBD mais adequado.

Modelo Lógico: Fase da modelagem de dados que apresenta conceitos que os usuários são capazes de entender, ao mesmo tempo em que não está distante do modelo físico do banco de dados.
Consiste na especificação lógica dos dados em um formato adequado ao SGBD escolhido. Os tipos de dados são completamente definidos.

Modelo Relacional: Modelo para análise e implementação de bancos de dados no qual os dados são organizados em coleções de tabelas bidimensionais, também chamadas de “Relações”. Assim, uma Relação é uma forma de se organizar os dados em linhas e colunas.
O modelo relacional de dados é baseado em lógica e teoria de conjuntos.

MongoDB: Sistema de banco de dados não-relacional (NoSQL) orientado a documentos, livre, de código aberto e multiplataforma, escrito em C++. Emprega documentos BSON, de formato semelhante a JSON com esquemas.

Multi-version concurrency control (MVCC): Um método para lidar com situações em que máquinas lêem e gravam simultaneamente em um banco de dados.

MySQL: Sistema de Gerenciamento Bancos de Dados Relacional (SGBDR) mais popular do mundo atualmente, amplamente empregado em empresas de pequeno, médio e grande porte, com grande presença em bancos de dados de sistemas Web. Atualmente mantido pela Oracle.

N

Neo4J: Sistema de gerenciamento de bancos de dados do tipo NoSQL, orientado a grafos. Implementado em Java, é um banco transacional, em conformidade com o padrão ACID, disponível sob licença de código aberto GPL-3.

NewSQL: Um descritor abreviado para sistemas de bancos de dados relacionais que fornecem escalabilidade horizontal e desempenho a par com sistemas NoSQL.

NO ACTION: Opção de chave estrangeira que equivale à opção RESTRICT.

Non-first normal form query language (N1QL): Desenvolvido pelo Couchbase, oferece uma linguagem de consulta comum e um modelo de dados baseado em JSON para bancos de dados distribuídos orientados a documentos.

Normalização: O processo de organizar dados em tabelas para que os resultados obtidos ao usar o banco de dados sejam sempre inequívocos e da forma pretendida. Consiste em uma série de etapas sequenciais denominadas formas normais (FN).

NoSQL: Classe de sistemas de bancos de dados que incorporam outras formas de consultas distintas do SQL tradicional, e que não utilizam estruturas relacionais tradicionais. A sigla NoSQL significa “Not Only SQL“, ou seja, “Não Apenas SQL”.

O

Object-relational mapper (ORM): Ferramenta que fornece uma camada de abstração de banco de dados para converter dados entre sistemas de tipos incompatíveis usando linguagens de programação orientadas a objeto em vez da linguagem de consulta do banco de dados.

Operador de Agregação: Tipo de operador que retorna um valor único, geralmente escalar, a partir de valores agregados. Tipos comuns de operadores de agregação incluem SUM (soma), AVG (média aritmética) e MAX (valor máximo), entre outros.

Oracle Database: Sistema de Bancos de Dados Relacionais desenvolvido e mantido pela Oracle Corporation. Atualmente (Julho/21) é o SGBD mais empregado no planeta.

ORM (Object Relational Mapper): Mapeamento Objeto-Relacional; técnica de programação empregada na conversão de dados entre linguagens de programação orientadas a objeto (Java, Scala, Python…) e bancos de dados relacionais (MySQL, PostgreSQL, Oracle Database…). Exemplo de framework ORM: SQLAlchemy.

P

Paralelismo: Um estado em que os sistemas operacionais são capazes de trabalhar efetivamente em conjunto para resolver um problema.

Parse: Dividir dados, como uma string de texto, em partes menores para análise e processamento.

Particionamento: Processo que divide uma tabela em um conjunto de partições ou fragmentos para fins de armazenamento físico. Assim, é possível melhorar o desempenho no acesso aos dados, pois eles podem ser armazenados no local em que são utilizados com mais frequência.

Persistência: Refere-se a informações de um programa que sobrevivem ao processo que as criou, o que significa que elas não serão apagadas durante o desligamento ou a limpeza da RAM. Os bancos de dados fornecem persistência.

Persistência de Dados: Significa que os dados são mantidos indefinidamente no banco de dados, a não ser que sejam explicitamente excluídos. Os dados armazenados em um banco de dados não devem jamais ser perdidos.

Persistent storage: Um local não variável, como um disco, em que os dados são salvos depois que o processo que os criou foi finalizado.

PL/SQL: Abreviação de Procedural Language for SQL, é uma extensão procedural da Oracle para o SQL padrão e seu banco de dados Oracle Database. Permite a aplicação de lógica em scripts SQL, como o emprego de estruturas de decisão, condicionais e laços de repetição, declaração de variáveis e a aplicação de técnicas de orientação a objetos no código, entre outros recursos.

Plano de Execução: Ou Query Plan (Plano de Consulta). Refere-se à sequência de passou ou etapas empregadas para acessar dados em um SGBDR SQL.

Polyglot persistence: Refere-se ao uso de várias tecnologias de armazenamento de dados para diferentes tipos de dados por uma organização.

PostgreSQL: SGBDR derivado do projeto Ingres, na Universidade de Berkley, Califórnia, distribuído sob licença BSD, e sendo software de código aberto, multiplataforma e escrito em linguagem C e linguagens de script Perl e sh.

PowerBI: Serviço de Análise de Dados da Microsoft, que permite realizar visualizações de dados em gráficos de forma interativa, com recursos de BI (Business Intelligence) e a criação de relatórios e dashboards variados.

Primeira Formal Normal: Forma de Normalização na qual são reprovados atributos multivalorados, compostos e suas combinações. Uma tabela está na 1ª forma normal quando possui somente valores atômicos e não há grupos de atributos repetidos ou multivalorados.

Procedimento Armazenado: Ver Stored Procedure

Q

Quarta Formal Normal: 4FN. Próximo nível de normalização após a Forma Normal de Boyce-Codd. Trata das dependências multivaloradas em uma tabela.
Uma tabela está em 4NF se e somente se, para cada uma de suas dependências multivaloradas não triviais X → Y, X é uma superchave – ou seja, X é uma chave candidata ou um super conjunto dela.

Query: Ver Consulta.

Quinta Formal Normal: 5FN. Nível de normalização de tabelas projetado para reduzir a redundância em bancos de dados relacionais que registram fatos com vários valores, isolando vários relacionamentos semanticamente relacionados. Uma tabela está na 5NF se e somente se todas as dependências de junção não triviais nessa tabela estiverem implícitas nas chaves candidatas.

R

R: Uma linguagem de programação de código aberto usada principalmente para visualização de dados e análise preditiva em Ciência de Dados.

Redundância: A redundância de dados é uma condição que pode existir em um banco de dados (ou outras tecnologias de armazenamento de dados) na qual os mesmos dados existem em dois locais distintos. Ou seja, dizemos que dados são redundantes quando eles são repetidos. É uma condição que normalmente queremos evitar em um banco de dados, e processos como a Normalização existem para eliminar ou diminuir a redundância.

Registro: Um Registro em uma tabela de banco de dados representa todos os dados requeridos por uma determinada ocorrência de entidade em particular, em uma linha. Por exemplo, os dados de um cliente específico. Cada linha em uma tabela é identificada por uma chave primária, de modo a não haver duplicação de registros. Também conhecido como Tupla.

Relação: Tabela bidimensional com características específicas, composta por linhas e colunas, criada a partir de uma entidade.

Relacionamento: Associação do mundo real entre duas ou mais entidades, representadas em um modelo entidade-relacionamento.

Relational database: Um banco de dados que estrutura conjuntos de dados inter-relacionados em tabelas, registros e colunas.

Relational database management system (RDBMS): (Sistema de Gerenciamento de Bancos de Dados Relacionais) Um sistema que gerencia, captura e analisa dados que são agrupados com base em atributos compartilhados chamados de relações.

Replicação: Termo que descreve o compartilhamento de dados para garantir a consistência entre recursos redundantes.

Restrição: Ou Restrição de Integridade. Restrições de armazenamento de dados, que dizem respeito a aspectos como os tipos dos dados armazenados, relacionamentos entre as colunas de chave primária e estrangeira, a possibilidade de haver ou não valores NULL em uma coluna, além de regras de negócio específicas importantes determinadas pelo cliente.

RESTRICT: Opção de chave estrangeira que impede que ocorra a exclusão ou a atualização de um registro da tabela pai, caso ainda hajam registros na tabela filha. Retorna uma exceção de violação de chave estrangeira.

ROLLBACK: Operação que retorna um banco de dados ao seu estado anterior se houver alguma falha durante o processamento de uma transação.

S

Scalability (Escalabilidade): Capacidade de um banco de dados ou outro sistema de conseguir mais recursos e capacidade e conectar várias entidades para melhorar a eficiência.

Segunda Formal Normal: Forma de Normalização na qual cada atributo não-chave de uma relação é total e funcionalmente dependente da chave primária da relação. Uma tabela está na 2ª forma normal quando já está na 1FN, e todos os atributos não-chave são funcionalmente dependentes de todas as partes da chave primária, não existindo dependências parciais.

SET DEFAULT: Opção de chave estrangeira que permite definir um valor padrão na coluna na tabela filha, aplicado quando um registro da tabela pai for atualizado ou excluído.

SET NULL: Esta opção de chave estrangeira é usada para definir com o valor NULL o campo na tabela filha quando um registro da tabela pai for atualizado ou excluído.

SGBD: Sigla de Sistema de Gerenciamento de Bancos de Dados

SGBDR: Sistema de Gerenciamento de Bancos de Dados Relacionais.

Shard: Uma partição individual de um banco de dados.

Sharding: Também conhecido como “particionamento horizontal”, o sharding é onde um banco de dados é dividido em várias partes, geralmente para melhorar a velocidade e a confiabilidade de uma aplicação..

Structured data: Informação com alto grau de organização – dados estruturados.

SQL: Linguagem utilizada para realizar operações em bancos de dados relacionais; a sigla significa Structured Query Language, ou Linguagem de Consulta Estruturada.

SQLAlchemy: Conjunto de ferramentas SQL empregado em mapeamento objeto-relacional (ORM) SQL, desenvolvida para Python e disponibilizada sob licença MIT, sendo software open source. Permite traduzir relações (tabelas) de bancos relacionais em objetos.

SQLite: Biblioteca escrita em C que permite implementar um banco de dados embutido (embedded). Assim, um software que use esta biblioteca pode acessar bancos de dados sem necessariamente precisar de um processo de SGBD separado.

SQL Server: Sistema de gerenciamento de bancos de dados relacionais da empresa Microsoft, desenvolvido em parceria com a Sybase. Escrito em C e C++, é software proprietário, com versões para Microsoft Windows e Linux.

Stored Procedure: Sub-rotina (miniprograma) disponível para as aplicações que acessam sistemas de bancos de dados relacionais. Os procedimentos armazenados podem ser empregados em tarefas como validação de dados, controle de acesso, execução de declarações SQL complexas e outras.

Storage: Dispositivo de Armazenamento de dados. Trata-se de um dispositivo físico, local ou remoto, cuja função é servir de repositório de dados, quer sejam na forma estruturada ou não-estruturada. Geralmente associados a sistemas de gerenciamento de bancos de dados e conectados em servidores de rede.

Strong consistency: Um conceito de banco de dados que se refere à incapacidade de confirmar transações que violam as regras de um banco de dados para validade de dados – literalmente, consistência forte.

Structured query language (SQL): Uma linguagem de programação projetada para gerenciar e manipular dados; usada principalmente em bancos de dados relacionais.

T

Tabela: Coleção de linhas (registros) em um banco de dados relacional, que armazena dados referentes a uma entidade em particular.

Tableau: Ferramenta de visualização de dados empregada principalmente nas áreas de BI (Business Intelligence) e Ciência de Dados, que permite realizar análise de dados e sua representação em vários formatos visuais, como gráficos, dashboards e planilhas.

Telemetria: Aquisição remota de informações sobre um objeto (por exemplo, de um automóvel, smartphone, dispositivo médico ou dispositivo IoT).

Terceira Formal Normal: Forma de Normalização na qual uma relação não deve ter um atributo não-chave que seja determinado funcionalmente por outro atributo não-chave (ou conjunto de atributos). Uma tabela está na 3ª forma normal quando já está na 2FN, e não existirem dependências transitivas.

Transação: Conjunto de uma ou mais operações (Criação, Leitura, Atualização ou Exclusão) que compõem uma tarefa única ou ainda uma unidade lógica de trabalho a ser processada.

Transformação: Conversão de dados de um formato para outro em um sistema ETL.

Trigger: Trigger, ou “gatilho”, é um objeto do banco de dados programável e associado a uma tabela. Na prática, é um procedimento invocado automaticamente quando uma declaração DML é executada na tabela, sendo disparado e agindo em cada linha afetada.

TRUNCATE: Declaração SQL empregada para limpar uma tabela completamente – excluir todos os seus registros de uma só vez (quando seguida da palavra TABLE).

TSQL: T-SQL ou Transact-SQL. “Dialeto” do SQL empregado em bancos de dados criados no SGBDR Microsoft SQL Server.

Tupla: Em modelagem de bancos de dados, uma tupla se refere a um registro completo em uma tabela, ou seja, uma linha da tabela.

U

Unstructured data: Dados Não-Estruturados. Trata-se de dados que não possuem um modelo de dados predefinido ou não estão organizados de forma predefinida.

V

Visualização de Dados: O processo de analisar dados e expressá-los em um formato visual legível, como um gráfico. A visualização de dados é uma ciência em si, com inúmeras ferramentas e bibliotecas disponíveis para criação de gráficos e outras formas de exibição de dados, tais como ggplot2, matplotlib, d3.js, Tableau, etc.

W

Wide-column store: Armazenamento Colunar. Também conhecido como “Armazenamento BigTable” por conta da relação com o banco de dados BigTable do Google, é um tipo de banco de dados que armazena seus dados em registros que podem conter um grande número de colunas dinâmicas. Os nomes dessas colunas e as chaves dos registros não são fixos.

X

XML: Sigla de eXtensible Markup Language. Trata-se de uma linguagem empregada para representação de dados e transporte de dados entre sistemas variados, muito empregada em desenvolvimento para Web.

Z

Zonas: Áreas distintas em um Data Lake que atendem a propósitos específicos e bem definidos.

Referências:

https://dzone.com/articles/database-glossary-1

 

Sobre Fábio dos Reis (1221 Artigos)
Fábio dos Reis trabalha com tecnologias variadas há mais de 30 anos, tendo atuado nos campos de Eletrônica, Telecomunicações, Programação de Computadores e Redes de Dados. É um entusiasta de Ciência e Tecnologia em geral, adora Viagens e Música, e estuda idiomas, além de ministrar cursos e palestras sobre diversas tecnologias em São Paulo e outras cidades do Brasil.

4 Comentários em Dicionário de Bancos de Dados e Big Data

  1. Excelente artigo! Glossário muito útil!
    Parabéns!!!
    Um abraço!

  2. Cesar Costa // 28/08/2022 em 8:37 // Responder

    Bom dia, desculpe comentar aqui, seu canal é tão conhecido que é recomendado por cursos de TI. Acho uma boa ideia criar certificado passando por um teste, sendo pago pra ajudar o canal.
    Além dos cursos básicos que estão na Udemy, colocando cursos mais completos iguais ao do youtube.
    Poderia colocar esses curso na Udemy ou criar seu próprio certificado
    Desenvolvimento Web, Modelagem de BD, PostgreSQL, MySQL UML, Linguagem C, Python, entre outros.

  3. bom dia, não estou conseguindo acessar aos seus quizzes para treinar e estudar.
    teria como disponibiliza-los?

    • Bom dia Lucas!
      Tive de desativar os plugins do site temporariamente por conta de problemas com o servidor do serviço de hospedagem. Espero resolver o problema em breve para poder reativar os quizzes.
      Obrigado, e abraço!

Escreva um comentário

Seu e-mail não será divulgado


*