O que são dados estruturados?

Os dados estruturados referem-se a quaisquer dados que residam em um campo fixo de um registro ou arquivo. Isso inclui dados contidos em bancos de dados relacionais e planilhas.

Características de dados estruturados

Os dados estruturados dependem primeiro da criação de um modelo de dados - um modelo dos tipos de dados de negócios que serão registrados e como serão armazenados, processados ​​e acessados. Isso inclui definir quais campos de dados serão armazenados e como esses dados serão armazenados: tipo de dados (numérico, moeda, alfabético, nome, data, endereço) e quaisquer restrições à entrada de dados (número de caracteres; restrito a certos termos, como como Sr., Sra. ou Dr .; M ou F).

Os dados estruturados têm a vantagem de serem facilmente inseridos, armazenados, consultados e analisados. Ao mesmo tempo, devido às limitações de alto custo e desempenho de armazenamento, memória e processamento, bancos de dados relacionais e planilhas usando dados estruturados eram a única maneira de gerenciar os dados com eficácia. Qualquer coisa que não pudesse caber em uma estrutura bem organizada teria que ser armazenada em papel em um arquivo.

Gerenciamento de dados estruturados

Os dados estruturados são geralmente gerenciados usando Structured Query Language (SQL), uma linguagem de programação criada para gerenciar e consultar dados em sistemas de gerenciamento de banco de dados relacional. Originalmente desenvolvido pela IBM no início dos anos 1970 e posteriormente desenvolvido comercialmente pela Relational Software, Inc. (agora Oracle Corporation).

Os dados estruturados foram uma grande melhoria em relação aos sistemas não estruturados estritamente baseados em papel, mas a vida nem sempre cabe em pequenas caixas organizadas. Como resultado, os dados estruturados sempre tiveram que ser complementados por armazenamento em papel ou microfilme. Como o desempenho da tecnologia continuou a melhorar e os preços caíram, foi possível trazer para os sistemas de computação dados não estruturados e semiestruturados.

Dados não estruturados e semiestruturados

Dados não estruturados são todas aquelas coisas que não podem ser classificadas tão prontamente e caber em uma caixa organizada: fotos e imagens gráficas, vídeos, dados de instrumentos de streaming, páginas da web, arquivos PDF, apresentações em PowerPoint, e-mails, entradas de blog, wikis e documentos de processamento de texto .

Os dados semiestruturados são um cruzamento entre os dois. É um tipo de dados estruturados, mas carece da estrutura estrita do modelo de dados. Com dados semiestruturados, tags ou outros tipos de marcadores são usados ​​para identificar certos elementos dentro dos dados, mas os dados não têm uma estrutura rígida. Por exemplo, o software de processamento de texto agora pode incluir metadados mostrando o nome do autor e a data de criação, com a maior parte do documento sendo apenas um texto não estruturado. Os emails têm o remetente, destinatário, data, hora e outros campos fixos adicionados aos dados não estruturados do conteúdo da mensagem de email e quaisquer anexos. Fotos ou outros gráficos podem ser marcados com palavras-chave como o criador, data, localização e palavras-chave, tornando possível organizar e localizar gráficos. XML e outras linguagens de marcação são frequentemente usadas para gerenciar dados semiestruturados.

Padrões de tecnologia de dados estruturados

SQL é um padrão do American National Standards Institute desde 1986. É gerenciado pelo Comitê Internacional para Padrões de Tecnologia da Informação (INCITS) Comitê Técnico DM 32 Gerenciamento e intercâmbio de dados. O comitê tem dois grupos de tarefas, um para bancos de dados e outro para metadados. Participam HP, CA, IBM, Microsoft, Oracle, Sybase (SAP) e Teradata, bem como várias agências governamentais federais. Ambos os documentos do projeto do comitê possuem links para maiores informações sobre cada projeto. SQL tornou-se um padrão da Organização Internacional de Padrões (ISO) em 1987. Os padrões publicados estão disponíveis para compra no Loja ANSI eStandards, sob a classificação INCITS / ISO / IEC 9075.