Definição – o que significa Schema on Read?
Esquema na leitura refere-se a uma estratégia de análise de dados inovadora em novas ferramentas de manipulação de dados como Hadoop e outras tecnologias de banco de dados mais envolvidas. No esquema na leitura, os dados são aplicados a um plano ou esquema à medida que são retirados de um local armazenado, em vez de entrar.
Definirtec explica Schema on Read
As tecnologias de banco de dados mais antigas tinham uma estratégia de aplicação de esquema na gravação – em outras palavras, os dados precisavam ser aplicados a um plano ou esquema quando iam para o banco de dados. Isso foi feito parcialmente para reforçar a consistência dos dados e esse é um dos principais benefícios do esquema na gravação. Com o esquema na leitura, as pessoas que lidam com os dados podem precisar trabalhar mais para identificar cada parte dos dados, mas há muito mais versatilidade.
De forma fundamental, o design do esquema na leitura complementa os principais usos do Hadoop e ferramentas relacionadas. As empresas desejam agregar com eficácia muitos dados e armazená-los para usos específicos. Dito isso, eles podem valorizar a coleta de dados impuros ou inconsistentes mais do que um regime estrito de aplicação de dados. Em outras palavras, o Hadoop pode acomodar a obtenção de um amplo escopo de diferentes pequenos bits de dados que podem não estar completamente organizados. Então, conforme essa informação é usada, ela se organiza. Aplicar o antigo sistema de esquema na gravação do banco de dados significaria que os dados menos organizados provavelmente seriam descartados.
Outra maneira de colocar isso é que o esquema na gravação é melhor para obter conjuntos de dados muito limpos e consistentes, mas esses conjuntos de dados podem ser mais limitados. O esquema na leitura projeta uma rede mais ampla e permite uma organização de dados mais versátil. Os especialistas também apontam que é mais fácil criar duas visualizações diferentes dos mesmos dados com esquema na leitura.
Essa estratégia de esquema na leitura é uma parte essencial do motivo pelo qual o Hadoop e as tecnologias relacionadas são tão populares na tecnologia corporativa de hoje. As empresas estão usando grandes quantidades de dados brutos para alimentar todos os tipos de processos de negócios, aplicando lógica difusa e outros sistemas de classificação e filtragem que envolvem data warehouses corporativos e outros grandes ativos de dados.