Definição – o que significa Dirty Data?
Dados sujos referem-se a dados que contêm informações incorretas. Também pode ser usado para se referir a dados que estão na memória e ainda não foram carregados em um banco de dados. A remoção completa de dados sujos de uma fonte é impraticável ou virtualmente impossível.
Os seguintes dados podem ser considerados dados sujos:
- Dados enganosos
- Dados duplicados
- Dados incorretos
- Dados imprecisos
- Dados não integrados
- Dados que violam as regras de negócios
- Dados sem formatação generalizada
- Dados com pontuação ou grafia incorreta
Definirtec explica Dirty Data
Além da entrada incorreta de dados, dados sujos podem ser gerados devido a métodos inadequados de gerenciamento e armazenamento de dados. Alguns tipos de dados sujos são explicados abaixo:
- Dados incorretos – para garantir que os dados são válidos ou corretos, o valor inserido deve estar de acordo com os valores válidos do campo. Por exemplo, o valor inserido no campo do mês deve variar de 1 a 12, ou a idade de um indivíduo deve ser inferior a 130. A correção do valor dos dados pode ser reforçada programaticamente por meio de tabelas de pesquisa ou com verificações de edição.
- Dados imprecisos – é possível que um valor de dados esteja correto, mas não preciso. Às vezes, é prático comparar outros arquivos ou campos para descobrir se o valor dos dados é preciso com base no contexto em que é usado. Ainda assim, a precisão muitas vezes só pode ser validada por verificação manual.
- Violações de regras de negócios – os dados que violam as regras de negócios são outro tipo de dados sujos. Por exemplo, uma data efetiva deve sempre vir antes de uma data de vencimento. Outro exemplo de violação de regra de negócios pode ser a reivindicação de seguro Medicare de um paciente, em que o paciente ainda pode estar abaixo da idade de aposentadoria e não tem direito ao Medicare.
- Dados inconsistentes – A redundância de dados não verificada leva a inconsistências de dados. Cada organização é afetada com dados inconsistentes e repetitivos. Isso é particularmente comum com dados de clientes.
- Dados incompletos – Dados com valores ausentes são o principal tipo de dados incompletos.
- Dados duplicados – Dados duplicados podem ocorrer devido a envios repetidos, junção inadequada de dados ou erro do usuário.
Para aumentar a qualidade dos dados e evitar dados sujos, as organizações devem incorporar metodologias para garantir a integridade, validade, consistência e exatidão dos dados.