Definição – o que significa Knowledge Discovery in Databases (KDD)?
A descoberta de conhecimento em bancos de dados (KDD) é o processo de descoberta de conhecimento útil a partir de uma coleção de dados. Essa técnica de mineração de dados amplamente utilizada é um processo que inclui preparação e seleção de dados, limpeza de dados, incorporação de conhecimento prévio sobre conjuntos de dados e interpretação de soluções precisas a partir dos resultados observados.
As principais áreas de aplicação da KDD incluem marketing, detecção de fraude, telecomunicações e manufatura.
Definirtec explica a descoberta de conhecimento em bancos de dados (KDD)
Tradicionalmente, a mineração de dados e a descoberta de conhecimento eram realizadas manualmente. Com o passar do tempo, a quantidade de dados em muitos sistemas cresceu para mais do que o tamanho de um terabyte e não podia mais ser mantida manualmente. Além disso, para a existência de sucesso de qualquer empresa, descobrir padrões subjacentes nos dados é considerado essencial. Como resultado, várias ferramentas de software foram desenvolvidas para descobrir dados ocultos e fazer suposições, que faziam parte da inteligência artificial.
O processo KDD atingiu seu pico nos últimos 10 anos. Ele agora abriga muitas abordagens diferentes para a descoberta, que inclui aprendizagem indutiva, estatística bayesiana, otimização de consulta semântica, aquisição de conhecimento para sistemas especialistas e teoria da informação. O objetivo final é extrair conhecimento de alto nível de dados de baixo nível.
KDD inclui atividades multidisciplinares. Isso abrange armazenamento e acesso a dados, algoritmos de escalonamento para conjuntos de dados massivos e interpretação de resultados. O processo de limpeza e acesso a dados incluído no armazenamento de dados facilita o processo KDD. A inteligência artificial também apóia o KDD, descobrindo leis empíricas de experimentação e observações. Os padrões reconhecidos nos dados devem ser válidos em novos dados e possuir algum grau de certeza. Esses padrões são considerados novos conhecimentos. As etapas envolvidas em todo o processo KDD são:
- Identifique o objetivo do processo KDD da perspectiva do cliente.
- Compreenda os domínios de aplicação envolvidos e o conhecimento necessário
- Selecione um conjunto de dados de destino ou subconjunto de amostras de dados nos quais a descoberta será realizada.
- Limpe e pré-processe os dados decidindo estratégias para lidar com campos ausentes e alterar os dados de acordo com os requisitos.
- Simplifique os conjuntos de dados removendo variáveis indesejadas. Em seguida, analise recursos úteis que podem ser usados para representar os dados, dependendo da meta ou tarefa.
- Combine as metas do KDD com métodos de mineração de dados para sugerir padrões ocultos.
- Escolha algoritmos de mineração de dados para descobrir padrões ocultos. Esse processo inclui decidir quais modelos e parâmetros podem ser apropriados para o processo geral de KDD.
- Pesquise padrões de interesse em uma forma representacional específica, que incluem regras ou árvores de classificação, regressão e agrupamento.
- Interprete o conhecimento essencial dos padrões extraídos.
- Use o conhecimento e incorpore-o a outro sistema para ações futuras.
- Documente e faça relatórios para as partes interessadas.