Definição – o que significa detecção de outlier?
A detecção de outliers é o processo de detectar e subsequentemente excluir os outliers de um determinado conjunto de dados.
Um outlier pode ser definido como um dado ou observação que se desvia drasticamente da norma ou média dada do conjunto de dados. Um outlier pode ser causado simplesmente por acaso, mas também pode indicar erro de medição ou que o conjunto de dados fornecido tem uma distribuição de cauda pesada.
Aqui está um cenário simples na detecção de valores discrepantes, um processo de medição produz consistentemente leituras entre 1 e 10, mas em alguns casos raros, obtemos medições superiores a 20.
Essas medidas raras além da norma são chamadas de outliers, pois “ficam fora” da curva de distribuição normal.
Definirtec explica a detecção de outlier
Na verdade, não existe um método matemático padronizado e rígido para determinar um valor discrepante, pois ele realmente varia dependendo do conjunto ou da população de dados, portanto, sua determinação e detecção tornam-se subjetivas. Por meio da amostragem contínua em um determinado campo de dados, as características de um outlier podem ser estabelecidas para tornar a detecção mais fácil.
Existem métodos baseados em modelos para detectar outliers e eles assumem que os dados são todos retirados de uma distribuição normal e irão identificar observações ou pontos, que são considerados improváveis com base na média ou desvio padrão, como outliers. Existem vários métodos para detecção de outlier:
- Teste de Grubb para valores discrepantes – baseia-se na suposição de que os dados são de uma distribuição normal e remove um valor discrepante por vez com o teste sendo iterado até que não sejam encontrados mais valores discrepantes.
- Teste Q de Dixon – também baseado na normalidade do conjunto de dados, este método testa dados incorretos. Foi observado que isso deve ser usado com moderação e nunca mais de uma vez em um conjunto de dados.
- Critério de Chauvenet – É usado para analisar se o valor discrepante é espúrio ou ainda está dentro dos limites e deve ser considerado parte do conjunto. A média e o desvio padrão são tomados e a probabilidade de ocorrer o outlier é calculada. Os resultados irão determinar se ele deve ser incluído ou não.
- Critério de Pierce – Um limite de erro é definido para uma série de observações, além do qual todas as observações serão descartadas por já envolverem um erro tão grande.