Limpeza de dados é o processo de identificar, remover ou corrigir dados imprecisos, incompletos, inconsistentes, duplicados ou irrelevantes em um conjunto de dados.
É uma etapa importante no processo de análise de dados, uma vez que dados sujos podem afetar negativamente a qualidade e confiabilidade dos resultados da análise.
Existem várias técnicas para identificar problemas de limpeza de dados em um conjunto de dados. Algumas das técnicas mais comuns incluem:
Análise visual: pode-se inspecionar o conjunto de dados para identificar erros óbvios, como valores ausentes, valores que não fazem sentido ou valores extremos.
Análise de correlação: analisar as correlações entre as variáveis e procurar relações que não fazem sentido ou que não deveriam existir.
Análise de consistência: comparar valores em diferentes variáveis para ver se eles são consistentes entre si. Por exemplo, se uma pessoa é descrita como tendo 2 metros de altura e 30 kg de peso, pode haver um problema de limpeza de dados.
“The idea of imputation is both seductive and dangerous” (R.J.A Little & D.B. Rubin)
A escolha do método de tratamento de valor ausente depende do tipo de valor ausente identificado.
Basicamente, existem dois tipos de valores ausentes: aleatórios e não aleatórios
MCAR (missing completely at random): ocorrem de forma completamente aleatória e não estão relacionados com as outras variáveis do conjunto de dados.
MNAR (missing not at random): são valores ausentes que estão relacionados com outras variáveis do conjunto de dados e podem levar a enviesamento na análise dos dados.
Para identificar valores ausentes MCAR, uma técnica é analisar a distribuição de valores ausentes em relação às outras variáveis do conjunto de dados.
Se não houver correlação entre a ausência de valores e outras variáveis, é provável que os valores ausentes sejam MCAR.
Também é possível realizar testes estatísticos para verificar se a distribuição dos valores ausentes é aleatória ou não.
Já a identificação de valores ausentes MNAR é mais complexa, pois eles estão relacionados a outras variáveis do conjunto de dados e, portanto, é mais difícil determinar se eles são completamente aleatórios ou não.
Algumas técnicas para identificar valores ausentes MNAR incluem:
Análise visual: é possível realizar análises gráficas para verificar se há algum padrão de valores ausentes que sugira que eles não são aleatórios.
O tratamento de valores ausentes completamente aleatórios (MCAR) é relativamente simples, pois os valores ausentes são independentes das demais variáveis e podem ser tratados sem viés.
Algumas técnicas comuns para lidar com valores ausentes MCAR incluem
Exclusão de registros com valores ausentes: Se a proporção de valores ausentes é pequena em relação ao tamanho do conjunto de dados, é possível excluir os registros que contêm valores ausentes sem comprometer a análise.
Imputação de valores: Se o número de valores ausentes é grande, é possível imputar os valores ausentes usando métodos estatísticos, como a média, mediana ou regressão.
Modelagem com técnicas de aprendizado de máquina: As técnicas de aprendizado de máquina podem ajudar a prever valores ausentes com base em outros dados disponíveis.
O tratamento de valores ausentes não aleatórios (MNAR) é mais complexo do que o tratamento de valores ausentes completamente aleatórios (MCAR), pois os valores ausentes estão relacionados a outras variáveis do conjunto de dados e podem levar a um viés na análise se não forem tratados adequadamente.
Algumas técnicas comuns para lidar com valores ausentes MNAR incluem:
Imputação baseada em modelos: A imputação baseada em modelos é uma técnica que envolve a construção de um modelo estatístico para prever os valores ausentes com base nas informações disponíveis.
Análise de sensibilidade: A análise de sensibilidade é uma técnica que envolve testar diferentes cenários e valores de imputação para avaliar o impacto nos resultados da análise.
Algumas técnicas comuns para lidar com valores inconsistentes incluem:
Correção manual: Para valores inconsistentes que podem ser facilmente corrigidos, a correção manual pode ser uma abordagem eficaz.
Imputação de valores: Para valores inconsistentes que não podem ser facilmente corrigidos, a imputação de valores pode ser uma abordagem útil.
Exclusão de registros: Para valores inconsistentes que não podem ser corrigidos e não podem ser imputados com precisão, a exclusão de registros pode ser uma abordagem apropriada.