O que é 'vazamento de dados' na ciência dos dados?
Leakage | Kaggle
>p>Data Leakage é a criação de informação adicional inesperada nos dados de treino, permitindo a um modelo ou algoritmo de aprendizagem de máquina fazer previsões irrealistas.Leakage é um desafio generalizado na aprendizagem aplicada de máquinas, fazendo com que os modelos representem em demasia o seu erro de generalização e muitas vezes tornando-os inúteis no mundo real. Ele pode ser causado por erro humano ou mecânico, e pode ser intencional ou não intencional em ambos os casos.
Alguns tipos de vazamento de dados incluem:
<
Related: data dredging (aka. data fishing, data snooping).