Casa > O > O Que É 'Vazamento De Dados' Na Ciência Dos Dados?

O que é 'vazamento de dados' na ciência dos dados?

Leakage | Kaggle

>p>Data Leakage é a criação de informação adicional inesperada nos dados de treino, permitindo a um modelo ou algoritmo de aprendizagem de máquina fazer previsões irrealistas.

Leakage é um desafio generalizado na aprendizagem aplicada de máquinas, fazendo com que os modelos representem em demasia o seu erro de generalização e muitas vezes tornando-os inúteis no mundo real. Ele pode ser causado por erro humano ou mecânico, e pode ser intencional ou não intencional em ambos os casos.
Alguns tipos de vazamento de dados incluem:
<

ul>>li>Leaking test data into the training data.Leaking the correct prediction or ground truth into the test data.Leaking of information from the future into the past.>li>Retaining proxies for removed variables a model is restricted from knowing.Reversão da ofuscação intencional, randomização ou anonimização.Inclusão de dados não presentes no ambiente operacional do modelo's.Distorting information from samples outside of scope of the model's intended use.Any of the above present in third party data joined to the training set.


Related: data dredging (aka. data fishing, data snooping).

De Filbert

Quais são as principais fontes de gás hélio? :: Which Qualcomm Quick Charge 3.0 charger should I buy for my Lenovo Z2 plus?