O que é uma explicação intuitiva para a função de perda de registo?
Intuição por trás da perda de log usando a sua FORMULA :
Perda de log é usada quando temos uma resposta {0,1}. Isto é normalmente porque quando temos {0,1} resposta, os melhores modelos nos dão valores em termos de probabilidades.
Em palavras simples, a perda de log mede a UNCERTAINTY das probabilidades do seu modelo, comparando-as com as etiquetas verdadeiras. Analisemos atentamente a sua fórmula e vejamos como mede a UNCERTAINTY.
Agora a pergunta é, as suas etiquetas de treino são 0 e 1 mas as suas previsões de treino são 0.4, 0.6, 0.89, 0.1122 etc. Então, como calculamos uma medida do erro do nosso modelo ? Se classificarmos directamente todas as observações com valores > 0,5 em 1, corremos um risco elevado de aumentar o erro de classificação. Isto porque pode acontecer que muitos valores com probabilidades de 0.4, 0.45, 0.49 possam ter um valor verdadeiro de 1.
É aqui que entra logLoss.
Agora vamos seguir de perto a fórmula de logLoss. Pode haver 4 casos maiores para os valores de [matemática]y_{i}[/math] e [matemática]p_{i}[/math]
Caso 1 : [matemática]y_{i} = 1 [/math] , [matemática]p_{i}[/math] = Alto , [matemática] 1 - y_{i} = 0[/math] , [matemática]1 - p_{i}[/math] = Baixo
Caso 2 : [matemática]y_{i} = 1 [/math] , [matemática]p_{i}[/math] = Baixo , [matemática] 1 - y_{i} = 0[/math] , [matemática]1 - p_{i}[/math] = Alto
Casa 3 : [matemática]y_{i} = 0 [/math] , [matemática]p_{i}[/math] = Baixo , [matemática] 1 - y_{i} = 1[/math] , [matemática]1 - p_{i}[/math] = Alto
Casa 4 : [matemática]y_{i} = 0 [/math] , [matemática]p_{i}[/math] = Alto , [matemática] 1 - y_{i} = 1[/math] , [matemática]1 - p_{i}[/math] = Baixo
Log Loss Formula :
[matemática]logLoss = \frac{-1}{N} \sum_{i=1}^{N}(y_{i}(log{p_{i}})+(1- {y_{i}})log(1-p_{i}))[/math]
Case 1:
Neste caso y = 1 e p = alto implica que temos as coisas certas! Porque o verdadeiro valor da resposta concorda com a nossa elevada probabilidade. Agora olha com atenção... a ocorrência do Caso 1 vai inflar significativamente a soma porque, Yi * log (Pi) seria alto e simultaneamente o outro termo na soma seria zero desde 1 - Yi = 1 - 1 = 0. Então mais ocorrências do Caso 1 inflacionariam a soma e conseqüentemente inflacionariam a média.
Notem também que isto é possível porque se Pi > Pi-1 , log (Pi) > log (Pi-1)
Caso 2:
Neste caso y = 1 e p = baixo. Este é um caso totalmente indesejável porque nossa probabilidade de Y ser 1 é baixa, mas ainda assim o verdadeiro valor de Y é 1. Agora novamente olhando a fórmula de perto, o segundo termo na soma seria zero, já que 1- yi seria zero. E como p = baixo, Yi * log (Pi) não inflacionaria a soma tanto quanto o caso 1. Então o Caso 2 não afetaria muito a soma.
Simplesmente as ocorrências do Caso 3 inflariam a soma significativamente e as ocorrências do Caso 4 não.
Agora voltando à questão principal, como a perda de log mede a UNCERTAINTY do seu modelo? A resposta é simples. Suponha que tenhamos mais casos 1 e 3, então a soma dentro da fórmula de logloss seria maior (tenderia a aumentar). Isto implicaria que a média (/N) também tenderia a aumentar e seria substancialmente maior em comparação com o que teria sido se o Caso 2s e o Caso 4s tivessem sido adicionados. Então agora este valor é o maior possível no Caso1s e no Caso3s, o que indica uma boa previsão. Se o multiplicarmos por (- 1) , tornaremos o valor o menor possível. Isto agora intuitivamente significaria, menor o valor, melhor é o modelo, ou seja, menor a perda de log, melhor é o modelo, ou seja, menor a UNCERTAINTY, melhor é o modelo.
Isto foi o mais simples que pude obter.