Como funciona a perplexidade no processamento da linguagem natural?
Perplexidade é a medida de quão provável um determinado modelo de linguagem irá prever os dados do teste. Veja por exemplo,
"Eu amo a PNL."
[matemática]|displaystyle\d_{i=1}^n p(w_i) = p(|text{'NLP'} | |text{'I'}, {'love'}) * p(w_i) = p(w_i) = p(|text{'|text{'I'|) * p(texto{'I'|)[/math]
O que acontece é que começamos a obter valores muito pequenos muito rapidamente se tivermos sequências mais longas. Na implementação, o cálculo é normalmente feito em espaço de log e depois não é transformado de volta.
[matemática]log_2\displaystyle\prod_{i=1}^n p(w_i) = \displaystyle\sum_{i=1}^n log_2p(s_i)[/math]
Após a normalização...
[matemática]l = \frac{-1}{N}}displaystyle\sum_{i=1}^n log_2p(s_i)[/math]
Untransforming...
[matemática]PP = 2^{\frac{-1}{N}\sum_{i=1}^n log_2p(s_i)}[/math]
Perplexidade não é uma forma definitiva de avaliar um modelo linguístico, no entanto, ela diz algo sobre a compressão do vocabulário.
No caso [matemática]p(\text{'I', 'love', 'NLP'}) = 1[/math], o que significa que o modelo de linguagem pode reproduzir perfeitamente os dados do teste, a perplexidade é [matemática]2^0=1[/math]. No pior caso, se o modelo atribui probabilidade de 0, então [matemática]log(0) = \i[/math]. O que significam estes valores?
Um modelo mudo diz que cada palavra é igualmente provável e prevê uma probabilidade uniforme para cada parâmetro, 1 / N. A perplexidade de um modelo mudo é o tamanho do vocabulário, N. Isto não é bom porque as palavras não são igualmente prováveis; certas palavras e frases tendem a se aglomerar. Se melhorarmos o modelo de linguagem, a perplexidade diminui.
Se o tamanho do vocabulário for 10.000 e nossa perplexidade for 100, então, em média, para cada palavra na seqüência dos dados do teste, reduzimos nossas opções de 10.000 palavras para 100.
Artigos semelhantes
- Como começar com Processamento de Linguagem Natural
- Qual é a diferença entre linguagem de máquina, linguagem de montagem e linguagem de alto nível em computadores?
- O gás natural é um substituto para o petróleo?
- A voz de Whitney Houston foi o resultado de um extenso treinamento vocal, ou foi simplesmente talento natural?