Qual é a diferença entre GloVe e Word2vec?
Obrigado para o A2A. Já há uma boa resposta de Stephan Gouws. Vou adicionar o meu ponto.
<- Na palavra2vec, os modelos Skipgram tentam capturar a co-ocorrência de uma janela de cada vez>li>Na luva tenta capturar a contagem das estatísticas gerais com que frequência aparece.
Palavra2Vec
A ideia principal por detrás disto é que se treina um modelo sobre o contexto em cada palavra, para que palavras semelhantes tenham representações numéricas semelhantes.
Apenas como uma rede neural de alimentação normal densamente conectada(NN) onde você tem um conjunto de variáveis independentes e uma variável dependente do alvo que você está tentando prever, você primeiro quebra sua frase em palavras(tokenize) e cria um número de pares de palavras, dependendo do tamanho da janela. Então uma das combinações pode ser um par de palavras como ('New','York'), onde cat é a variável independente(X) e 'purr' é a variável dependente de alvo(Y) que estamos tentando prever.
Alimentamos os 'cat' no NN através de uma camada de incorporação inicializada com pesos aleatórios, e a passamos através da camada softmax com o objetivo final de prever 'purr'. O método de otimização como o SGD minimiza a função de perda "(target word | context words)" que procura minimizar a perda da previsão das palavras alvo dadas as palavras de contexto. Se fizermos isto com épocas suficientes, os pesos na camada de incorporação acabariam por representar o vocabulário dos vectores de palavras, que são as "coordenadas" das palavras neste espaço geométrico vectorial.
GLOVE
GLOVE funciona de forma semelhante ao Word2Vec. Enquanto você pode ver acima que Word2Vec é um modelo "preditivo" que prevê contexto dado palavra, GLOVE aprende construindo uma matriz de co-ocorrência (palavras X contexto) que basicamente conta a freqüência com que uma palavra aparece em um contexto. Como ela's vai ser uma matriz gigantesca, nós fatorizamos essa matriz para conseguir uma representação de menor dimensão. There's muitos detalhes que vão em GLOVE mas que's a idéia aproximada.
Source - Do Pretrained Embeddings Give You The Extra Edge?
Can't skip this resource adding in the answers its a informative notebook for Word Embeddings
Artigos semelhantes
- Quais são as principais diferenças entre a palavra incorporação de ELMo, BERT, Word2vec, e GloVe?
- Qual é a diferença entre o Bluetooth no Android e no iPhone? Por que não somos capazes de transferir arquivos entre eles?
- A diferença entre 9 e 45 pontos de foco (Canon 800d Vs. Canon 200d) faz uma enorme diferença nas DSLRs?
- Qual é a diferença entre a Cyber Monday e a Black Friday, e qual é a melhor para fazer compras?