Qual é a diferença entre um Autocodificador Variável (VAE) e um Autocodificador?
O artigo "Building Autoencoders in Keras" que Ajit Rajasekharan refere é um ótimo ponto de partida. Descobri também que o exemplo usado em Using Artificial Intelligence to Augment Human Intelligence é muito intuitivo e utiliza este exemplo de fontes sendo geradas a partir de pontos de picking na distribuição.
O modelo generativo que usamos é um tipo de rede neural conhecida como autocodificador variacional (VAE)[3]. Para nossos propósitos, os detalhes do modelo generativo não são tão importantes. O importante é que ao alterar as variáveis latentes utilizadas como input, é possível obter fontes diferentes como output. Assim uma escolha de variáveis latentes dará uma fonte, enquanto outra escolha dará uma fonte diferente:
Você pode pensar nas variáveis latentes como uma representação compacta e de alto nível da fonte. A rede neural pega essa representação de alto nível e a converte em dados de pixel completo. É notável que apenas [matemática]40[/math]40 números podem capturar a complexidade aparente em um glifo, que originalmente requeria [matemática]4.096[/math]4.096 variáveis.
O modelo generativo que usamos é aprendido de um conjunto de treinamento de mais de [matemática]50[/math]50 mil fontes Bernhardsson[4] raspadas da rede aberta. Durante o treinamento, os pesos e viés na rede são ajustados para que a rede possa produzir uma aproximação próxima a qualquer fonte desejada do conjunto de treinamento, desde que uma escolha adequada de variáveis latentes seja feita. Em algum sentido, o modelo está aprendendo uma representação altamente comprimida de todas as fontes de treinamento.
Na verdade, o modelo não reproduz apenas as fontes de treinamento. Ele também pode generalizar, produzindo fontes não vistas no treinamento. Ao ser forçada a find uma descrição compacta dos exemplos de treinamento, a rede neural aprende um modelo abstrato, de nível superior, do que é uma fonte. Esse modelo de nível superior permite generalizar além dos exemplos de treinamento já vistos, para produzir fontes de aparência realista.