Como os modelos de redes neurais são geralmente implantados?
Lotes of possibilities:
- Você atingiu um mínimo local de sua função de custo. Como o gradiente é calculado estocasticamente, ele ainda irá saltar um pouco, mas se a bacia de atração dos mínimos locais for grande o suficiente, você'estará preso lá.
- Sua rede é't suficientemente complexa para obter uma melhor aproximação da função que você está modelando. Em teoria, você pode modelar qualquer função para uma precisão arbitrária com uma rede grande o suficiente. Cada rede tem uma precisão máxima à qual pode se aproximar de qualquer função dada. Para uma rede pequena e função complicada, essa precisão máxima pode estar longe do que você quer.>li>Sua taxa de aprendizagem é muito grande. O modelo vai muito longe na direção do gradiente e continua superando o alvo.
- Instabilidade numérica. O cálculo de gradientes e atualização de pesos é complicado e às vezes pode levar a um cancelamento catastrófico. Isso pode estragar totalmente a convergência, às vezes até mesmo mantendo seu modelo fora da faixa de parâmetros ideais sem divergência.
- Um bug no código. Calculando praticamente QUALQUER coisa errada ainda pode permitir que o seu modelo converge, mas para os parâmetros errados.
- O algoritmo errado. Redes neurais são ótimas para muitas coisas, mas elas são't certas para cada tarefa. Algumas funções são muito difíceis de aproximar com as redes neurais.
E há toneladas de outras coisas que podem dar errado! Se você quer saber o que está dando errado no seu caso, você precisa olhar exatamente o que o seu modelo está fazendo.