Qual é a diferença entre a aprendizagem supervisionada e a aprendizagem de reforço?
Respostas detalhadas aqui já explicam a diferença com exemplos. Talvez as diferenças chave sejam apenas um par
>ul> Aprendizagem passiva vs aprendizagem activa.>ul>>li>Na aprendizagem supervisionada o processo de aprendizagem é passivo. Passivo porque o modelo aprende um mapeamento do espaço de entrada para o espaço de saída, sem alterar o espaço de entrada como consequência da sua aprendizagem. Então cada amostra do espaço de entrada é- independente de outras amostras de entrada e
- a distribuição de probabilidade subjacente da qual as amostras são retiradas são idênticas (ou seja a mesma distribuição de probabilidade com os mesmos parâmetros que caracterizam a distribuição)
- li>Por exemplo, cada imagem de entrada num convnet para um problema de classificação é independente de todas as outras imagens serem classificadas e desenhadas a partir da mesma distribuição de probabilidade subjacente que caracteriza o espaço de entrada.
- >li>Na aprendizagem supervisionada, o papel do professor é instrutivo. Por exemplo, cada classificação de uma imagem, recebe um feedback sobre quão correcta/incorrecta foi essa classificação (90% gato, 10% cão, etc.) . O agente usa esse feedback para obter a classificação correta sobre as iterações de treinamento.
- Em contraste na aprendizagem de reforço, o feedback do professor é avaliativo. Por exemplo, no controle automático da temperatura de um centro de dados com um agente de aprendizagem de reforço, o agente não recebe um feedback de correção para cada ajuste de temperatura que faz (se ele recebe mesmo um feedback para todas as suas ações). Em vez disso, pode receber, numa base diária, por exemplo, a quantidade de electricidade consumida. Este feedback do professor é distinto das etiquetas na aprendizagem supervisionada, na medida em que não é apenas um feedback para cada ajuste automático de temperatura, e mesmo que teoricamente tenha sido dado tal feedback, o feedback é um valor de consumo de electricidade - uma medida média acumulada de alguma métrica que é consequência do efeito das alterações de temperatura que o agente fez.
Alex Graves captura a diferença entre as várias formas de aprendizagem ao longo destes dois eixos categóricos. A captura de tela é de seu talk
Essas diferenças são o que talvez dificulte mais a aprendizagem de reforço do que a aprendizagem supervisionada. Uma palestra recente (2019) de um engenheiro Waymo ilustra os desafios práticos de usar mesmo todos os quilómetros disponíveis recolhidos pelos carros auto-conduzidos para simular a longa cauda das condições de fronteira para a auto-condução - uma das quais é a natureza não iídica do input (ilustrada por um caso muito agradável de um carro virtual seguindo o carro real em aprendizagem de imitação numa simulação - o carro virtual encontra uma situação totalmente nova simplesmente pela consequência da mudança de ambiente causada pelo movimento do carro real).