Casa > O > O Que É Um Conjunto De Dados De Treinamento & Conjunto De Dados De Teste Na Aprendizagem De Máquinas? Quais São As Regras Para Selecioná-Los?

O que é um conjunto de dados de treinamento & conjunto de dados de teste na aprendizagem de máquinas? Quais são as regras para selecioná-los?

  1. I gosto de responder a esta pergunta no contexto dos Auto-Carros de Condução (SDCs)
      1. Teoria :
        1. Um algoritmo de aprendizagem de máquina é um modelo matemático que aprende a encontrar padrões na entrada que lhe é dada. Este input é referido como dados de treinamento.
        2. li>A partir do momento que um algoritmo de aprendizagem de máquina aprende os padrões subjacentes aos dados de treinamento, ele precisa ser testado em dados novos (ou dados de teste) que nunca viu antes, mas que ainda pertence à mesma distribuição que os dados de treinamento.
        3. Se o seu modelo tem um bom desempenho nos dados de teste, então é considerado como um modelo ML que generaliza o seu conjunto de dados de interesse.
      2. Exemplo : Os SDCs precisam de três habilidades para dirigir em estradas - Percepção, Planejamento e Execução. Vamos considerar a percepção (usando imagens de câmera 2D) e o processo de construção do modelo em torno dela.
        1. se um modelo de percepção SDC (digamos segmentação semântica) é treinado nas estradas e ruas de São Francisco, então essas imagens são consideradas dados de treinamento. Se este mesmo carro com o mesmo modelo for então testado em Londres, então as imagens obtidas de Londres são consideradas o conjunto de dados de teste.
        2. >li> Você deve notar tais como divisão no conjunto de dados Cityscapes onde o trem e as pastas de teste têm imagens de diferentes cidades alemãs / suíças.
        3. Outra maneira de ver isto é se você tem um monte de 10000 imagens brutas que você anotou (novamente para segmentação semântica) então você pode dividir este conjunto de dados em três partes aqui x + y + z = 100% (Dados de Treinamento - x% , Dados de Validação - y%, Dados de Teste - z%)
        4. Outras respostas já explicaram como a divisão entre x,y e z pode ser feita.
      3. References
        1. You can refer my “Self Driving Car Datasets for Semantic Segmentation” blog post. If you download the datasets mentioned in the above article (Eg : CityScapes or Mapillary Vistas), you shall notice separate folders for training and test data.

De Binnie

Qual aplicativo posso usar para rastrear um telefone usando seu IMEI? :: Ao escrever medidas, você usa comprimento por largura, ou largura por comprimento?