O que é um conjunto de dados de treinamento & conjunto de dados de teste na aprendizagem de máquinas? Quais são as regras para selecioná-los?
- I gosto de responder a esta pergunta no contexto dos Auto-Carros de Condução (SDCs)
- Teoria :
- Um algoritmo de aprendizagem de máquina é um modelo matemático que aprende a encontrar padrões na entrada que lhe é dada. Este input é referido como dados de treinamento.
- li>A partir do momento que um algoritmo de aprendizagem de máquina aprende os padrões subjacentes aos dados de treinamento, ele precisa ser testado em dados novos (ou dados de teste) que nunca viu antes, mas que ainda pertence à mesma distribuição que os dados de treinamento.
- Se o seu modelo tem um bom desempenho nos dados de teste, então é considerado como um modelo ML que generaliza o seu conjunto de dados de interesse.
- Exemplo : Os SDCs precisam de três habilidades para dirigir em estradas - Percepção, Planejamento e Execução. Vamos considerar a percepção (usando imagens de câmera 2D) e o processo de construção do modelo em torno dela.
- se um modelo de percepção SDC (digamos segmentação semântica) é treinado nas estradas e ruas de São Francisco, então essas imagens são consideradas dados de treinamento. Se este mesmo carro com o mesmo modelo for então testado em Londres, então as imagens obtidas de Londres são consideradas o conjunto de dados de teste.
- >li> Você deve notar tais como divisão no conjunto de dados Cityscapes onde o trem e as pastas de teste têm imagens de diferentes cidades alemãs / suíças.
- Outra maneira de ver isto é se você tem um monte de 10000 imagens brutas que você anotou (novamente para segmentação semântica) então você pode dividir este conjunto de dados em três partes aqui x + y + z = 100% (Dados de Treinamento - x% , Dados de Validação - y%, Dados de Teste - z%)
- Outras respostas já explicaram como a divisão entre x,y e z pode ser feita.
- References
- You can refer my “Self Driving Car Datasets for Semantic Segmentation” blog post. If you download the datasets mentioned in the above article (Eg : CityScapes or Mapillary Vistas), you shall notice separate folders for training and test data.
- Teoria :
Artigos semelhantes
- Um carregador de 19 V de 3,4 amp pode ser usado em vez de um carregador de 19 V de 2,1 amp para carregar o meu portátil Acer de 15,6 polegadas?
- O Nvidia GTX 1660 Ti CUDA é compatível e está pronto para o treinamento de aprendizagem de máquinas?
- Quais são alguns bons canais no YouTube para aprender Aprendizagem de máquinas e ciência de dados?
- O que é bom para o futuro, aprendizagem de máquinas, computação em nuvem, IA, ou ciência de dados?
- Quais são as melhores perguntas de entrevista para avaliar um pesquisador de aprendizagem de máquinas?