Casa > C > Como Implementar O Reconhecimento Da Atividade Humana Em Aprendizagem Profunda E Me Apontar Para Qualquer Conjunto De Dados Disponíveis Publicamente

Como implementar o reconhecimento da atividade humana em aprendizagem profunda e me apontar para qualquer conjunto de dados disponíveis publicamente

Briefly, eu classificaria quatro abordagens chave de DL para a compreensão da atividade:

  1. RNNN [0], que freqüentemente utilizam uma rede LSTM/GRU definida em cima de recursos de nível de imagem computados a partir de uma CNN, tal como uma treinada para a classificação ImageNet. Geralmente, é demasiado caro para retropropagação através da CNN image-CNN, ou não há dados de vídeo de treino suficientes, por isso as ponderações da CNN são mantidas congeladas.
    >br>Datasets: O RNN pode fornecer uma etiqueta no final para classificar toda a sequência, por exemplo, identificar o tipo de desporto como no conjunto de dados UCF-101 [1] ou acções mais diversas como no conjunto de dados Cinética [2], ou pode fornecer etiquetas por quadro para segmentar o vídeo temporalmente como em passos individuais de uma actividade de Cozinha de acordo com o conjunto de dados EPIC-Kitchen[3]. Você pode encontrar muitos outros conjuntos de dados relacionados citados nestes trabalhos [1,2,3].li>convoluções temporais [4]: Estes fornecem uma alternativa apenas convolucional aos RNNs, e tem sido demonstrado que treinam muito mais rápido que os RNNs com uma precisão potencialmente superior, especialmente quando modelando dependências de longo alcance.
    >br>prática, eles operam de forma bastante similar às abordagens RNNs, tomando características de nível de imagem computadas a partir de CNNs por quadro.
  2. 3D CNNs [5]: Estes encadeam múltiplos quadros em um "volume" 3D e treinam uma CNN 3D neles; muito mais caros em termos de requisitos de memória da GPU.
  3. CNNs 3D "inflados" [6]: Estas usam as CNNs de imagem como espinha dorsal (para que você possa usar pesos pré-treinados em conjuntos de dados de imagem), mas depois concatenam recursos de múltiplos quadros em um "volume". Isto reduz significativamente a quantidade de requisitos de memória em relação a 3, mas permite a retropropulsão até às "CNNs de imagem".
    >br> Também, estes fornecem uma forma mais directa de usar "características de movimento" tais como fluxo óptico (o que sempre ajuda), em vez de os alimentar como um descritor global de características nas abordagens acima referidas.
    >br>I3D modelos são supostamente o estado da arte pelo menos para tarefas de classificação de uma única ação.<

code para a maioria destas abordagens está disponível online.

[0] https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Singh_A_Multi-Stream_Bi-Directional_CVPR_2016_paper.pdf

[1] Center for Research in Computer Vision at the University of Central Florida

[2] DeepMind Research - Kinetics | DeepMind

[3] EPIC-KITCHENS 2018 Dataset

[4] https://arxiv.org/pdf/1611.05267.pdf

[5] https://www.cv-foundation.org/openaccess/content_iccv_2015/papers/Tran_Learning_Spatiotemporal_Features_ICCV_2015_paper.pdf

[6] https://arxiv.org/pdf/1705.07750.pdf

De Milka Ewer

A jogar: Qual é o melhor jogo para começar se você é um apostador iniciante? :: A pornografia RV é realista?