Casa > W > What Is Nvidia Jetson Agx Xavier? What Are The Possible Applications Of It?

What is NVIDIA Jetson AGX Xavier? What are the possible applications of it?

For $1650, it gives these features:

  • 512 (Volta architecture) CUDA pipelines for 1.4 Tflops FP32 performance
    • 705 GFLOPS FP64
    • 2.8 TFLOPS FP16
  • 16GB (256-bit) LPDDR4x
    • system shared, for both CPU and GPU and other accelerators
    • 137 GB/s
  • 8 core ARM CPU
  • Vision accelerator units
  • Deep learning accelerator units
  • 64 Tensor cores
    • 11 TFLOPS FP16
    • 22 TOPS of INT8
  • TDP: 30W
  • CUDA compute capability: v7.2
  • CUDA toolkit: v10.0
  • OpenCL: v1.2

Looking at just the FP32 performance: it can do basic image processing at hundreds of images per second throughput because data does not need to be moved to another memory, it is already at the video memory which is also RAM so that bottleneck must be somewhere in “computing” part. Bandwidth part is 137 GB/s anyway. Isto é 20% maior do que os 112 GB/s da placa gráfica RX550 focada na largura de banda da AMD. Quanto maior a largura de banda, maior a taxa de transferência para algoritmos com gargalo de largura de banda.

main-qimg-330c0be3c6b357df4d2c03c06eae901d

NVIDIA Jetson AGX Xavier Benchmarks

Tem 2 motores DLA para descarregar automaticamente a inferência de Redes Neurais Profundas (DNNs). O JetPack SDK 4.1.1 da NVIDIA para Jetson AGX Xavier inclui o cuDNN 7.3, e o TensorRT 5.0, fornecendo a pilha de software AI completa. Isto é tão útil para os desenvolvedores converterem o café em software para:

>ul><robotics>li> analytics inteligente de vídeo>li> instrumentos médicosli> dispositivos de borda IoT embutidos>p> desempenho de codificação de vídeo:>>ul>(4x) 4Kp60>li>(8x) 4Kp30>li>(16x) 1080p60>li>(32x) 1080p30li>li>Realização máxima até (2x) 1000MP/s - H.265 Main

Video decoding:

  • (2x) 8Kp30
  • (6x) 4Kp60
  • (12x) 4Kp30
  • (26x) 1080p60
  • (52x) 1080p30
  • Maximum throughput up to (2x) 1500MP/s – H.265 Main

Camera i/o:

  • (16x) MIPI CSI-2 lanes
  • (8x) SLVS-EC lanes; up to 6 active sensor streams and 36 virtual channels

so that you can make a spaceship and add cameras all over its surface and have a single Jetson AGX Xavier do the processing.

Inference throughput looks good:

main-qimg-3c5e6bb0117b53002a00c4a588686eb3

nearly 90 images per second and this is no simple image processing like just Gaussian filters nor smoothing. It is doing predictions. As redes neurais treinadas por GPUs Tesla high-end são colocadas em funcionamento por esta GPU de forma eficiente, com 90 previsões/recognições por segundo.

>

Também possui unidades aceleradoras de visões programáveis!

main-qimg-8cba85c6ede7c96edf84a7e335113fb5

1,7 trilhões de operações por segundo. Eu não sei que operações. Mas parece rápido! Dizem que está optimizado para algoritmos de visão. Provavelmente para o pré-processo ou pós-processo de inferência? Não sei.

Existem demasiados triliões de operações por segundo em todo o lado. Veja isto:

main-qimg-0d8d3e773f10ce90c1fc5cd13e97d1ab

A parte de menor desempenho é o grupo de pipelines FP64 que é 705 GFLOPS e ainda é muito mais rápido que um GTX1080ti. Para 30W, é muito mais eficiente que as GPUs da série Pascal fazer cálculos de precisão de 64-bit para algumas simulações do mundo real.

blog da Nvidia dá um bom exemplo de um pipeline de trabalho real-worl:

main-qimg-8009f36317457e526256bd99b6c6f351

e 80% dos estágios podem ser "acelerados" sem usar CUDA directamente. Eu não sei se esses aceleradores estão canibalizando em dutos CUDA mas se não estiverem, então significa que o valor de TERAFLOPS/TERAOPS utilizável será maior do que os números TFLOPS/TOPS anunciados. Se isto não é legal para você, veja este desempenho de I/O:

  • 40 GB/s

p>esta coisa é um mainframe comparado ao meu pc desktop com FX8150. Não consigo nem pensar em executar 15 cópias das aplicações VisionWorks ao mesmo tempo no meu computador desktop:

mas este AGX da Jetson faz.

De Kavanagh

O Nvidia GTX 1660 Ti CUDA é compatível e está pronto para o treinamento de aprendizagem de máquinas? :: Como os modelos de redes neurais são geralmente implantados?