NVIDIA A2 Tensor Core GPU 具有低功耗、小尺寸和高性能的特點,可爲在邊緣部署 NVIDIA AI 的智能視頻分析 (IVA) 提供入門級推理功能。該 GPU 采用半高 PCIe4.0 卡的設計,并提供 40-60 瓦的低熱設計功耗 (TDP) 配置功能,能爲大規模部署中的不同服務器帶來通用的推理加速能力。
推理性能提升高達 20 倍
部署 AI 推理技術的目的是通過智能、實時的體驗爲消費者打造更便利的生活。與 CPU 服務器相比,搭載 NVIDIA A2 Tensor Core GPU 的邊緣和入門級服務器可提供高達 20 倍的推理性能,可立即将服務器升級到能處理現代 AI 的水平。

系統配置:[CPU:HPE DL380 Gen10 Plus,雙路至強金牌 6330N @2.2GHz,512GB DDR4]自然語言處理:BERT-Large(seq-len:384,SQuAD:v1.1)| TensorRT 8.2,精度: INT8, BS:1 (GPU) | OpenVino 2021.4,精度: INT8, BS:1 (CPU) 文本轉語音:Tacotron2 + Waveglow E2E 通道(輸入長度:128)| PyTorch 1.9,精度: FP16, BS:1 (GPU) | PyTorch 1.9,精度: FP32, BS:1 (CPU) 計算機視覺:EfficientDet-D0(COCO,512x512)| TensorRT 8.2,精度: INT8, BS:8 (GPU) (GPU) | OpenVINO 2021.4,精度: INT8, BS:8 (CPU)
在智能邊緣
實現更高的 IVA 性能
在智慧城市、制造和零售等智能邊緣用例中,搭載 NVIDIA A2 GPU 的服務器最高可将性能提升 1.3 倍。與前幾代 GPU 相比,運行 IVA 工作負載的 NVIDIA A2 GPU 最高可将性價比和能效分别提升 1.6 倍和 10%,從而改善部署效率。
IVA 性能(以 NVIDIA T4 爲标準)
系統配置:[Supermicro SYS-1029GQ-TRT,雙路至強金牌 6240 處理器 @2.6GHz,512GB DDR4,1 個 NVIDIA A2 或 1 個 NVIDIA T4] | 使用 Deepstream 5.1 測量的性能。網絡:ShuffleNet-v2 (224x224)、MobileNet-v2 (224x224)。 | 流水線通過視頻截取和解碼、預處理、批處理、推理和後處理來代表端到端性能。
針對服務器進行優化
針對 5G 邊緣和工業環境這樣空間和散熱要求受限制的入門級服務器,NVIDIA A2 爲其推理工作負載和部署進行了優化。A2 提供了在低功耗範圍内運行的半高外形,從 60 瓦到 40 瓦的 TDP,使其成爲衆多服務器的理想選擇。
更低的功耗和可配置的 TDP

領先的跨雲、數據中心和邊緣的 AI 推理性能
AI 推理繼續推動跨行業的突破性創新,包括消費互聯網、醫療保健和生命科學、金融服務、零售、制造和超級計算。A2 的小巧尺寸和低功耗與 NVIDIA A100 和 A30 Tensor Core GPU 相結合,可提供跨雲、數據中心和邊緣的完整 AI 推理産品組合。A2 和 NVIDIA AI 推理産品組合可确保使用更少的服務器和更少的功率部署 AI 應用,從而以大幅降低的成本獲得更快的洞察力。

已爲企業使用做好準備
NVIDIA AI Enterprise
NVIDIA AI Enterprise 是一套端到端雲原生 AI 和數據分析軟件,經認證可在基于服務器虛拟化平台的虛拟基礎設施(帶有 VMware vSphere)中的 A2 上運行。這允許在混合雲環境中管理和擴展 AI 和推理工作負載。

主流 NVIDIA 認證系統
搭載 NVIDIA A2 的 NVIDIA 認證系統™ 将計算加速功能與高速、安全的 NVIDIA 網絡整合到 NVIDIA 的 OEM 合作夥伴構建和銷售的企業數據中心服務器中。利用此計劃,客戶可以在單個高性能、經濟高效且可擴展的基礎設施上識别、獲取和部署系統,以運行 NVIDIA NGC™ (NVIDIA GPU CLOUD) 目錄中的傳統和多樣化的現代 AI 應用程序。

采用 NVIDIA Ampere 架構
NVIDIA Ampere 架構專爲彈性計算時代而設計,能夠提供爲現代企業應用程序提供動力支持所需的性能和加速。探索性能出衆的彈性數據中心的核心

技術規格
FP32 峰值性能 | 4.5 TF |
TF32 Tensor Core | 9 TF | 18 TF¹ |
BFLOAT16 Tensor Core | 18 TF | 36 TF¹ |
FP16 Tensor Core 峰值性能 | 18 TF | 36 TF¹ |
INT8 Tensor Core 峰值性能 | 36 TOPS | 72 TOPS¹ |
INT4 Tensor Core 峰值性能 | 72 TOPS | 144 TOPS¹ |
RT 核心數量 | 10 個 |
媒體引擎 | 1 個視頻編碼器 2 個視頻解碼器 (含 AV1 解碼) |
GPU 顯存 | 16GB GDDR6 |
GPU 顯存帶寬 | 200GB/s |
互聯技術 | PCIe 4.0 x8 |
外形規格 | 單插槽,半高 PCIe |
最大熱設計功耗 (TDP) | 40–60瓦 (可配置) |
虛拟化 GPU 軟件支持² | NVIDIA 虛拟 PC、NVIDIA 虛拟應用程序、NVIDIA RTX 虛拟化工作站、NVIDIA AI Enterprise 軟件套件和 NVIDIA 虛拟化運算服務器 |
1 采用稀疏技術 2 将在後續 vGPU 版本中支持