5月14日晚,在GTC 2020线上发布会上,NVIDIA干脆利落地在几分钟内就放出了老黄的演讲视频,正式推出了安培(Ampere)架构GPU,7nm工艺,540亿晶体管,20倍AI算力,5大技术创新,总之新核弹来了。
目前NVIDIA还没有正式公开安培GPU的详细架构细节,但是跟上次的图灵GPU一样,黄仁勋表示这是NVIDIA八代GPU史上最大的一次性能飞跃。
首款基于安培GPU的产品是Tesla A100加速卡,根据NVIDIA所说,它带来了5大技术创新:
1、 全新安培GPU架构,540亿晶体管,世界上最大的7nm处理器。
2、 第三代Tensor Core AI核心,支持TF32运算,无需任何代码改变就可以让AI性能提升20倍,还支持FP64双精度运算,与HPC应用相比带来了2.5倍的性能。
3、 Multi-instance GPU多实例GPU:简称MIG,这是一项创新技术,可以将一个GPU划分为七个独立的GPU,针对不同的目标提供不同的运算,最大化提高计算效率。
4、 NVLink 3.0:新一代GPU总线的性能翻倍,可以在服务器应用中提供更有效的性能扩展。
5、 结构稀疏性:这项新技术利用了AI运算中固有的稀疏性实现了性能翻倍。
这5大技术创新使得Tesla A100加速卡成为苛刻工作负载的理想选择,不仅可以用于AI推理、AI训练,还可以用于科学仿真、AI对话、基因组、高性能数据分析、地震建模及财务计算等等。
PS:今晚的视频中,老黄的头发已经白了一半,作为目前全球最强GPU的掌门人,7nm安培GPU显然花费了NV公司不少心血,目前揭开的还只是计算方面的,RTX游戏卡还没公布多少信息。
其实,这次的GTC 2020大会演讲中,NVIDIA CEO黄仁勋主要谈的就是HPC计算、AI人工智能等方面的内容,目前推出的A100大核心也是针对这个领域的,与之相比的是3年前发布的Volta架构V100核心,很多东西跟RTX 3080 Ti游戏卡会不一样,大家不用纠结。
官方并没有公布安培GPU的技术细节,Anandtech网站倒是给出了一份详细的介绍:
首先来说大方面的,V100核心使用的是12nm Volta架构,211亿晶体管,核心面积815mm2,而A100核心是台积电7N工艺,应该也是定制版的7nm工艺,826mm2,542亿晶体管,同样是核弹级别的。
V100核心拥有80组SM单元,5120个CUDA核心,SXM2/3架构,而A100核心是108组SM单元,SXM4架构,6912个CUDA核心。
事实上,这依然不是GA100大核心的完整体,这差不多也是NVIDIA每次发布新卡的保留节目了,首发产品要割一刀。
从官方给出的结构来看,GA100核心完整版是128组SMX单元,也就是8192个CUDA核心,比现在差不多要多出15-20%的规模,后续的潜力很大。
至于为什么首发的Tesla A100核心这么保守,可能是NVIDIA希望后续再出更高端的产品,也有可能跟现在的产品功耗已经达到400W有关,为此频率都降低到了1400MHz了,比GV100核心的1.5-1.6GHz还要低。
完整版的GA100大核心不知道什么时候解锁,后续优化了功耗之后,GA100大核心的性能恐怕要再上一层楼了,big Navi大核心不知道能不能追上了。
AI方面是变化最大的,相比Volta架构的640个Tensor Core,A100核心的Tensor Core减少到了432个,但是性能大幅增强,支持全新的TF32运算,浮点性能156TFLOPS,同时INT8浮点性能624TOPS,FP16性能312TFLOPS。
常规的FP32、FP64性能提升倒是不算明显,从V100核心的15.7.、7.8TFLOPS提升到了19.5、9.7TFLOPS。
频率方面,A100核心实际上还倒退了,从V100的1530MHz降低到了1.41GHz左右,毕竟核心规模实在太大,功耗已经飙到了400W,比V100的300/350W功耗高出不少。
显存方面,A100配备的也是HBM2显存,频率从1.75Gbps提升到了2.4Gbps,位宽5120bit,相比V100的4096bit增加了1024bit,容量也从16/32GB增加到了40GB。
HBM2的配置略显奇怪,增加1024bit理论上应该多1组HBM2,但从核心图上看又是6组HBM2显存,或许是2组512bit的?
但可以肯定的是,每颗A100 GPU搭配的六颗HBM2,其实只启用了五颗,另外一颗随同核心屏蔽的部分,一起关掉了。
另外,HBM2显存位宽、频率双双提升的后果就是,A100核心存带宽达到了1.6TB/s,远高于V100的900GB/s,比AMD的Radeon VII显卡的1TB/s带宽还要高。
最后,NVLink技术也升级到了3.0版,带宽从300GB/s提升到了600GB/s,适合服务器领域多卡互联,不过未来应该还会有PCIe版的。
宣布新架构的同时,NVIDIA也发布了相应的第三代工作站“DGX A100”,或者按照NVIDIA的说法叫做个人超级计算机,可以支持在桌面端进行AI研究,并扩展到云端。
DGX A100内部配备了八颗安培架构的Tesla A100 GPU,每一颗整合40GB HBM2高带宽显存,总容量达320GB。
每颗GPU均支持多达12路的NVLink互连总线,GPU-GPU带宽高达600GB/s,可保证八颗GPU彼此完全互连,同时还有6颗NVIDIA NVSwitch芯片,双向带宽高达4.8TB/s。
从示意图上可以看出,每颗GPU周围其实有六颗HBM2显存芯片,很显然有一颗没有启用,剩下的五颗单颗容量8GB从而组成40GB。这也再次证明,A100核心现在应该也是屏蔽了六分之一的规模。
网络方面配备了刚完成收购的Mellanox的解决方案,包括八颗单端口ConnectX-6 VPI用于聚类,峰值性能200GB/s,以及一颗双端口ConnectX-6 VPI用于数据与存储网络。
有趣的是,搭配的CPU处理器这次抛弃了Intel至强,改而使用两颗AMD二代霄龙(Rome),且是顶级的64核心型号,同时搭配1TB DDR4内存、15TB PCIe 4.0 NVMe SSD固态硬盘。
黄仁勋称这是“世界上最大的显卡”,不算外壳单单是其中的计算板加散热器就有45斤的重量,集成超过3万个不同组件,钻孔数量多达100万个,连接电路长达1公里。
NVIDIA宣称,DGX A100系统单节点的峰值性能为:INT8 10 PetaOPS(每秒1亿亿次整数运算)、FP16 5 PFlops(每秒5千万亿次半精度浮点运算)、TP32 2.5 PFlops(每秒2.5千万亿次运算)、FP64 156 TFlops(每秒156万亿次双精度浮点运算)。
相比于高端CPU服务器,它的AI计算性能要高出150倍,内存带宽高出40倍,IO带宽也高出40倍。
NVIDIA DGX A100个人超算现已上市,售价19.9万美元,约合人民币141万元。
该方案的云服务客户有阿里云、亚马逊AWS、百度云、Google Cloud、微软Azure、甲骨文、腾讯云,系统级客户有AtoS、Cray、戴尔、富士通、技嘉、HPE、浪潮、联想、广达、SuperMicro。
以上内容来自硬件世界,作者上方文Q,如有侵权请联系删除!
,