在经典计算技术的时代,推动进步的是英特尔和由它发扬光大的摩尔定律。2012 年之后,当计算技术进入了名为“深度学习”的全新时代,创办于 1993 年的英伟达却成为了强势黑马。
“英伟达通过深度学习平台所取得的创新,许多都已成为世界标准。我们以远超摩尔定律的速度推动计算性能飞速增长,促进健康、交通、科学探索等无数领域的突破。”在一场演讲中,创办人兼 CEO 黄仁勋 (Jensen Huang) 自豪地对数千名观众表示。
去年,站在同一个舞台,黄仁勋说他一直想要找到摩尔定律之后的路。而以神经网络为基础的人工智能,其爆发式发展到了 2018 年已经过去了五年。而在这五年里,GPGPU(通用图形处理器)成为了人工智能研发的利器,在计算密集型的深度学习任务上独步天下。英伟达指出,和五年前的 Ferml GPU 架构相比,最新一代的 Volta GPU 架构的浮点计算能力提升了 25 倍。
“摩尔定律 10 年 5 倍,”黄仁勋说,“这就是我们超越摩尔定律的证明。”
英伟达开发者社群的扩张迅速,印证了黄仁勋大胆的声明。该公司统计,GPU 开发者在今年将达到 82 万人,比五年前增长了 5 倍;在英伟达 GPU 上开发必备的并行计算架构工具包 CUDA,下载数量超过了 800 万,其中约一半是在过去一年里下载的。不仅如此,该公司提供的 GPU 加速技术还被世界上大量超级计算机协同采用,其 Volta GPU 为美国的 Summit 和 Sierra 两大超算增加了大约 100 PFLOPS(千万亿次浮点计算能力)。
在美国时间 3 月 27 日的英伟达 GPU 技术大会 (GTC 2018) 上,该公司带来了多个在深度学习、自动驾驶和机器人领域足以掀起浪潮的新产品。其中最为重头的,则是一年一度的新核弹级显卡——这次,并不是 GTX 11 系列,也不是传闻甚嚣尘上的“矿卡”,而是一台被黄仁勋称为“桌面超级计算机”的工作站:NVIDIA DGX-2。
DGX-2 是一台专门用于人工智能训练和/或推理任务的桌面计算机:
这是它的内部结构:
你可以看到,在图中 1 和 2 的位置看起来是很多块芯片。其实他们是英伟达的 Tesla V100 Volta 架构 GPGPU,单枚算力达到双精度 7.8 TFLOPS(万亿次浮点计算)、单精度 15.7TFLOPS、深度学习 125TFLOPS。
而 DGX-2 单机箱安装了 16 枚 V100,总体性能达到了惊人的 2PFLOPS——业界第一台超过千万亿次浮点计算能力的单机箱计算机——称它为超算或许并不浮夸。
但 DGX-2 的算力并非靠堆叠出来,如果它们之间不能实现高带宽的数据互通则无意义。
时间倒回两年前,英伟达有意在深度学习的设备市场上对英特尔发起直接挑战,推出了 Pascal 架构的 P100 GPGPU。在当时,主流服务器 PCIe 总线接口的带宽和时延,已经无法满足英伟达的需求。于是它们开发出了一个新的设备内互联标准,叫做 NVLink,使得带宽达到了 300 GB/s。一个 8 枚 GPGPU 的系统里,NVLink 大概长这样:
然而 NVLink 的标准拓扑结构在理论上最多支持 8 枚 显卡,仍不足以满足英伟达对于新系统内置更多显卡的需要。于是在 NVLink 的基础上,英伟达开发出了一个名专门在显卡之间管理 NVLink 任务的协处理器,命名为 NVSwitch。这个元件在 DGX-2 上,让 16 枚 GPGPU 中两两之间实现 NVLink 互通,总带宽超过了 14.4 TB。
这一数字创造了桌面级电脑内总线接口带宽的新高,但实现它的目的并非跑分,而在于 DGX-2 可以 1)更快速地训练一个高复杂度的神经网络,或 2)同时训练大量不同结构的神经网络。
英伟达 CEO 黄仁勋,背景是 NVSwitch 示意图
N 卡之所以被称为核弹有一种另类的解释方式:它的多核心架构在这个依核心数量论高下的时代显得超凡脱俗——动辄几百、上千个 CUDA 核心,令人不明觉厉。而在 DGX-2 上,16 枚 V100 的 CUDA 核数达到了疯狂的 81,920 核心。这一事实,结合 NVSwitch 技术、512GB 现存、30TB NVMe 固态硬盘、两枚至强 Platimum CPU 和高达 1.5TB 的主机内存——
黄仁勋用 GPU 深度学习里程碑式的杰作 AlexNet 来举例。研究者 Alex Krizhevsk 用了 6 天,在英伟达 GPU 上训练 AlexNet,这个研究首次利用梯度下降法和卷积神经网络进行计算机图像识别,显著优于此前的手调参数法,拿下了 ImageNet 图像识别竞赛冠军。AlexNet 让 Alex 世界闻名,这 6 天可以说值了。
然而,“同样的 8 层卷积神经网络,我用 DGX-2 跑了一下,只用 18 分钟就达到了同样的结果,”黄仁勋说,“五年,500倍的进步。”
这说明了很多东西。其中有一条:在这五年里,英伟达的技术进步节奏已经无法用摩尔定律来描述了。
DGX-2 主要的应用场景是显著加速高端科研和商业人工智能产品的研发和面市。它显然不是一台消费级的产品——高达 150万美元的售价……
开玩笑的,最终售价是 40 万美元……
然而即便是 40 万美元的未含税价格,还是让一些手头紧张的工业用户望而却步。别担心,DGX-2 只是今天英伟达在人工智能领域的几个新产品之一,其它还有:
1)DGX 机箱里面的 V100 GPGPU 升级版,内存升级到了 32 GB,哪些只需要单枚或者少量显卡的研究者,生产力得到了解放,可以训练更复杂的神经网络了:
2)面向包括电影视觉特效、建筑设计等创意工业,推出的 Quadro GV100 显卡产品。Quadro GV100 是一块工作站显卡,里面是两枚 V100 GPU。这块显卡支持英伟达最新的顶级光线追踪 (Ray Tracing) 技术 NVIDIA RTX:
3)NVIDIA RTX:如前述,英伟达开发的一种极其复杂,且计算密集型的光效技术。简单来说,像在真实世界里那样,掺杂的多光源、复杂的环境,导致光线照到不同材质的物品上所呈现出的散逸,以及物品对光源、对其它物品,在曲面、球面甚至不规则表面所产生的反射效果,或者光源照射到玻璃杯产生的不规则投影——这些光效和阴影在过去极难通过计算机完美呈现,但英伟达今天向着亦真亦幻往前走了一步。
4)TensorRT 4,新一代的 TensorFlow 推理工具;GPU 对美国科技公司在去年推出的深度学习兼容框架标准 ONNX 兼容;终于可以在 Kubernetes (K8S) 上管理英伟达 GPU 了,支持 AWS、Google Cloud Platform、阿里云等。
5)新的自动驾驶车载计算架构 ORIN。
6)驾驶虚拟模拟技术 Drive SIM & Constellation。这是一个很有趣的技术,可以让英伟达以及其它开放平台的科技公司在 GPU 上模拟自动驾驶汽车训练,显著降低开放道路真车训练的危险性。这个技术还有一个独特的用例:接入了该平台的汽车,在未来可以远程操控,黄仁勋演示了一个司机在会场,用 VR 头显和手柄远程驾驶一辆汽车躲避障碍并成功泊车。硅星人之后还会对这个技术进行探秘。
7)机器人开发开放平台 ISSAC,利用了英伟达在自动驾驶上积累的一些技术,比如高精度地图绘制等。
8)Project CLARA,一个云端医疗诊断的项目。这个项目非常有趣,简单来说,英伟达医院提供基于云端的医疗图像识别超算,一个场景是上传心脏 B 超的实时视频流,云端的显卡运行训练好的神经网络,可以将画面变成三维的体积图像,然后实时将器官高亮出来,从而生成一个更容易观看的3D画面。现场演示的画面还给出了器官功能的实时数据,包括每次搏动的泵出血量等,令人印象深刻。
硅谷是一个 T 恤帽衫和拖鞋统治的地方,而英伟达的创办人黄仁勋在这里是个相当明显的另类:一袭皮夹克的他,工程师出身又负责过市场,演讲起来丝毫没有许多其它科技大佬身上特有的“虚伪”气息。
在 GTC 2018 上,可能觉得自己气场还不够强,他直接站在了椅子上接受记者的提问;他明显接受过公关训练,但在回答提问时的诚恳仍然在科技大佬中显得独特,甚至直接问旁边的公关“你是不是想打断我来着?但我已经说完了。人称“核弹教父”的黄仁勋,名副其实。
他吐槽常见的 x86 架构服务器栈,一个机柜动辄数十台服务器,十几台机柜总成本成百上千万美元。而取得同样的深度学习训练效果,只需几台或者十几台 V100,或者一台 DGX-2,价格至多六位数。这也是为什么他在演讲时,不断对台下的观众重复:多买更划算!(The more you buy, the more you save.) 几乎将一场 GPU 技术前沿的演讲变成了电视购物。
“Watch now ‘cause here I come.” 是黄仁勋上台前的暖场歌曲里的一句歌词。
至少在今天,将摩尔定律踩在脚下,黄仁勋和他的英伟达看起来势不可挡。
我国科学家发现新冠治疗新药 美学者:抑制病毒能力优于瑞德西韦