英伟达首席科学家Bill Dally解读“黄氏定律”：替代摩尔定律，定义AI时代？-轻识

新智元报道

来源：NVIDIA

编辑：Q，LQ

【新智元导读】英伟达将于12月15日-19日召开GTC中国线上大会，今日的主题演讲由英伟达首席科学家BillDally分享关于AI、计算机图形学、高性能计算、医疗、边缘计算、机器人等领域最前沿的创新以及AI推理、GPU集群加速等最新的研究成果。

没错，英伟达GTC大会又来了，不过这次没有老黄，背景也不是他家的厨房。

本次GTC20中国线上大会由首席科学家BillDally首先发表主题演讲，回顾了NVIDIA这一年的成就和产品。

Bill Dally 先后获得弗吉尼亚理工大学电气工程学士学位、斯坦福大学电气工程硕士学位和加州理工大学计算机科学博士学位。他在斯坦福大学任教12年后，于2009年加入 NVIDIA 担任首席科学家。

同时他还是美国国家工程院院士，美国艺术与科学学院院士，IEEE 和 ACM 院士，获得了2004年美国 IEEE计算机协会 Seymour Cray 计算机工程奖和2000年美国计算机协会 Maurice Wilkes 奖。

以下是他的主题演讲精选：

关于Ampere架构、A100和黄氏法则的一切

所有一切的基础都是硬件，但硬件本身是不可以解决难题的，需要借助软件来集成强大的计算应对复杂的问题。

自2006年以来，研发人员一直在使用CUDA来充分利用GPU的强大功能，为了方便人们在CUDA上构建应用程序，英伟达还提供了一整套的开发库。例如，如果需要用到线性函数，可以使用cuBLAS和cuSPARSE等库。

NVIDIA A100，不仅是世界最大的7nm芯片，具有540亿个晶体管，相比上一代有了很多的创新。在第三代Tensor Cores中，增加了对于新数据类型TF32的支持，使用TF32进行训练，可以获得156 teraflops的性能。

最让Dally兴奋的是，Ampere破解了如何利用神经网络的稀疏性来获得更好的性能。如果需要缩减它的计算能力，MIG（多实例GPU）还可以将一个A100分解为7个独立的GPU，以便每个GPU都能运行各自的任务。

如果需要扩展Ampere来解决更大规模的问题，第三代的NVLink和NVSwitch是一个很好的选择，相较于上一代产品有两倍带宽的提升，GPU数据传输的带宽可以达到600GB/s。

事实证明，大多数神经网络都是可以修剪的。Dally在2015年的NeurIPS大会上发表了一篇论文，证明了可以对神经网络进行修剪，切断神经元之间70%—90%的连接，这就意味着将这些神经元的权重设置为0，并不会影响精度。

这种压缩的效果是立竿见影的，既然权重设置为0，就无需存储，Ampere通过结构化稀疏性（允许4个权重中的两个为0）来优化了这个问题。对于矩阵乘法，一旦将权重稀疏为2/4模式，就可以实现双倍的性能。

与此同时，Ampere技术的真正优势在于，它不仅在深度学习方面表现出色，在高性能计算方面也有不俗的表现。

在11月举行的超算TOP500榜单中，采用NVIDIA技术的超算在前10名中占了8位，Selene超算在TOP500和Green500中都排名第五。

下面这张图表展示了从2012年的Kepler，一直到今年5月份的Ampere A100，单芯片推理性能提高了317倍。

这就是「黄氏法则」——推理性能每年翻一倍。「摩尔定律」之后，就是它来提升计算性能。此表上只有3代制程技术，从Kepler架构28nm，到16nm，再到最近Ampere是7nm。这主要得益于架构的改进，而Tensor core的改进，更优化的电路设计与架构，制程技术等发挥的作用不大。

性能方面，Ampere的速度要快2.5倍。相比Google自家的TPU v3和华为，尽管领域不同，但都被Ampere打败。

在数据中心的推理测试中，差距还是拉开了。

与之前的AI推理方案Turing T4相比，在所有基准测试中，A100的速度都提高了6到8倍，这里出现的竞争对手只有Intel和Xilinx，Ampere直接碾压了它们。

另一张图展示的是边缘推理基准测试，适用于边缘服务器和嵌入式设备。此次A100，T4，以及使用Tegra芯片的Jetson AGX Xavier的性能数字，如图所示，英伟达再次横扫了。

从RTXDI到光线追踪，英伟达改变的不只是游戏

NVIDIA的直接照明技术，也即「RTXDI」。

传统图形在直接照明下的显示，灯光在相邻表面上投射光线不会投射出阴影，但通过RTXDI技术，每个光源都会将其光线投射到相邻表面上。

投射阴影逼真的奥秘就在光线和物体表面之间，可以使用这种技术支持多达数百万个光线选择一种名为「容器重要性采样」的技术，称之为ReSTIR，这项技术在SIGGRAPH 2020中发布，并且现已在NVIDIA图形产品中使用，它可以产生直接照明的效果。

还有间接照明。

当光线反射到表面然后又反射回你的眼睛或相机，RTXDI会使得光线效果非常逼真。但是光线会多次甚至无限次地反射，为此，NVIDIA给出的解决方案是RTXGI。

上图的下半部分几乎都是黑暗的，因为如果没有间接照明，你就看不到太多物体。这是以一个很好的多速率渲染的例子，因为间接光线不会以极快的速度变化。可以看到图片的上半部分，间接照明效果非常逼真，在这种情况下几乎所有的照明都是间接照明，因为只有一点点光线是从窗子照射进来。

另一项能够让我们以实时速率渲染更多内容的技术是NVIDIA DLSS或者深度学习超级采样（Deep Learning Super Sampling）。现在是DLSS 2.0版本，可以提供比1.0更高的性能。

整体流程如下图所示，首先以某个分辨率开始处理图像，将此图像输入到神经网络中，把它升级到4K。

然后采用经过升级的图像，并将它与在更高分辨率下实际渲染的真实数据（16K）进行比较，其中的误差会进入其中一个DGX SuperPODs 训练神经网络的loss函数，经过对数据集的特定迭代，可以训练网络权重来以非常准确的方式生成升级后的图像。

NVIDIA一直在努力解决不稳定的问题。并通过这项技术获得了非常稳定的视频。

另一件很难做好的事情就是让网络泛化。NVIDIA通过训练神经网络让它在游戏的每个级别以及各个游戏中发挥作用。

下图左侧是原生4K，右侧是已经升级至4K的1440图像，右上角显示帧率。

NVIDIA还在努力提高渲染性能以获得全动态画质，此外还希望与电影一样进行基于物理性质的路径追踪。

从相机中透射光线，能够通过一定数量的镜面反射和折射进行反射，如通过下图左上角的啤酒杯，当遇到这样的镜面反射时，将执行一些漫反射，在每次反射时，使用使用上文中提到的直接照明中的ReSTIR算法进行多光线采样，这将会提供极佳的直接照明。

另一项非常棒的技术是降噪。

虽然不能像电影那样，每个像素都发射1万条光线，对于图形，每个像素1-10条光线就够了，但这样形成的图形会出现大量噪点，接下来通过降噪和深度学习的降噪就可以清理图像，提升画质。

之后再经过两次反射，将停止其中一个RTXGI光探测器以获得非常精确的间接照明。

除了RTXGI和RTXDI，还可以使用镜面反射和漫反射的方式实现这些反射。这将用到NVIDIA全新GPU中的RT Core，它大大加速了光线追踪，首次在实时图形中进行光线追踪成为可能。

图像的未来看AI，未来的人类生活也看AI

Dally还回顾了AI发展的历程，他说到：

「当前的AI革命其实就是由GPU创造的，以深度神经网络为例，有3个关键组成部分在发挥作用，算法，即深度神经网络本身，训练数据，以及运行所需的硬件」。

GPU成就了深度学习，也掌控着深度学习发展的进度。

如下表左侧显示，从AlexNet发展到ResNet短短几年时间里，对计算机性能的需求提高到了一个数量级以上。如右侧所示，自然语言处理网络的发展更快，从BERT到GPT-3速度更快，训练时间对Peta级别的算力要求也越来越高。

人们可以构建的网络在很大程度上受到训练网络所能使用的GPU性能的限制。人们想要建立更大的模型，在更大的数据集上进行训练，但是很受限于在已有的GPU资源上，在可接受的时间内可以训练到的程度。

接下来，Dally还介绍了深度学习推理的工作流：

此外，Dally还带来了英伟达在一些行业领域内的应用。

NVIDIA在医疗领域的人工智能应用是 NVIDIA Clara，这是一套旨在通过GPU加速医疗健康发展的应用。

通过下图可以了解GPU如何从各个不同的时间维度加快医疗健康发展。

其中，Dally 还提到了DeepMind最新发布的「AlphaFold」，此方法将获取蛋白质的氨基酸序列，例如病毒的基因序列，并能够借助人工智能发现结构，且只需几分钟时间，速度大大提升了。

借助深度学习，NVIDIA构建了能够感知环境并与环境交互的机器人。正在开发的一项技术名为「黎曼运动策略」，本质上能够从数学角度简化这一复杂运动问题的表达，便于解决实际问题。在操控方面，除了对机器人抓取特定目标的训练外，还有对陌生目标的抓取训练。

在辅助驾驶方面，英伟达借助雷达和激光雷达等设备的辅助，使得驾驶员在各种情况下都可以对四周的情况了如指掌。

也可以检测各种障碍物，了解与物体之间的距离和碰撞时间，采用特定的神经网络来搜索自由行驶空间。

最后，Dally 还介绍了Legate，无需修改代码即可让Python程序无感运行在Jetson Nano上面，所需要做的就是将原本的import numpy as np 改为 import legate.numpy as np

在Dally的主题演讲之后，五名NVIDIA高管将介绍公司在AI、数据科学和医疗领域的多项突破性技术如何在中国具体应用。该圆桌讨论将于北京时间12月15日上午11点10分开始。

以下是直播连接，感兴趣的小伙伴可以观看全程完整视频：

https://www.nvidia.cn/gtc/keynote/?ncid=so-wech-54310&sfdcid=CORPENTSO