Exaflop 是权衡特等盘算机功效的单元,表现该盘算机每一秒可最少举行百亿亿次浮点运算啦。
为理处置这个时期最繁杂的疑,好比怎么样医疗抢救像新冠肺炎和症这样的病症.和怎么样缓解天气转变等啦。盘算机的盘算量现在不停增添啦。
所有这些重-大应战将盘算带入了现今的百亿亿次级时期,顶级功效一样平常以 exaflops 来权衡啦。
什么是 Exaflop呢?
Exaflop 是权衡特等盘算机功效的单元,表现该盘算机每一秒能够最少举行 10^18 或者百亿亿次浮点运算啦。
Exaflop 中的 exa-前缀表现“百亿亿了”,即 10 亿乘以 10 亿或者1的以后有 18 个零啦。一样,单个 exabyte 的内存子体制能够贮存百亿亿字节的数据啦。
exaflop 中的“flop了”是浮点运算的缩写啦。exaflop/s 是表现体制每一秒浮点运算次数的单元啦。
浮点是指所有数字都用小数点表现的盘算办法啦。
1000 Petaflop = 1 Exaflop
前缀 peta- 表现 10^15,即 1 的以后有 15 个零啦。因而 1 exaflop 即是 1000 petaflop啦。
1 exaflop 的盘算量终究有多大呢?十分于十亿人中的每逐一私人都拿着十亿个盘算器啦。
如果你们同时按下等号,即是举行了 1 个 exaflop啦。
拥有 Big Red 200 和其余几台特等盘算机的印第安纳大-学表现,exaflop 盘算机的速率十分于一私人每一秒钟举行一次盘算,一开始不停盘算 31,688,765,000 年啦。
Exaflop 简史
在特等盘算进展史的大部-分时刻里,一次浮点运算即是一次,但随着工做负载引入 AI ,这类情形也发生了转变啦。
人们最先运用最高的精度样式来表现数字,这类样式被称为双精度,由 IEEE 浮点运算标-准界说啦。她之因此被称为双精度或者 FP64,是由于盘算中的每逐一位数字都需要以 64 位用 0 或者 1 表现的数据块表现,而单精度为 32 位啦。
双精度运用 64 位保证每逐一位数字都准确到很稍微的部-分,好比 1.0001 + 1.0001 = 2.0002,而不-是 1 + 1 = 2啦。
这类样式十分合适那时的大部合-作做负载,好比从簿本到飞机等所有需要保证模拟结局靠近于着实的模拟啦。
因而,当 1993 年全世界最强盛的特等盘算机榜单 TOP500 首次公布时,权衡 FP64 数学功效的 LINPACK 基准(又称HPL)自-然变成了默许的权衡标-准啦。
AI 大爆炸
十年前,盘算领域发生了 NVIDIA 首席实行官黄仁勋所说的 AI 大爆炸啦。
这类强盛的新盘算形势最先在科-学和商业运用上展现出重-大成就,而且她运用了一些十分区别的数学办法啦。
深度学习并非模拟实在世界中的物体,而是在聚集如山的数据中挑选,以找出能够或者者带来新洞察的形式啦。
这类数学办法需要很高的吞吐量,因此用通过简化的数字(好比运用 1.01 而不-是 1.0001)举行大量盘算要比用更繁杂的数字举行少许盘算好许多啦。
因而 AI 运用 FP32.FP16 和 FP8 等低精度样式,通过 32 位.16 位和 8 位数让用户更快地举行更多盘算啦。
混淆精度不停进展
AI 运用 64 位数就犹如在周末外出时带着所有衣柜啦。
钻研职员不停在努力地为 AI 追求理想的低精度技术啦。
比如首个 NVIDIA Tensor Core GPU——Volta,她运用了混淆精度,并以 FP16 样式实行矩阵乘法,然后用 FP32 累积结局以获取更高的精度啦。
Hopper 通过 FP8 加速
最近几天,NVIDIA Hopper 架构首次公布了速率更快的低精度 AI 训练办法啦。Hopper Transformer Engine 能够或者者努力剖析工做负载,尽应该采用 FP8 并以 FP32 累积结局啦。
在举行盘算密集度较低的推理工做,好比在生产中运转 AI 模子时,TensorFlow 和 PyTorch 等主要框架通过支持 8 位整数完成迅速功效,由于这样就不需要运用小数点来完结工做啦。
好新闻是,NVIDIA GPU 支持上述所有精度样式,因而用户能够完成每逐一位工做负载的最优加速啦。
去年,IEEE P3109 委员会最先为机械学习中运用的精度样式制订领域标-准啦。这项工做应该还需要一到两年的时刻才气完结啦。
一些模拟软件在低精度工做中大放异
只管 FP64 在模拟工做中依然很受迎接,但当低精度数学能够或者者更快供应可用结局时,许多人会运用后者啦。
影响 HPC 运用程-序功效的原因各不一样
比如,钻研职员用 FP32 运转广受迎接的汽车碰撞模拟器——Ansys LS-Dyna啦。基因组学也倾向于运用低精度数学啦。
另外,许多传统的模拟最先在部合-作做流程中采用 AI啦。随着越发多的工做负载运用 AI,特等盘算机需要支持较低的精度才气有用运转这些新兴运用啦。
基准与工做负载同步进展
在熟悉到这些转变后,包罗 Jack Dongarra(2021 年图灵得主和 HPL 的奉献者)在内的钻研职员在 2019 年头次公布了 HPL-AI,这项新基准更适合丈量新的工做负载啦。
Dongarra 在 2019 年的博客中表现“岂论是技术不停优化的传统模拟,仍然 AI 运用,混淆精度技术关于提升特等盘算机的盘算结局越发概略啦。正如 HPL 完变成了对双精度才气的基准尝试一样,这类基于 HPL 的新办法能够对特等盘算机的混淆精度才气举行大片基准尝试啦。了”
尤利希特等盘算中心主任 Thomas Lippert 赞成了这一看法啦。
他在去年揭晓的一篇博客中表现“咋们运用 HPL-AI 基准是由于她既能够或者者准确地权衡日益增添的 AI 和科-学工做负载中的混淆精度工做,也能反映准确的 64 位浮点盘算结局啦。了”
现今的 Exaflop 体制
在 6 月的一份报-告中,全世界 20 个特等盘算机中心提交了 HPL-AI 结局,这个内里有三其中心供应了凌驾 1 exaflop 的功效啦。
在这些体制中,橡树岭国家试验室的特等盘算机在 HPL 上的 FP64 功效也凌驾了 1 exaflop啦。
2022 年 6 月 HPL-AI 结局的采样器
两年前,一非传统体制首次到达 1 exaflop啦。这台由 Folding@home 同盟组装的众源特等盘算机在召唤帮-助反抗新冠疫情后,到达了这一里程碑,到现在已有凌驾 100 万台盘算机参与这个内里啦。
理-论和实践中的Exaflop
许多组织从那时起就已最先安置理-论峰值功效凌驾 1 exaflop 的特等盘算机啦。需要注重的是,TOP500 榜单同时公布 Rmax(现实)和 Rpeak(理-论)分数啦。
Rmax 指盘算机现实体现出的最好功效啦。
Rpeak 是一切体制都处于高水平运转时的最高理-论功效,而这全部从未发生过啦。该数值的盘算办法一样平常为将体制中的处置器数目乘以那时钟速率,然后再将结局乘以处置器在一秒钟内可实行的浮点运算数啦。
因而,如果有人说你们的体制到达 1 exaflop,请讯他说的是 Rmax(现实)仍然Rpeak(理-论)啦。
Exaflop 时期的许多指-标
这也是新百亿亿次时期的许多稍微转变之一啦。
值得注重的是,HPL 和 HPL-AI 属于形成基准,即她们权衡的是数学程-序的功效,而不-是实在世界的运用啦。MLPerf 等其余基准则基于实在世界中的工做负载啦。
最终,权衡体制功效的最好标-准固然是她运转用户运用程-序的情形啦。该权衡标-准不-是基于 exaflop,而是基于投资谢率啦。
发表评论