请选择 进入手机版 | 继续访问电脑版
 
国产GPGPU如何赶超国外?这3条路最有希望
VIEW CONTENTS
SOSSEO博客 网站首页 行业新闻 查看内容

国产GPGPU如何赶超国外?这3条路最有希望

2021-11-25 17:25| 发布者: 无人岛屿颈| 查看: 86| 评论: 0
摘要: 演讲高朋 | 梁晓峣,上海交通大学盘算机科学与工程系教授、副系主任整理 | Carol人工智能颠末多年的技能积累,正在以智能算力芯片为载体而全面崛起。在这个赛道上,算法为天、算力为地,要想有所作为,必须要看在芯
国产GPGPU如何赶超国外?这3条路最有希望
演讲高朋 | 梁晓峣,上海交通大学盘算机科学与工程系教授、副系主任
整理 | Carol
人工智能颠末多年的技能积累,正在以智能算力芯片为载体而全面崛起。在这个赛道上,算法为天、算力为地,要想有所作为,必须要看在芯片焦点阵地上的突破。
过了这几年的发展,我国在智能算力芯片上已经形成了开端的格局,并推出了多款AI芯片产物。对于这些产物,我们可以从通用专用两个角度去审阅:
  • 把芯片计划得更加专用一点,由于专用芯片在功耗和性能上有较大上风;

  • 也可以选择计划得通用一点,以顺应服务对象和场景的快速厘革。

那么,智能算力芯片的架构的计划究竟应该是通用照旧专用呢?这是一个很关键的题目。
梁晓峣,上海交通大学盘算机科学与工程系教授、副系主任
点击检察完备演讲内容

国产GPGPU如何赶超国外?这3条路最有希望

通用or专用,智能算力芯片架构该怎样计划?

常用芯片中最通用的就属CPU。以英特尔、AMD为代表,险些可以做任何事故,但是无法做到极致的性能和功耗。能做到极致能效比的是专用芯片,既所谓的ASIC。但是它的编程性差,应用的范围就比力窄。
而在这两个极度之间另有许多选择,好比GPU,这些年越来越成为行业的热门。GPU是一个相对比力通用的处置处罚器,如今称之为GPGPU具有精良的编程性,特别得当大规模数据并行类应用。另有一类在硬件机动度上更大的就是FPGA(现场可编程门阵列),这类器件可以通过硬件形貌语言来改变逻辑结构,性能和功耗会更好,只是编程的难度较大。
通太过析已往五年具有代表性的芯片公司的股价走势,就可以对行业的发展趋势窥见一斑英特尔近五年股价上涨了50%;Xilinx(环球领先的FPGA公司)股价大概上涨了2.6倍;而英伟达(当红的GPGPU把持企业)已往五年股价上涨了16倍。我们即便不去追究深条理的缘故原由,仅凭股价的发展也可以判定行业已经作出了选择,GPGPU已经成为将来盘算的主角和焦点
国产GPGPU如何赶超国外?这3条路最有希望
同时,以史为鉴,从GPU的发展汗青看,它是怎样一步一步发展为行业王者的?
GPU早在上世纪八十年代就已经出现了,其时对于游戏的需求催生了特别的专用于图形渲染的硬件,这就是早期的GPU。在1990年-2000年这段时间,涌现了许多GPU厂商,每家公司规模并不大,有许多代表性的专用芯片产物。但是到了2005年左右,各人意识到在图形学这个范畴算法厘革很快,大概每隔几个月以致每隔几周就会发生翻天覆地的厘革。但芯片必要18个月才气完成一次更迭,假如把硬件完全固定下来就无法跟上行业发展的节奏。
以是,人们开始探索把原来不可变的实验流水线,计划成可以部分编程的架构,这种架构更加机动,可以更加高效的顺应算法的厘革。真正的GPGPU行业大发展始于2006年出现的CUDA(Compute Unified Device Architecture,同一盘算装备架构),它是一种经心计划的、可对GPGPU直接编程的接口和语言。以后以后,对于大量的数据并行应用就可以方便地利用CUDA编程,从而开释出GPGPU中可观的算力。
以是回看已往几十年GPU的发展之路,是一条从“专用过渡到“比力通用,直到如今“非常通用的发展路径。假如我们用来类比本日的人工智能,是否也有雷同的趋势?AI必要极致的算力和能效比,做成专用芯片大概是符合的。但AI算法的厘革又非常快,大概以“天”计,这又要求我们不能做成非常固定的硬件,大概末了也会收敛到一个偏通用的架构。这是我们的一个推论。


国产GPGPU如何赶超国外?这3条路最有希望

GPGPU的发展离不开“摩尔定律”

摩尔定律已经被“社死”了许多年,在许多年前就有人说摩尔定律要闭幕了,但这些年摩尔定律非但没有闭幕,而且还活得很好。
如今5纳米工艺可以量产,3纳米也没题目,1纳米也可以或许预见,摩尔定律仍然会连续下去,而且会连续相当长的时间。但确实,盘算机不会变得更快。由于频率不会变得更高,以是CPU的性能总体趋于稳固。但盘算性可以或许集成的盘算资源和存储资源照旧会不停翻倍,由于摩尔定律使得硬件集成度每隔18个月提升一倍。
摩尔定律和GPGPU可谓“匹俦天成”,数据并行是一种可扩展性最强的并行方式,只要有海量的数据并行性,同时芯片又可以或许按照摩尔定律不停堆砌硬件资源,GPGPU的性能就会不停提升。汗青已经证明GPGPU的胜出归根结底是摩尔定律的功劳。
国产GPGPU如何赶超国外?这3条路最有希望
既然针对某个特定应用做到极致能效比的方式是专用芯片,那么专用芯片是否会比GPGPU更加有上风呢?
现实上GPGPU的架构也不是一成稳固的,也会到场专用的单位用于处置处罚专业的任务,从而使得GPGPU的发展与时俱进,它可以是专用和通用的联合体。好比Volta这一代的GPGPU,在流处置处罚器里就把盘算资源分成几块,既有盘算整型数的单位也有强大的浮点数单位。
为了顺应人工智能的发展,还特意到场了新的单位,叫Tensor Core,着实就是为AI量身定做的专用盘算单位。以是,GPGPU的架构也在不停更新、不停地去顺应新型应用所必要的底层算力。
假如说传统GPGPU的算力并行度是以一个数据点为根本的粒度,在这个规模上并行,那么到了Tensor Core就酿成了以小矩阵块为根本粒度并行了,它在每一个周期都可以完成一个4×4矩阵相乘的效果,以是并行度和算力都高于传统GPGPU的计划。
这个概念还可以推而广之,好比说华为的昇腾AI处置处罚器中的焦点单位3D Cube,现实上就是一个矩阵盘算的阵列块,而它的规模比Tensor Core还要大,是以16×16为单位来做矩阵盘算的,因此它的粒度更大,并行度更高,而且做同样的矩阵盘算均匀下来功耗更低。但是根本单位块粒度过大的话,相对于步伐来说控制就复杂,通用性和实用性就降落。以是各个公司都是只管在功耗、性能以及并行的粒度和可编程性之间找到一个均衡点。
为了顺应人工智能的发展,今世GPGPU还做了许多革新。好比引入了多样化的数制。人工智能的应用对盘算精度的要求可以放宽,没有须要肯定按照尺度的浮点数规则去运算。英伟达最新的Ampere架构中就引入了新的数制TF32。之以是起名叫TF32,意思是用这个尺度来做,末了练习出来的网络精度不会降落,但TF32只有19位,它的盘算方式和尺度的浮点数差别,也正由于把位宽淘汰了,以是性能可以明显提升。
国产GPGPU如何赶超国外?这3条路最有希望
别的,Ampere架构还接纳结构化的奇怪。我们在神经网络中发现,许多节点的权重都靠近于0,而和0盘算是白白浪费算力,以是在Ampere架构中也思量告终构化的奇怪,每举行四次盘算就可以规定有两个是结构化的0,实践发现假如可以把网络练习成如许,那么在Ampere架构下运算起来就会得到两倍的性能提升。
以是说,GPGPU内里也会发生各种各样的优化,也在与时俱进。人工智能必要新型的盘算芯片支持,大抵可分为云端终端
在云端要顺应各种需求厘革和应用,而且既要能做练习也要能做推理,以是看起来就是GPGPU的天下。英伟达如许的公司也在不停的进化,不停的推陈出新来包管产物的竞争力。
而在终端的需求相对比力单一,应用固定一些,以是理论上计划专用硬件来寻求极致的能效比是公道的。但终端的题目是加速器永世只是一小部分,必要其他各种IP的共同协作才气构成一个完备的产物。好比说手机内里有丰富的功能,不是说只要人工智能做的好,手机就能卖得好。以是把握传统渠道和市场的终端芯片厂商,也会推出本身的办理方案,很有大概会后发制人
国产GPGPU如何赶超国外?这3条路最有希望


国产GPGPU如何赶超国外?这3条路最有希望

市场必要的不是“好”的芯片,而是“好用”的芯片


我们要感谢这个期间带给行业极大的发展时机,以致吸引了互联网巨头和海量的资源到场到这个战场。
此前,中国的互联网企业器重用户体验和商业模式,较少到场底层的硬件和芯片开发,但如今环境完全差别了。天下面临财产的大厘革、大重组、大转移。而芯片财产的发展本质靠的是资源推动,当硬科技成为行业风口,就会产生大量的时机和厘革。
这是一个非常好的期间,芯片财产总是由先辈工艺推动的,我们可以乐观的预期将来推动先辈工艺的未必是美国的英特尔或英伟达,或允许能是中国的某家高科技公司呢?但另一方面,我们也必须看到英伟达研发一款新品的投入是以十亿美金计,假如一个芯片公司的贩卖达不到这个规模,肯定是无法连续的。
当前海量的资源都疯狂的涌入这个赛道,而芯片是一个必要打长期战的行业,一旦收入无法跟上,或无法发展为某个赛道的头部,了局就大概很悲惨,即便是“飞起来的猪也大概很快掉下来。
我们必须明白市场必要的不是“好”的芯片,而是“好用”的芯片。所谓好的芯片就是绝对算力高、硬件指标高,这个相对轻易做到。但是做到好用就很困难,做出来的芯片没办法把潜力发挥出来,这是如今AI芯片公司的通病
照旧以史为鉴,英伟达着实也是一步一步从不好用做到好用,走过了一个漫长的阶段。早期的GPU是很不好用的,没有什么人会用GPU编程,只有那些所谓的“极客”会思量利用GPU,冒死把此中的算力压迫出来。可以说早期的GPU比如今的AI芯片更不好用。
这时间就必要有一批行业首脑和技能大咖挺身而出,代表性的人物包罗UIUC的胡文美教授Wen-mei Hwu,他们发明白CUDA,以后有了可以直接对GPU举行编程的语言,使得GPU的潜力得以充实发挥,从而真正走上了腾飞之路。又颠末十年左右的发展,形成了一个非常强大的生态,可以支持各种各样的应用,丰富了高级语言的属性,可以或许支持更为复杂的模子和算法,而且渐渐在许多行业形成把持。以是说GPGPU的发展不是一挥而就的,是颠末十多年的不懈奋斗才走到了本日

国产GPGPU如何赶超国外?这3条路最有希望

Programming Massively Parallel Processors: A Hands-on Approach

胡文美教授(Wen-mei Hwu)所著



国产GPGPU如何赶超国外?这3条路最有希望

发展国产自主GPGPU的三种大概性

当我们回过头来探索国产自主GPGPU的发展之路,起首就是要沉得住气,耐得下心,切不可急功近利、操之过急。事物的发展要依照客观规律,资源永世是双刃剑,既可载舟亦可覆舟。
一款芯片的绝对算力有多高,集成了多少个晶体管并不紧张,关键是把芯片的潜力充实开释给用户,这必要一个精良的生态和完备的软件栈,才气让用户乐于担当,不消改变太多的风俗就可以敏捷移植现有的工作。讲起来轻易,现实做起来很难,必要长期的积极,由于这天下上并不存在一个通用的办法大概一个通用架构就可以办理这个题目。
如今盛行说“兼容CUDA,但要真正兼容出服从很难。即便英伟达做GPGPU这么多年,着实也是由无数个专用的优化累积起来才气够看上去云云的通用,这此中凝结着大量工程师多年的心血。我们重新做起也必要淹灭同样的代价,没有捷径可走,各人肯定要意识到这个题目的复杂性和长期性。
在此,我们实验探究发展国产自主GPGPU的三种大概性
第一条蹊径叫“农村困绕都会”。计谋是从专用芯片做起,把某一个小的范畴做精做强,占据一个山头,然后再占第二个、第三个,形成一个个的革命根据地,渐渐实现农村困绕都会。但也要防止各家企业在小的山头上恶性竞争以致自相残杀,从而忘记了我们真正的汗青任务和弘大目的。经常发生的误区是:当一个企业爬上一座山顶的时间,只顾着欣赏眼前的风景而忘记了去征服更高的高山。
第二条蹊径来自“龟兔竞走”的启发。在汗青上小企业挑落行业巨头的案例也是屡有发生的,好比说,英特尔的指令集在桌面电脑上一家独大,但厥后ARM可以或许乐成寻衅英特尔,就是捉住了移动互联网带来的汗青时机。英特尔在这个时间瞌睡了,并没故意识到行业发生的深刻厘革(再加上幕后推手苹果公司的推波助澜。当下人工智能期间带来的厘革大概还要逾越移动互联网,但令人受惊的是在这个大厘革的期间,现实上是兔子跑得比乌龟快。“兔子就是英伟达,英伟达没有停下进步的步调,没有犯当年英特尔的错误,至今还保持着当年初创企业的活力,许多行业突破性的技能是开始出如今英伟达的产物上。
兔子跑得快已经很棘手,而糟糕的是,我们作为后发者,国内的芯片人才原来就极为紧缺,但由于资源的驱动,短期内催生出许多芯片公司,听说本年新建立的芯片公司是客岁的3倍,而作育的人才不大概一下子发展这么多。都说要会集上风军力才气扑灭强敌,但近况是,我们把为数不多的军力分散到多个战场,从而陷入越打越弱的怪圈。以史为鉴,只有当对手疏忽的时间,捉住战机毕其功于一役才有大的胜算,这通常必要有极大的战略定力,以致还必要有些运气。在芯片行业,万万要防止一哄而上之后的一哄而散!
第三条蹊径也是如今我们以为最有时机的蹊径,就是开源。靠的是众人拾柴和愚公移山,要的是细水长流,拼的是“天荒地老”。通过开源降服强大的对手,在软件生态方面已经战果累累,在硬件上也已经开始表现威力。我们有来由信任,开源硬件即便不能一统江湖,至少也可以分庭抗礼。
我们以为,现阶段国内完全有时机做一个开源开放的、免费公益的GPGPU项目,目的是打造一个全栈式的平台,提供开源硬件,编译器、算子库等,而且在指令集的计划上尽大概靠近大概兼容CUDA生态圈。我们的研究团队迩来攥写了一本关于GPGPU体系结构的专用课本,书名是《通用图形处置处罚器计划—GPGPU编程模子和架构原理》,预计来岁初正式出书发行。同时渴望招呼国内最大的步伐员社区,各人携起手来,摒弃流派之见,都来支持国产自主GPGPU,尽快把这个生态做大做强。
通过这些方式,颠末十年以上的积极,我们坚信在这一块的劣势会渐渐得到增补,渐渐缩小和国外巨头之间的差距。

国产GPGPU如何赶超国外?这3条路最有希望

国产GPGPU如何赶超国外?这3条路最有希望

国产GPGPU如何赶超国外?这3条路最有希望

腾讯回应旗下App停息更新听说;小米称被苹果反超只因iPhone 13太强;下一代AMD CPU或将有12个CCD | 极客头条

ES6 的发布,加速 JavaScript 框架镌汰?

懵了!一夜之间,Rust 考核团队突然团体辞职?


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!“站长QQ:81061523”

鲜花

握手

雷人

路过

鸡蛋

最新评论

精彩资讯更多
策划更多
独家评论更多
家装视频更多
广告栏
logo
  • 反馈建议:service_media@36kr.com
  • 工作时间:周一到周五 10:00-19:00

关注我们

  • erweima
Copyright   ©2015-2016  SOSSEO博客  Powered by©Discuz!  技术支持:源码哥    |网站地图源码哥免费dz商业插件