在12月5日举办的2023世界5G大会先导论坛上,中国工程院院士、清华大学计算机科学与技术系教授郑纬民,围绕中国算力“破局”现状分享了自己的观点。
他介绍,当前共有三种支持大模型训练的算力系统:其一是基于英伟达公司的GPU系统,也是很多人使用的;其二是基于国产AI芯片的系统;另一个是基于超级计算机的系统。
他展开分析道,英伟达的GPU系统优点是硬件性能好,且编程生态好,因此很多人喜欢用这个系统做大模型。但可惜的是,美国政府不允许它的芯片再卖到中国,现在能买到的(芯片)从12月开始涨了一倍,关键是一卡难求,买不到。
在科技制裁的情况下,中国加快了自研芯片的步伐。他表示,国内现在差不多有30家公司生产类似的芯片,但关键问题在于国内卡的生态系统不太好,国产的卡用户不喜欢用。
郑纬民解释道,所谓生态系统好与不好,关键要看软件是否易于移植,以及可调用的库是否全面。
“比如原来一个软件是基于国外系统写的,现在想把它移植到国内系统来,如果移植起来比较顺利那说明系统还不错,否则这个生态系统就是不好。另外,如果想写一个软件,写起来比较顺利,不要让我一写没这个库,一写没那个调用方法,那这个系统就是好的。”
谈及如何能把国产系统芯片升级到更好,郑纬民列出了一些关键要素,包括要做好编程框架、提高卡的并行加速能力、还要做好通信库、算子库、编译器、调度器、内存分配系统、容错系统以及存储系统。
他表示,并不是说国内的30家公司都没有做这些,而是说功能做的还不够齐,性能还不够好。他强调,“一定要下功夫把这些做好,才能真正叫做好了生态。”
“我们不要求国产芯片一下子要比别人的更好,如果国产AI芯片硬件性能可以达到国外芯片的60%,并把以上列举到的关键点做好,将会让更多的用户满意。因为大多数用户不会因为60%的性能感到不满意,不满意的是生态系统做的还不够好。如果生态做好了,硬件稍微弱一点也行。生态不好,硬件很行也没有用。”他补充道,“当然硬件也很重要,硬件都没做出来的话,生态就更谈不上了。”
对于超级计算机系统而言,郑纬民认为这也是可以用来训练大模型的一种方式。他表示,国内现在有14个国家一级超算中心,有些地方机器用的还不是很满,完全可以以租用的方式进行训练大模型,费用成本基本是英伟达的六分之一。
最后,郑纬民指出,除了要发展算力系统外,加强程序员对现有多种类软硬件系统的认知能力也非常重要,这样才能做好任务分配,将现有设备性能发挥出最大作用。
他表示,过去一台机器,基本就是“CPU+内存+硬盘”的模式,但现在除了CPU以外,还有GPU、TPU等各种各样的模式。硬盘也是,有很多新的存储器件出来。软件也不一样了,不管是人工智能应用软件,还是基于图数据的图计算应用,其实都在发生变化。
“10年前,做天气预报系统的人懂‘FORTRAN语言’,懂数据结构,知道如何把软件写好就行。但现在需要更深度地理解现有的这些更复杂的软硬件系统,了解怎么将软硬件更好地做匹配,不然编出来的软件要么转不起来,要么转起来了但性能会很差。”
声明:本网站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。本站部分作品是由网友自主投稿和发布、编辑整理上传,对此类作品本站仅提供交流平台,不为其版权负责。如果您发现网站上所用视频、图片、文字如涉及作品版权问题,请第一时间告知,我们将根据您提供的证明材料确认版权并按国家标准支付稿酬或立即删除内容,以保证您的权益!联系电话:010-58612588 或 Email:editor@mmsonline.com.cn。
- 暂无反馈