钱德沛院士:应把国家投入的高端算力尽快联成一张“网”

钱德沛院士:应把国家投入的高端算力尽快联成一张“网”

00:00
16:55

更高性能与更低能耗,是算力这枚“硬币”的一体两面,还是ChatGPT大模型带火算力产业后,我国面临的挑战?

“这两个其实互为因果,是我们国家发展算力遭遇的最大挑战。”中国科学院院士、北京航空航天大学教授钱德沛告诉新京报新京智库。在美国等发达国家对我国高科技产业实施封锁的国际背景之下,我们只有在这两个方面都突出重围,才能走出一条中国的高性能、低能耗的计算之路。

好消息是,已经有企业勇挑重担了。

8月15日,科大讯飞发布了讯飞星火认知大模型V2.0版本。科大讯飞董事长刘庆峰在发布会上介绍,“科大讯飞正在与华为打造面向超大规模参数大模型训练的国产算力集群,对标英伟达的A100芯片。”

根据MLPerf组织发布的一项推理基准测试结果显示,英伟达A100 Tensor Core GPU在云端推理的基准测试性能是英特尔最先进CPU的237倍。MLPerf是一个由图灵奖得主大卫·帕特森联合谷歌、斯坦福大学和哈佛大学等机构发起成立的具有国际权威的AI性能基准测试组织。

英伟达官方数据显示,在相同的性能水平下,GPU加速系统每月的能耗比仅使用CPU的系统少消耗588兆瓦时的能源。与仅使用CPU的系统相比,在四路NVIDIA A100云实例上运行相同的工作负载一个月,科研人员可以节省400多万美元。

那么,我国算力当前处于什么水平,能否满足不同城市的算力需求?算力建设是否真如舆论所说一定能带动经济发展?新京智库就此采访了钱德沛院士,他回应了当下关于算力建设的一些热点问题。

钱德沛长期担任我国高性能计算方向国家重大项目总体组组长,主持制定了战略目标和实施方案,确立了高性能计算机的体系结构和技术方案,实现了高性能计算机的跨越发展。

我国算力迈上了第四个台阶

新京智库:目前,我国算力水平位居全球第二,从弱到强,这个过程经历了几个阶段?每个新阶段开始的标志性事件是什么?

钱德沛:算力主要是随应用需求而发展,在我国高性能计算得到了国家科技计划的长期支持,所以实现了从跟踪到并跑,甚至交替领先的发展过程。

如果从计算机的性能来划分,过去30年有4个台阶,每个台阶性能提高1000倍,即从G级到T级,再到P级,再到E级。相对应的典型计算机系统是,早期的曙光1000,上世纪末的曙光3000。从本世纪开始,我国陆续发展了几代超级计算机,比如联想深腾6800和曙光4000A,天河一号、曙光6000和神威·蓝光,神威·太湖之光和天河二号等,接着是E级计算机。

最近这几年,新一代人工智能的发展对算力需求急剧提升,特别是最近一年来,大模型训练引来了社会各界越来越多的关注。在这一阶段,一批智算中心成立,它主要是以针对人工智能应用为目标而建立的算力中心。

新京智库:2021年5月,国家发改委、工信部、中央网信办和国家能源局联合印发的关于建设“东数西算”工程的政策是否算一个标志?

钱德沛:“东数西算”工程不应算作是算力发展到一个新阶段的标志。“东数西算”工程是一个国家战略,实际上是在“双碳”背景下提出来的,其目的是要解决国家能源分布不均、算力和应用分布不均、经济发展不均的问题。因此,“东数西算”工程不仅是要解决算力发展的问题,而且是作为国家新基建的一部分。

更高性能和更低能耗是一个挑战

新京智库:从国家层面来看,目前国家规划了“东数西算”工程,这种一体化的新型算力网络体系可以解决哪些问题?又面临哪些挑战?

钱德沛:国家规划“东数西算”工程的目的是建设一种新的算力网络体系,但它的出发点实际上也是出于要解决“双碳”指标已经确定的背景下,碳达峰、碳中和目标能否如期实现的问题。IT系统的能耗已经相当高了,而且在不断快速攀升。

在这种情况下,东部能源已经紧张,比如国家超算深圳中心,原本规划安装E级计算机,因为能耗将从几兆瓦一下提高到80兆瓦,最后就放弃了计划。所以说,“东数西算”工程是一个长久的国家战略,是为了解决一些现实问题的措施。

至于说“东数西算”工程所面临的挑战,就是要尽量避免其负面效应的发生。比如,在西部建成算力中心后面临负载不足,即任务不饱满。任何事情都有其两面性,如果说将来在西部建的算力中心没有足够的应用,造成空闲就是一种浪费,而且西部的网络基础、人才条件和应用需求可能都是不那么充足。我们最不希望出现的就是用了西部的能源电力,但某种程度上破坏了西部的环境,还没有促进西部的经济发展。

新京智库:那你觉得我国算力发展面临最大的挑战是什么?是缺少更高计算能力的芯片,还是能耗更高与减碳之间的矛盾?

钱德沛:我觉得这两个是交织在一起的挑战,这两个挑战互为因果。我们衡量一台计算机好不好,是看其计算速度快不快、是否节能、是否好用。我们需要计算性能更高,同时又能耗更低的计算机,因为美国的封锁,使得我们无法购买到高端芯片,就是高性能低能耗的芯片,比如NVIDIA 的 H100。它最近又发布了GH200。

我们自己能造计算机,但如果没有高端的芯片,就会导致能耗更高。能耗的指标就约束了怎么造计算机,你不能随心所欲,靠多装一些处理器来提高计算机的性能,那不行,因为处理器太多能耗太高,就会超出用户的承受能力。因此没有高端处理器,整个计算系统能耗就降不下来。

所以,更高性能与更低能耗实际上是我们面临的同一个挑战。我们要在这两方面都有突破,才能走出一条中国的高性能、低能耗的计算之路。

“距离”不是“东数西算”的挑战

新京智库:现在也有一种观点担忧,即京津冀、粤港澳和长三角三大算力枢纽和用户端离得比较近,而甘肃、宁夏、内蒙古和贵州四个枢纽离用户端比较远,对于一些实时性要求比较高的场景应用是否就难以满足?

钱德沛:其实计算应用是分不同类型的,有实时性高的,也有实时性不那么高的,而且大部分数值模拟的应用实时性都不那么高。比如说一个工程师提出了一个新的设计方案,需要通过仿真验证设计好不好,他下班时提交任务,第二天一早上班能拿到结果,那就很好。

我觉得一些人有一种认知误区,好像一定要机器在桌边或在单位才好,才能够随时使用。其实不是这样,很多应用并不是都要那么高的实时性。特别是高性能数值模拟计算,它经常是批处理作业,并不需要交互式的实时性。但有些人觉得好像机器不在他的控制之下,就不方便。我觉得这是一种错觉。

其实,真正阻碍我们远程使用计算的因素是技术,比如网络的性能。如果网络传输速率不高,那么大量的原始数据和结果数据的传输就会比较慢,多数人对于这种传输的延时比较缺乏忍耐力。这可能会是一个制约远程使用算力中心的因素。

另外就是服务水平,但这个问题在目前情况下并不突出,因为目前西部的算力中心多是用户端机构本身所设立的,比如中国电信、中国移动、阿里巴巴和京东等在西部设立算力中心。这些都是在它们自己控制范围之内,并不存在因为服务水平高低而影响用户使用的问题。

不过,从长远来看,算力中心应该逐渐从提供原始算力到提供应用解决方案过渡,在那时可能应用的服务水平会更加显现出它的作用。

新京智库:像自动驾驶这种要求实时性非常高的,是否就不适合使用远距离的算力中心?

钱德沛:自动驾驶是另外一类应用。实际上,美国在1980年代就开展过相隔数千英里用光纤来控制汽车的自动驾驶的试验。

这是一种技术上的展示,但是我不相信会有哪一个运营商将来会依赖于远程算力来控制自动驾驶车辆。从经济模式和技术可行性上来说,它都不现实。除非把网络的时延降低到了非常非常低的程度,使得远程和近地没有区别。

新京智库:从不同城市来说,目前我国的算力资源分布是否可以很好地满足所在城市或附近城市的需求?

钱德沛:如果真正形成了网络,超算的网络或智算的网络,是不是全国一张网都无所谓,算力的地理分布应该不是关键因素,除非传输网络太差。只要应用系统跟得上,肯定是可以满足非算力中心附近城市的算力需求。

比如,国家超算无锡中心下一步升级的机器就将放到青海西宁,让他们去管理,因为那边电价便宜。所以机器在哪里或者靠不靠近一个城市关系都不大。

影响大的是,你的应用系统能不能被计算系统所支持,有没有相应的应用软件支持。如果没有相应软件支持,机器放家门口也没用;如果有软件支持,哪怕机器部署在西部也照样可以使用。

另外就是怎么运行算力中心,从经济上来讲要看收费合理不合理,或者用户有没有得到真正的收益。如果算力中心联网以后,用户使用的成本降低了,用户为何不用?

但是,如果算力中心收费不合理,或者急于收回成本定价过高,那用户就会选择不用你的资源。如果一个算力中心没有足够应用,那最终就会经营不下去。

算力的投入并不一定带来GDP回报

新京智库:关于算力的作用有很多说法,比如对算力的投入能拉动GDP增长。你认为算力对我国经济、科技发展有何影响?

钱德沛:算力是创新型国家建设的一个基础,而且是一种支撑性技术,这一点已经逐渐形成共识,但在二三十年前并不是这样认为。今天已经有越来越多人认识到了算力的重要性,特别是最近这几年。

但具体说算力到底能带来多少GDP,很难说。计算的作用完全取决于你是否用计算完成了你的应用,不是说投入了就一定有产出。所以,我从来不愿意引用一些机构测算的算力带来GDP回报的数据,我个人一直怀疑这些数据的科学性,不太主张这种提法。

新京智库:10多年前,新组建的工信部提出“两化融合”,即工业化和信息化融合。也是有利于传统产业的转型升级。这两者有何区别?

钱德沛:信息化是一个宏观的、笼统的体现,最近这两年更多提数字化。过去所说的传统产业要信息化,往往是说企业的经营管理要信息化,企业各类信息要录入计算机来实现管理。虽然把纸质化的数据录入电脑后也需要计算,但不是那么强大的计算需求。现在企业要想提高竞争力,需要依赖于高性能计算的数值模拟和设计优化技术。计算的作用可能要超出传统的信息化。

比如汽车、高铁的车型都是计算机在算,而不是制造出一个个原型来测试评估。也就是说,用了计算以后,大量产品的设计优化、性能改进不需要再在物理世界进行,在虚拟的数字空间里完成即可。从这个意义上讲,计算对于企业的转型,即从劳动密集型或能源依赖型向更高附加值的产品,更高市场竞争力的方向转换有非常大的作用。

算力中心需实施灵活的收费机制

新京智库:你刚才也提到了算力中心的收费问题,现在有一种声音认为我们的算力中心收费过高,尤其是对于一些高校科研工作者来说。

钱德沛:收费的问题是我国特有的一个现象。在很多发达国家,由国家所建立的算力中心基本上是免费的,当然也不是说真正不要钱,要不然这些中心怎么维持下去。他们是设立了相应的计算基金,如果高校、科研机构有算力应用需求,那就提出申请,由相关机构评审:你这个算力应用值得支持,就通过你的申请。

我们国家的很多算力中心是科技部主导建设的,但科技部没有运营费用,即便有经费也不能用于算力中心的运营。那么这些算力中心谁来运营,运营经费从哪来?有些城市经济条件好,像上海市人民政府就专门拨出一些经费给超算中心,经济比较差的地方怎么办?

所以,算力中心很大的压力是如何筹钱保证其能够正常运营,而运营经费很大一部分是电费。据我所知,目前的超算中心收费已经是尽可能地低,实际上还覆盖不了它们的电费,但是对于一个科研人员或者其他用户来说,他们往往会觉得收费比较高。所以,算力中心收费高这种说法是相对的。

另外,我认为算力中心也可以实施灵活的收费机制,比如趸交,就每年交一笔固定费用,然后你想怎么用都行。再如,不同时段采取不同的收费费率。总之,希望可以多渠道解决,一方面国家要设立一些相关的基金,帮助我们好不容易建起来的算力中心能够正常运行下去。另外,也要吸引其他商业资本加入进来一起运营,这样可以降低用户所支付的费用;完全不收费也不现实,在目前的状态下也会滋生新问题,比如就有人用我们的算力资源去“挖矿”。

“中国算力网”目前还不存在

新京智库:目前我国有哪些算力中心已经接入中国算力网?这对各城市对算力的需求而言,会有怎样的作用?

钱德沛:“中国算力网”目前还不存在,尽管有很多宣传,但现在还没有真正意义上的“中国算力网”。要作为一个基础设施说“中国算力网”,那谁是业主,谁在运营?还没有。

但是局部的、某个领域的、或者超算中心的“网”是存在的。经过20多年发展,超算中心已经联成网络,现在又计划发展新一代的超算互联网,这是存在的,已经联成网。新的部分智算中心也已经联网,它的业务形态正处于形成过程中。

至于将来是否能够建成中国算力一张网,我有点持怀疑态度。计算和电力有点不一样,电力不连接起来,就只能供本地使用。现在我们有国家电网、南方电网两大电力运营商。但是,到目前为止,算力还没有一个业主或运营商在运营“中国算力网”。

计算,从本质上来说,一开始就是离散的、分布式的。因为计算机就是一台一台分布在不同地方,后来有了网络,才把计算机连接在了一起,才有了资源共享、统一调度,最后形成一个基础设施形态。

而且,有的算力资源是国家投入建设的,有的是企业投入建设的,不同算力中心的所有权、所有制也不一样,你怎么把它们统一起来并入到一张“网”里?

就像云计算,每家大企业都有自己的云计算平台,阿里、京东、百度、腾讯等都经营自己的云平台,它们可以发展不同云之间的互联,可以变成一种联合体,但是很难想象要京东的资源交给阿里去运管,这在商业模式上不可能实现。

过去这些年,我们一直在做一件事情,就是要把关系国计民生、关乎国家创新发展、由国家主要投入的高端算力联成一张“网”,作为一个基础设施来运行,支撑科研发展。其他大量的算力可能还是要放开、竞争,国家予以政策指导。

以上内容来自专辑
用户评论

    还没有评论,快来发表第一个评论!