智算中心、千卡智算中心、万卡智算中心集群……智算中心越建越多,规模越来越大,然而对于AI大模型的发展需求来说,当前的智能算力供给体系在技术、成本和生态等方面均存在着必须面对的挑战,如何发挥出智算中心数量、规模对应的效能,对行业来说一直都是一个难题。
日前,寻找数字产业「新质生产力」行动计划工作组联合国内权威机构、产业机构及官方媒体共同发起“寻找数字产业「新质生产力」行动计划”,并于2024年6月率先启动了“AI大模型应用场景”产学研融通创新活动。
本活动由中国科协企业创新服务中心主办,中关村产业技术联盟联合会、中国通信工业协会数据中心委员会(CIDC)承办,数字开物与IDC圈协办。众多业界专家在研讨会上,深入探讨了AI大模型在实际应用中的机遇与挑战,并就当前产业发展面临的问题提出了各自的思考。
高端算力紧缺
算力、算法、数据,在人工智能的三大要素中,算力处于最基础的关键位置,没有足够的算力支撑,人工智能的涌现也就无从谈起。根据scaling law原则,三大要素中任何一点的短板,也会让大模型的效能急剧下降。
当前,国内智能算力缺口严重,尤其是高端算力不足。工信部数据显示,中美两国算力占全球总算力比例分别为35%、31%,相差不多。但智能算力比例,美国占45%,中国占比则只有28%,差距巨大。高端算力的不足导致的直接后果就是中国千亿以上参数大模型训练,会因为缺少高端算力,大模型训练受影响。
当前,提供算力最直接方式就是建设更多数量、更大规模的智算中心。据IDC圈报道,截止7月末,我国拟建、在建以及建成智算中心已经多达399座,其中号称万卡集群有16座。与此同时,国资委、各地方政府不断出台各种措施和政策,鼓励、推动智算中心的建设加速,互联网企业、上市公司等企业也纷纷参与其中。
但从整体看,如何让千卡、万卡,甚至未来可能出现的十万卡、百万卡集群发挥出应有的算力,让集群性能随着规模成线性增长,在当前还是一个无解的难题。目前包括腾讯、华为等互联网企业以及三大运营商等均在研究适合自身的万卡集群模式,希望通过技术创新来突破这一瓶颈。
此外,国内算力还面临高端芯片紧缺与芯片生态不完善的问题。从另一个角度讲,国内当前芯片类型多样,促进了多元异构算力的发展,解决了异构算力管理和互联问题,那么国内也可能建立起更加稳固、高效的多元异构算力体系。
高昂的投入与回报的不确定性
目前,国内智能算力的获取和运营成本一直居高不下。一方面,智算中心建设及高性能GPU和云计算平台等硬件资源的价格昂贵;另一方面,大规模的数据处理和模型训练也需要消耗大量的电力和人力资源。这些高昂的成本使得许多企业和研究机构在算力投入上望而却步。
而相比于算力的难于获取与成本高昂,算力建设的成本回报也不乐观。国内智算中心建设虽多,但布局分散、互无统属、平台不完善,导致算力难以按需分配和调度。一方面算力难找,一方面客户难求,“找客户”成为算力需求节节攀升之下的诡异难题。
此外,算力建设投入成本高,而技术更新换代迅速,市场需求变化莫测,企业很难准确预测投入算力后的回报情况。这种不确定性使得许多企业在算力投入上持谨慎态度,从而影响了整个产业的发展速度。
智算生态:既是方案,也是挑战
从整体的层面看,当前我国智算发展面临的难题都可以归结为产业生态不完善所导致。所以建设一个适合我国产业需求的智算生态,也是实现智算产业高质量发展的最佳解决路径。
然而,当前智能算力产业的生态建设却相对滞后于技术发展。从本次“AI大模型应用场景”产业问题专家研讨会上征集到的问题看,从芯片供给,到智算中心建设,到平台运营,到人才培育,都有很多难题等待解决。
高端算力技术不可控
智能算力消纳难
分布式AI基础设施如何高效整合
算力中心设备产业链的互联互通
新能源电力系统的稳定与安全
专业智算生态运营公司的缺乏
算力市场和服务市场“碎片化”加剧
人才培养与引入……
……
(2024产学研融通创新活动—AI大模型应用场景专场产业问题榜单)
提出问题,是为了更好的解决问题。我国智能算力产业在技术创新、成本控制和生态建设等方面都面临着诸多挑战。同时,这些挑战也孕育着新的机遇和发展空间。当前,“产学研融通创新活动”持续征集产业优秀案例和解决方案,如果您或您的企业有解决当前智算发展难题、助力智算产业发展的产品、技术等,请扫描下方二维码,留下您的产品信息和联系方式,共同推动我国智算产业高质量发展。
“AI大模型应用场景”产学研融通创新活动优秀案例申报