8月24日,在青岛举行的全国高性能计算学术年会大会(CCF HPC China 2023)上,由北京大学和华为技术有限公司联合申报的超融合以太网络荣获解决方案创新奖。CCF是中国计算机学会的简称,CCF HPC China是高性能计算领域全球最具影响力的三大超算盛会之一,有着“中国超算风向标”的称号。
如果说计算机领域,国际上的最高奖项是图灵奖,那么国内最高奖就是CCF颁发的奖项。知情人士介绍,能获得CCF颁发的奖项,无疑是一个计算机学科的极高荣誉和实力体现。CCF创新奖旨在表彰在计算机科学、技术或网络工程领域具有重要发现、发明、创新,在相关领域有国际影响的优秀成果。获得此奖项不仅代表着中国科技力量有能力创新性地解决算力落地中的实际问题,而且意味着未来我们可以将此类创新成果更好地分享给世界。
CCF副理事长金海颁奖(中)
北京大学计算中心付振新(左)
华为数据中心网络领域副总裁张白领奖(右)
那么,此次北大和华为联合获得的创新成果到底有何含金量呢?让我们仔细道来。
算力落地面临拥堵难题
近年来,算力已经像水、电一样,渗透到生产生活的各个领域,成为经济社会高质量发展的重要驱动力。目前,我国算力总规模居全球第二,保持30%左右的年增长率,新增算力设施中智能算力占比过半,成为算力增长的新引擎。一系列显著增长点都让人看到了属于“中国算力”的勃勃生机。
从去年年底以来,ChatGPT引发了全球对于大模型的关注,由此点燃了千行百业对于AI训练的需求。各大高校和科研院所的计算平台使用人数激增,用户的作业量逐渐超过了平台承受能力,网络基础设施的业务吞吐量和复杂性都大大增加。如何破解拥堵难题,让算力更好地服务高质量发展已经成为当务之急。
北京大学选中华为超融合以太网络解决方案
北京大学早在2018年就建成了高性能计算校级公共平台,先后建成投用了“未名一号”“未名二号”“未名生科一号”等5套集群,共有732个节点、31000多个核心,计算峰值3.65PFLOPS,配备存储14PB。
高性能计算校级公共平台从整体上提升了北京大学的科研服务能力,降低了科研成本。截至2023年5月12日,该平台为来自数学、力学、物理、化学、生物、地球科学等96个院系的5000多名师生提供了高性能计算服务,支撑了545项科研课题,1400多篇科研论文,并支撑了2020年戈登贝尔奖的发布。
不过随着平台使用人数、计算任务的增加,网络基础设施的吞吐量和复杂性都大大增加,年均节点占用率都在80%以上,“未名生科一号”的节点占用率甚至长期处于95%以上,作业时间和排队时间变得越来越漫长。
不能让科研攻关任务堵在“临门一脚”!为了提升高性能计算的效率,降低科研成本,北京大学高性能计算校级公共平台组织了一次厂家“考核”,意在选出智能时代最优的高性能计算网络。通过严格测试,北京大学高性能计算校级公共平台选择采用华为超融合以太网络解决方案,基于智能无损高性能计算网络搭建高性能计算集群,100%释放算力,缩短作业运行时间和排队时间。
华为超融合以太网络解决方案为何能脱颖而出
针对热门大型公共计算平台排队和作业时间过长的问题,各厂商先后提出IB(Infiniband)、RoCEv1、RoCEv2等无损网络技术。但是,通用计算区部署的传统以太网、高性能计算区部署的IB网、存储区部署的FC网,是三张异构网络,他们协议各异、架构割裂,带来了运维困难、专网生态封闭、成本高、无法实现全生命周期管理等问题。
华为超融合以太网络解决方案独家实现以太网0丢包,与传统以太网相比,可实现服务器规模不变,算力翻番;可构建10E级的超大规模算力集群;独家实现网算一体,网络协助计算,经第三方权威测试机构Tolly认证,任务完成时间(JCT)对比IB 缩短17%。
此次北京大学和华为的联合获奖绝非偶然,这证明了超算行业技术圈对华为超融合以太网络解决方案的充分认可。
随着数字产业智能化向智能世界发展,未来数据中心将朝着多云异构算力演进,要构建强大的算力,需要各类资源高度协同,深度融合。一张开放、自主的超融合以太网络将多维度与各类算力资源协同,全面提升网络性能,释放更高算力,从而助力“高算力、高安全、高效能、高可靠”的新型算力中心建设。华为超融合以太网络解决方案有望在国家科学计算、工程技术创新、高精尖科研算力使用和建设大潮中大显身手,为“中国算力”的高质量发展添薪续力。