进入二十一世纪以来,人类的科学探索逐渐深入高度复杂、高度不确定性的新环境,大量庞大而复杂的科学问题需要借助超级计算机来进行模拟、仿真、预测。从传统的化学化工、生物制药、高能物理、金融工程、社会治理,到新兴的大数据、人工智能、网络信息安全等,都因强大算力的加持而取得了超出以往的全新进展和成果。
北京大学计算中心成立于1936年,是中国高校最早建立的计算中心之一,也是创建高性能计算校级平台的先行者,为科学研究提供了强力支撑。2023年,北京大学计算中心迎来成立60周年的重要时刻。
科研创新迎来算力时代
1963年,当北京大学拥有第一台计算机时,就在全国高校率先成立计算中心,组建了一支专业技术团队服务全校师生。半个世纪后,北京大学以计算中心技术团队为支撑,成立并启用了北京大学高性能计算校级公共平台。随后,“未名一号”“未名教学一号”和“未名生科一号”等多套集群陆续投入运行。
北京大学高性能计算校级公共平台的主要功能是面向全校提供高性能科学与工程计算服务,满足各学科领域对于大规模数据处理和大规模科学计算的需求。平台的主要任务是建设科学合理的管理体制、可持续发展的体系架构、专业稳定的技术队伍、高效先进的计算环境、丰富全面的软件资源、节能环保功能完善的基础设施、合理便捷的收费机制、合作共享的运维体系,实现校级平台和院系二级平台的资源整合和高效使用,整体提升学校的科研服务能力,降低科研成本。
目前,该公共平台的计算总核心数达14064个,峰值计算能力为1680Tflops,存储容量达11084TB,已成为北京大学重要的科研支撑环境。平台为数学、力学、物理学、化学、生物学、地球科学、计算机科学等学科提供了高性能计算环境。截至2023年5月12日,北大高性能平台共有师生用户5070人,分布在全校96个院系单位;同时,已知支撑科研课题超545项,总金额达31.36亿元,科研论文1400多篇,并支撑了2020年戈登贝尔奖的发布。该获奖项目通过机器学习将分子动力学模拟极限提升到1亿原子的惊人数量,被认为是当今计算科学领域中最令人兴奋的重大进展。
提速迫在眉睫,华为智能无损高性能计算网络助力释放极致算力
随着平台使用人数的增加,用户的作业量逐渐超过了平台能力,网络基础设施的流量吞吐量和复杂性都大大增加,北京大学高性能计算校级公共平台的系统及网络改造迫在眉睫。
华为超融合数据中心网络CloudFabric 3.0解决方案基于智能无损高性能计算网络搭建高性能计算集群,100%释放算力,助力北大超算平台缩短作业运行时间和排队时间。
据了解,华为智能无损高性能计算网络关注TCP/IP、IB和RoCEv2分别在高性能计算基准测试工具Linpack、地球系统模式CESM以及分子动力学软件VASP等应用场景中的测评结果。
实验结果发现,在VASP测试中,华为智能无损高性能计算网络100GE RoCEv2优于IB;在Linpack和CESM测试中,华为智能无损高性能计算网络100GE RoCEv2与IB性能表现基本一致,也证实了在真实应用场景下华为智能无损高性能计算网络可以代替IB。
华为智能无损高性能计算网络解决方案独家实现以太网0丢包,与传统以太网相比,可实现服务器规模不变,算力翻番;可提供业界最高密768*400GE交换机CloudEngine 16800,可构建10E级的超大规模算力集群;独家实现网算一体,网络协助计算,经第三方权威测试机构Tolly认证,任务完成时间(JCT)对比IB 缩短 17%。
北大高性能计算校级平台拥有国内领先的超算集群,全系统Linpack效率常年位居前列,对网络性能、可靠性和先进性要求都非常高。此次测试结果加深超算行业技术圈对华为超融合数据中心网络全无损以太的充分认可。
近年来,华为超融合以太网络解决方案已经在国内外多个高性能计算平台项目中落地应用,以其优越性能而得到好评。与此同时,华为RoCE无损以太网络在时延、吞吐量、可靠性、编解码和调制技术等方面也在不断进步,使得无损以太网络的总体性能不断提高,未来有望在自动驾驶、智能制造、生物科技、金融等更多行业和领域投入应用,为国家科学计算、工程技术创新、高精尖科研添砖加瓦。