为了满足AI应用的需求,各地都在积极上马智算中心。区别于传统的数据中心,智算中心的建设与运维是一个新的课题,也面临新的挑战:智算中心投资规模巨大,平台能力与运营效率将成为运作的关键;从技术和运营的角度来看,智算中心的建设更加专业且复杂;从数据的隐私性和属地性特征来看,智算中心建设更加分散,运营能力参差不齐;智算中心要更好地支持业务的多样化。
解决上述问题,关键是需要一个算力调度平台。9月19日,青云科技AI算力调度平台正式发布。AI算力调度平台是智算中心运营者的核心工具,它主要面向智算中心现在的投资者和未来的运营者。“济南超算这样的成功案例已经说明,我们的AI算力调度平台具备客户所需的完整能力;三年前,我们就已经具备了开发AI算力调度平台的能力;我们的AI算力调度平台得到了实践检验,济南超算不仅运营得很好,而且还实现了盈利。”林源表示,“这就是青云科技的新机会。作为一家中立的云服务商,青云科技会与生态伙伴紧密协作,站在用户的背后,提供智算中心所需的产品和服务的支撑,为用户提供更好的选择。”
“我们将所有与AI、GPU相关的产品,独立提出来,并结合以前的整体智算解决方案,最终打造出现在的AI算力调度平台。”青云科技产品经理苗慧介绍说,“我们的AI算力调度平台可以实现多区域、多地点,面向不同业务进行算力调度。”
归纳来说,青云科技AI算力调度平台主要从以下四个维度进行研发和优化:为国内外多种架构的芯片提供支持和优化;所有资源和产品一旦进入云平台,青云科技就会提供全生命周期的管理;面向AIGC,青云科技做了大量业务化的实践;实现更多的自动化,让非计算机行业的用户也能一键运行其数据、业务和模型等。
本次发布的青云科技AI算力调度平台具有九大关键能力:多区多业务资源整合、混合组网、容器推理服务平台、分布式调度与管理、算法开发支持、模型仓库(MaaS)、AI训练平台、灵活调度、高速并行存储。
相比其他的AI调度平台,青云科技AI算力调度平台的差异化具体表现在:针对大集群(比如上百台机器的集群),青云科技研发了更加优化的调度算法,比如在亲和政策、反亲和政策以及调度的链路标签上,做到尽可能地调度同一个交换机,让数据少绕路; 在应用环境上,青云科技采用Kubernetes和Slurm两种调度平台同时为客户服务,并且是完全集成好的,在颗粒度和运维传统机器方面也有更多优化。