发挥比较优势，让AI更好赋能CAE

在科技的浪潮中,人工智能(Artificial Intelligence,简称AI)正以其惊人的速度和影响力重塑着我们的世界。作为AI背后的强大推动力,深度学习技术以其革命性的进步,引领我们进入了科研的“第四范式”。在工程设计和仿真技术领域,深度学习的应用正成为数字研发体系变革的关键。然而,面对“维度诅咒”这一根本问题,无论深度学习还是CAE传统数值模拟框架,都无法摆脱低维度、普适性和精确性的“不可能三角”。

深度学习:人工智能的技术核心

AI概念自20世纪40年代诞生以来,已经经历了近一个世纪的发展,如今在深度学习的浪潮中迎来了它的全盛时期。从AlphaGo的围棋对决到ChatGPT的语言奇迹,深度学习技术正以其独特的魅力,成为AI发展的核心。海量数据的积累、算力的飞跃以及算法的创新,构成了AI发展的三大驱动力。正是这三个要素的协同作用,让我们对实现通用人工智能(AGI)充满了期待。

深度学习解决问题的能力已经得到了社会的广泛认可。从图像识别到自然语言处理,从文本生成到视频分析,深度学习在各个领域展现出强大的性能和巨大的潜力。然而,深度学习并不仅限于快速、高效地解决问题,它更在“解决人”的问题层面上展现出令人瞩目的成就。

“解决人”并不是指取代人类,而是指在某些领域,深度学习已经超越了人类的极限,攻克了人类难以克服的难题。这在围棋、电子竞技和数学问题等领域尤为显著。例如,AlphaGo击败世界围棋冠军;AlphaStar在《星际争霸II》中战胜人类专家级玩家;FunSearch算法则解决了数学界长期未解的上限集问题,这些都是深度学习“解决人”能力的生动体现。

维度诅咒:数学建模的根问题

一个问题呼之欲出:既然深度学习已经超越了人类的极限,那么它是否能够解决所有人类无法解决的问题呢?

在探讨深度学习是否能解决所有问题之前,需要从哲学的角度出发,回归到知识的本源进行思考。根据唯物主义哲学,人类的知识是对客观世界的一种反映,与客观事物本身相比,不可避免地带有片面性。同样的,人类收集和处理的数据信息也存在局限性。在构建所谓的“元宇宙”——即对现实世界的数字化模拟时,只能针对关注的特定特征进行建模。如果将原子视为构成宇宙的基本单位,那么对宇宙进行全息模拟的理想方法,无疑是模拟构成宇宙的所有原子。然而,这种方法在现实中几乎是不可能的,因为这意味着需要用全宇宙的原子来构建计算机,这正是所谓的“维度诅咒”所指的难题。

什么是“维度诅咒”?“维度诅咒”(Curse of Dimensionality)这一概念最早由美国数学家Richard E. Bellman提出,用以描述当数学空间的维度增加时,空间体积迅速膨胀,导致数据变得稀疏,给数据分析和组织带来巨大挑战。“维度诅咒”决定了建模过程中存在普适性与精确性的权衡难题。为了形象地解释这一概念,可以拿中医和西医的方法论进行对比。中医采用阴阳五行的理论框架,其理论维度相对较低,倾向于使用基于经验的偏方进行治疗,当然我们也经常发现中医疗法有明显的地域、个体差异,比如经常听说方圆十里存在一名“江湖神医”,而全国知名的中医却相对较少。相对而言,西医侧重于对器官组织结构的精确分析,以及药理学和病理学中化学机制的深入理解。西医的药物研发过程虽然复杂、耗时,但一旦研究成果得以应用,其治疗方案往往具有广泛的适用性。

降维:深度学习与数值模拟的异同

CAE技术的模拟对象通常是复杂的物理场系统,因此建模首要考虑的是如何降维或如何抓住主要特征。以CFD(计算流体力学)为例,如果直接进行数值模拟,需要的网格量是雷诺数的9/4次方,而汽车、航空领域大部分工程问题的雷诺数都超过100万,面对如此庞大的计算需求,即便是最先进的超级计算机也难以胜任。

传统CAE技术主要是建立在数值计算框架上的模拟技术,其本质是将系统进行时空离散,并在局部采用理想化的“第一性原理”进行建模。时空离散的截断是主要的降维手段,同时也是误差产生的主要来源。针对特定场景,数值模拟方法中还存在其他的降维技术。在空间维度上,可以采用分辨率自适应技术,根据区域特性应用不同分辨率,或通过拟合函数自适应选择与区域特性相匹配的函数进行空间拟合等。在时间维度上,时间步长自适应技术可以根据模拟过程的动态特性调整步长。这些方法使得数值模拟在保持结果精确的同时,有效减少了计算资源的消耗。

对于深度学习而言,通常包含一定的神经网络规模和结构,例如参数数量,网络层数及各层的链接关系等,而网络参数的数量对于所建模的系统的自由度而言则小得多。深度神经网络近似一个“黑盒”,因此无法确切知道深度神经网络降维方式,但也给我们留下了充分的想象空间。理论上,深度学习模型具备在不同维度空间进行分解、变换和组合的能力,在训练过程中可能对数据进行压缩,提炼出不同角度的共性知识。然而,深度学习在仿真中也存在一些局限性,不可解释性可能成为需要高度可靠性和透明度的工程应用中的一个问题。此外,深度学习模型可能会遇到过拟合的风险,特别是在数据量有限或数据分布不均匀的情况下。深度学习模型的训练和推理过程需要消耗大量的计算资源,包括时间成本和能源成本,而数值模拟则不需要这种额外的消耗。

数值模拟就像一位精明的画家,面对复杂的物理世界,他通过巧妙的降维捕捉关键特征,用有限的笔触勾勒出一幅幅生动的画卷。而深度学习,更像是一位神秘的魔术师,他用黑盒般的手法,将数据压缩、变换,提炼出共性知识,但又让人不得不警惕不可解释的迷雾和过拟合的陷阱。

AI4CFD:高维非线性系统建模实践

机器学习在流体力学领域并非新事物,早在20 世纪 40 年代 Kolmogorov 就建立了统计学习理论来研究湍流。自此,研究者开始采用各类监督、无监督和半监督机器学习方法,在 ROM(降阶模型, Reduce Order Model)、实验数据处理、湍流封闭建模、形状优化和流动控制等方面应用。流体力学领域最早应用深度学习的例子可以追溯到 1989 年, Baldi 等人研究了POD(本征正交分解)和线性神经网络之间的联系,并第一次使用多层神经元重建槽道壁面附近的湍流场。机器学习在流场模拟方面的应用主要分为3类:

1)湍流模型/数值离散:湍流模型是数值模拟网格尺度以下的封闭模型,比如用于定常求解的RANS(雷诺平均)和用于非定常大涡模拟(LES)的亚格子(SGS)模型。

2)流场预测/降阶模型:此类应用方式是通过神经网络直接替代传统的理论或数值模拟建模手段,直接对流场进行建模和预测。

3)加速数值求解过程:此类应用主要针对刚性较强的问题求解,如 Poisson 方程。 Poisson 方程问题主要常见于不可压Navier-Stokes方程的压力分离解法,这类解法将速度单独求解,然后进行压力修正使之满足连续方程。

针对湍流模型/数值离散工作应用类型,我们主要调研了自2012年以来的15篇文献,研究主要针对简单层流或简单几何湍流,包括非定常湍流。网络参数规模一般在100量级,几乎所有工作所训练的湍流模型主要在尺度和场景模式相近的案例中进行交叉验证,并未证实较好的泛化能力。而针对流场预测/降阶模型,我们调研了自2002年以来的11篇文献,研究对象也主要是球、椭球或者二维简单几何流动。网络参数规模在10ˆ3-10^8量级,显示出比湍流模型/数值离散应用中更大的网络规模。尽管模型参数规模较大,但这些案例中的训练数据与交叉验证案例在尺度和场景模式上几乎是一样的,没有表现出跨尺度和跨模式的泛化性。

CFD 相关神经网络规模最大,建模问题尺度最大的CFD案例,要数气象领域的气象预报模型。华为团队利用Transformer网络构建了4个天气预报模型,分别预测1小时、3小时、6小时和 24 小时后的天气,每个模型规模达到 6400 万参数,每个模型使用了 29 年的气象数据型,并使用192个V100 GPU训练16天。预测速度相对之前工作有大幅提高,效率达到传统数值预报的 10000 倍。非常值得庆幸的是,虽然该应用案例在尺度和场景模式上没有泛化,但是仍然在预测速度方面表现出相对传统数值模拟方法的优越性。Transformer 在天气预测上的初步成功,可以看到其输入维度达到1440x721x69总计超过700 万的像素,而推理过程跨越数十个小时,超过数值模拟时间推进时间步长的数个量级,这种模式可以看做在空间上将问题维度缩小而保留时间上较高维度的问题简化方法(降低问题维度)。此外,模型的6400 万个参数规模,为空间角度做更大范围的变换和模态识别(多样降维方法)提供了可能,且可能存在网络内部变换和模态的复用,极大地增强了模型的灵活性和多样性。

深度学习在天气预报应用中,并未尝试跨越尺度和模式的泛化,而是专注于加速模拟预测过程。这就像是在赛车比赛中,不追求在各种复杂地形上的全能表现,而是专注于在赛道上的速度和效率。在特定领域显著提升计算效率,同样也会带来革命性的变革。

深度学习如何正确赋能CAE?

根据以上分析,我们可以理解到CAE的核心本质是对物理场和设计空间的建模,因此无论是深度学习还是数值模拟,都无法逃脱“维度诅咒”,都会面临模型的规模、普适性、精确性的权衡问题,作者称之为“不可能三角”。换言之,不存在一种完美的建模方法,能够在保持相对被建模系统低纬度的同时,兼顾普适性和精确性。

以降阶模型ROM为例,为了追求高效率,这类模型通常具有较低的维度。尽管它们在特定样本领域内具有较好的精确性,但几乎无法做到尺度和模式上的泛化。精确的数值模拟,如直接数值模拟(DNS),在维度上几乎与被模拟系统相当,从而能够在保证精确性的同时,实现较好的普适性。当前人工智能领域推崇的通用大模型(GLM),大部分时候牺牲了具体问题的精确性,而保持较低精确水平下的普适性。

建模的不可能三角

因此,深度学习赋能CAE的正确方式,是利用深度学习相对数值模拟的比较优势。显然,当前深度学习技术的不可解释性、不可控的泛化性和不确定的逼近误差,在严谨的工程领域可能成为致命弱点,因此其预测方面表现出的效率优势才是需要关注的重点。相反,数值模拟凭借其普适的第一性原理和可控的误差,更倾向于在方法上同时保留普适性和精确性,而非单纯追求降低模型的维度。另一方面,深度学习在训练数据的可靠性方面面临挑战,特别是在CAE领域,获取精确可靠的实验数据和模拟数据往往成本高昂。因此,深度学习赋能CAE的最佳途径,在于利用其在历史数据价值挖掘方面的能力,对数值模拟过程进行加速。

特性深度学习数值模拟

低维度优势劣势

普适性劣势优势

精确性劣势优势

根据以上分析和讨论,我们可以得到深度学习赋能CAE几个具体方式:

1)跨尺度建模。CAE的核心目标在于仿真方案的精确模拟与优化。针对传统数值模拟技术框架的不足,深度学习可以在多个尺度上进行降维。首先是亚网格尺度,即数值模拟分辨率无法刻画的细节尺度,例如CFD中的湍流模型训练和替代。其次是物理场尺度,当积累了充足的历史数据后,深度学习模型能够直接预测物理场的初始状态。最后,上升到设计优化的反问题维度,深度学习还可以在设计空间中推荐优化方向。

2)构建智能混合引擎。深度学习对比优势在于降维和提效,因此无论在哪个尺度进行建模,将其作为数值模拟的加速和辅助工具都是明智的选择。鉴于可靠的实验数据和模拟数据获取成本高昂,深度学习可以利用数值模拟得到的历史数据进行伴随训练,实现模型的不断进化。这也正是“神工坊”团队“CAE智能混合引擎”提出的技术发展战略。

以AI加速技术为主要手段的CAE智能混合引擎

3)面向垂直场景。根据“神工坊”团队的观察和研究,下一代CAE技术的变革主要由需求侧系统级高保真和垂直领域的专业应用需求所牵引,由高性能计算、人工智能等供给侧先进计算技术所驱动。无论是从需求侧还是供给侧看,平台+APP的垂直CAE技术供给和协同生态的出现是大势所趋。在专用应用场景中,对普适性的要求降低,对模型泛化性的要求也相对减少,这使得深度学习的降维模型可以更好地利用低维度和高效率优势,同时在专业场景中展现出更好的精确性。

需求牵引和计算赋能共同成就平台+垂直应用生态

在信息技术快速迭代与发展的今天,CAE积极拥抱先进计算技术,这既是推动行业进步的必然选择,也是实现国产技术跨越式发展和崛起的关键路径。然而,在积极创新的同时,也需要时刻保持清晰的战略定位。

“神工坊”团队(始于2016年)源自国家超级计算无锡中心,经过8年的不懈努力和持续研发,成功构建了“高性能数值模拟框架”。目前,“神工坊”团队也在积极推进人工智能技术加持下的“CAE智能混合引擎”的研发工作。“神工坊”期待未来能够与CAE领域的物理机理专家、资深工程师以及广泛的用户群体进行深入的合作与交流,共同见证先进计算技术赋能的CAE变革。

作者简介: