从两月前, Sora大模型的发布,如平地一声惊雷,到近日,StreamingT2V的AI视频模型在帧数和视频长度上的突破,全球的注意力都被文生/AI视频生成领域所牵系,生成的视频产品无论是连贯性的场景和运动镜头,还是模拟复杂情境和角色表情,都为AI在理解真实世界场景并与之实现互动,增添了更多细节和想象空间。
Sora可以说是人工智能领域的一次革命性突破,OpenAI更是将Sora定位为“世界模拟器”—— Sora对语言深刻理解,遵循现实世界的逻辑,展现物体运动和交互,甚至是光影的捕捉,这些都符合现实世界的基本物理规律。
然而,已展现了超强算力的Sora在细节的呈现上并不是完美的——在模拟复杂场景的物理效应,以及理解某些特定因果关系时,它可能会遇到难题——比如,视频中的人物可能会咬一口食物,但食物上可能看不到明显咬痕;比如,在处理空间细节分辨左右时,Sora也可能会出现混淆;比如,特定的摄影机移动轨迹时,也可能显得力不从心。
目前,人工智能大模型都由数据驱动,Sora也不例外,她需要“看”到大量的包罗万象的物理现象,进行学习,才能让自身智能真正融合到现实的的物理场景中。世界的运行规律无处不在又极其复杂,人类无法把这个所有的运行细节全部捕捉给Sora们,这也是当前人工智能模型在运行中碰到的待解决难题。
科技界经过漫长的观察实践,捕捉到了世界运行背后的基本规律,并通过第一性原理建立起各种物理定律和数理方程,并在此基础上形成的世界模拟模型——“仿真计算”(CAE仿真)。这一强大的技术,用于生成符合物理规律的数据集,这在许多工程和科学领域中都是至关重要的。对于通用人工智能(AGI)来说,这些数据集可以用于训练和优化模型,以更好地理解和模拟物理世界,这无疑能为Sora们创造出无穷的“粮食”和针对性的“营养元素”。
自然界中大多数物理过程是稳恒态和临界态的交替变化。在临界态(灾变态)中系统骤然突变,很难抓拍到足够的观察数据。因此,临界态的数据样本非常稀少,Sora“看”到的绝大多数都是稳恒态的数据,所以生成的稳恒态的视频让我们叹为观止,但是对临界态的处理,往往又让人啼笑皆非。毕竟,在人类认知中,最为关键的物理事件恰恰是概率几乎为零的临界态。正如在Open AI发布的视频中看到明显的时空不一致,包括违反重力、碰撞动力学、稳固性和物理永恒性。