近期,视频大模型的讨论再次成为热门话题,因为一家创业公司被认为做出了“最强国产Sora”。4月27日,生数科技联合清华大学在中关村论坛未来人工智能先锋论坛上发布了Vidu,这是一个标签为“长时长、高一致性、高动态性”的视频大模型,能够根据文字描述生成长达16秒、1080P分辨率的高清视频内容。
朱军在中关村论坛现场作报告
高一致性是该团队特别强调的一大特点。清华大学人工智能研究院副院长兼生数科技首席科学家朱军指出,目前国内的视频大模型普遍只能生成4秒左右视频,而Vidu能够一次性生成长达16秒的视频。此外,视频画质连贯流畅,随着镜头的转换,视频中的人物和场景在时间和空间上保持高度的一致性。
在动态性方面,Vidu展示了在推、拉、移动镜头以及画面远、近、中景以及特写的动态转换,并能直接生成长镜头、追焦和转场效果。朱军提到,Vidu能够模拟符合物理规律的真实世界场景,如合理的光影效果、细腻的人物表情,并能生成具有深度和复杂性的超现实主义内容,例如“戴珍珠耳环的猫”。
生数科技展示的视频素材中,许多用户已经对其时间与空间一致性表示了认可,这是视频模型在生成长时长内容时必须解决的关键问题。
关于一致性表现的讨论不应独立于视频时长之外。Vidu目前公布的视频时长上限是16秒,而Sora为1分钟。Sora发布后不久,生数科技成立了专门的坚攻小组,加速视频模型的研发。今年3月,他们实现了8秒视频的生成,并在4月成功延长至16秒,但具体技术细节还没有对外公布。
技术上,Vidu采用了自研的U-ViT架构,与Sora一样是Diffusion和Transformer的融合架构,这种架构并不是通过多步骤的插帧处理生成视频,而是通过单一步骤“端到端”直接生成视频,从文本到视频的转换是直接且连续的。
这意味着,Vidu同样需要模型训练的Scaling Law(规模法则),不断积累更多的参数和算力。
除算力限制外,一位经验丰富的多模态大模型训练者指出,生成数据的差距是国内视频大模型与Sora的一个主要差异。视频大模型的训练需要大量数据,这是一个逐渐细化和确定的过程。
因此,尽管生数科技在短短两个月内取得了显着进展,但在同等性能表现下追平Sora的1分钟时长,真正做到全面对标Sora,必然还有较长的一段路要走——至少不是“两倍于两个月”这样简单的线性估算。
GSV科技基金创始人史宁
GSV科技基金创始人史宁从事大模型领域投资,他表示“16秒与1分钟的差距可能远超四倍算力,或许不是工程能力所能弥补。”
史宁还提到,Vidu和Sora目前发布的素材有限,从已发布的内容来看,其一致性的表现确实不错,但还需要更多的数据才能做出更准确的评估。从这个角度看,Vidu与Sora的直接比较的维度可能更多的是镜头语言的动态性,以及对物理规律的理解和模拟能力等方面。而长时长和一致性的核心性能,还需要等待后续的版本迭代才能做出更深入的比较。