对标Sora,“国产最强”视频大模型Vidu,实力如何?

2024-04-30 15:20:43     来源:

期,视频大模型的讨论再次成为热门话题,因为一家创业公司被认为做出了“最强国产Sora”。4月27日,生数科技联合清华大学在中关村论坛未来人工智能先锋论坛上发布了Vidu,这是一个标签为“长时长、高一致、高动态”的视频大模型,能够根据文字描述生成长达16秒、1080P分辨率的高清视频内容。

朱军在中关村论坛现场作报告

高一致是该团队特别强调的一大特点。清华大学人工智能研究院副院长兼生数科技首席科学家朱军指出,目前国内的视频大模型普遍只能生成4秒左右视频,而Vidu能够一次生成长达16秒的视频。此外,视频画质连贯流畅,随着镜头的转换,视频中的人物和场景在时间和空间上保持高度的一致

在动态方面,Vidu展示了在推、拉、移动镜头以及画面远、、中景以及特写的动态转换,并能直接生成长镜头、追焦和转场效果。朱军提到,Vidu能够模拟符合物理规律的真实世界场景,如合理的光影效果、细腻的人物表情,并能生成具有深度和复杂的超现实主义内容,例如“戴珍珠耳环的猫”。

生数科技展示的视频素材中,许多用户已经对其时间与空间一致表示了认可,这是视频模型在生成长时长内容时必须解决的关键问题。

关于一致表现的讨论不应独立于视频时长之外。Vidu目前公布的视频时长上限是16秒,而Sora为1分钟。Sora发布后不久,生数科技成立了专门的坚攻小组,加速视频模型的研发。今年3月,他们实现了8秒视频的生成,并在4月成功延长至16秒,但具体技术细节还没有对外公布。

技术上,Vidu采用了自研的U-ViT架构,与Sora一样是Diffusion和Transformer的融合架构,这种架构并不是通过多步骤的插帧处理生成视频,而是通过单一步骤“端到端”直接生成视频,从文本到视频的转换是直接且连续的。

这意味着,Vidu同样需要模型训练的Scaling Law(规模法则),不断积累更多的参数和算力。

除算力限制外,一位经验丰富的多模态大模型训练者指出,生成数据的差距是国内视频大模型与Sora的一个主要差异。视频大模型的训练需要大量数据,这是一个逐渐细化和确定的过程。

因此,尽管生数科技在短短两个月内取得了显着进展,但在同等能表现下追Sora的1分钟时长,真正做到全面对标Sora,必然还有较长的一段路要走——至少不是“两倍于两个月”这样简单的线估算。

GSV科技基金创始人史宁

GSV科技基金创始人史宁从事大模型领域投资,他表示“16秒与1分钟的差距可能远超四倍算力,或许不是工程能力所能弥补。”

史宁还提到,Vidu和Sora目前发布的素材有限,从已发布的内容来看,其一致的表现确实不错,但还需要更多的数据才能做出更准确的评估。从这个角度看,Vidu与Sora的直接比较的维度可能更多的是镜头语言的动态,以及对物理规律的理解和模拟能力等方面。而长时长和一致的核心能,还需要等待后续的版本迭代才能做出更深入的比较。

 

标签:

猜你喜欢

“五一”消费前瞻:抖音生活服务酒旅相关商品销量同比增长68%
数智新重庆 | 推进信号升格 打造算力山城
中商七——携手北京天图万境科技、博云视觉联手研发AOJ 探测车及新型隧道导航系统
影音娱乐体验再升级!爱奇艺、B站等14家头部应用完成鸿蒙核心版本开发
华为手机用户五一出游如何省心省力又省钱?一篇文章为你讲透!
摩尔线程闪耀亮相2024中国移动算力网络大会,展示多项合作创新成果
全面智能化升级!中国移动算网大脑推动算力网络点亮 AI新时代
老WOWer的“魔兽”情怀,天工AI竟然都懂!
耀星计划丨2024年4月最新进展
持续贡献开源 国产系统孵化项目加入CNCF Landscape
飞书,陪伴泡泡玛特向全球潮流文化进击
霄云科技助力淄博某三级医院信息化建设:融合存储方案推动行业变革
Valens与黑芝麻智能科技合作,将MIPI A-PHY与黑芝麻智驾和跨域计算平台对接
北京市支付机构反洗钱同业合作研讨会第二期反洗钱沙龙在易宝支付成功举办
打造人才培养新高地!达梦数据与华中师范大学共建“精英班”
北京面部馒化修复中心接诊001号顾客,数字化科技赋能解决馒化难题
智联招聘、天眼查等7家应用完成鸿蒙核心版本,引领企业级商务新体验
海思科:努力十年只为终止千万糖友的“痛”
华为旗舰店·上海南京东路重磅焕新,城市客厅体验升级
蛋仔派对关注未成年身心健康,积极开展公益活动引导健康消费价值观
为数智化安全护航 华为云能源行业思享会成功举办!
年轻人最爱的Hi nova 12 SE正式开售,4月30日开售2199元起!
飞猪与松赞集团签署年度战略合作协议 围绕品牌营销、会员等深入合作
AI新时代,金融新业态 中移金科携多款创新产品亮相2024移动算力网络大会
推动Micro-LED商业化四项核心技术
精倍莱健康贴士:男士减少久坐加强锻炼,有助机体蓄能,笑对挑战
中国移动云•星辰安全云能力中心正式启动!
TCL ESG实践向“绿”前行,武汉制造基地三年水回收量可再造一个武汉东湖
推陈出新 陈心陈意——科技赋能广陈皮,铺就新会致富路
芯片性能比肩国际水平!仁芯科技车载SerDes芯片R-LinC强在哪?