对标Sora，“国产最强”视频大模型Vidu，实力如何？

近期，视频大模型的讨论再次成为热门话题，因为一家创业公司被认为做出了“最强国产Sora”。4月27日，生数科技联合清华大学在中关村论坛未来人工智能先锋论坛上发布了Vidu，这是一个标签为“长时长、高一致性、高动态性”的视频大模型，能够根据文字描述生成长达16秒、1080P分辨率的高清视频内容。

朱军在中关村论坛现场作报告

高一致性是该团队特别强调的一大特点。清华大学人工智能研究院副院长兼生数科技首席科学家朱军指出，目前国内的视频大模型普遍只能生成4秒左右视频，而Vidu能够一次性生成长达16秒的视频。此外，视频画质连贯流畅，随着镜头的转换，视频中的人物和场景在时间和空间上保持高度的一致性。

在动态性方面，Vidu展示了在推、拉、移动镜头以及画面远、近、中景以及特写的动态转换，并能直接生成长镜头、追焦和转场效果。朱军提到，Vidu能够模拟符合物理规律的真实世界场景，如合理的光影效果、细腻的人物表情，并能生成具有深度和复杂性的超现实主义内容，例如“戴珍珠耳环的猫”。

生数科技展示的视频素材中，许多用户已经对其时间与空间一致性表示了认可，这是视频模型在生成长时长内容时必须解决的关键问题。

关于一致性表现的讨论不应独立于视频时长之外。Vidu目前公布的视频时长上限是16秒，而Sora为1分钟。Sora发布后不久，生数科技成立了专门的坚攻小组，加速视频模型的研发。今年3月，他们实现了8秒视频的生成，并在4月成功延长至16秒，但具体技术细节还没有对外公布。

技术上，Vidu采用了自研的U-ViT架构，与Sora一样是Diffusion和Transformer的融合架构，这种架构并不是通过多步骤的插帧处理生成视频，而是通过单一步骤“端到端”直接生成视频，从文本到视频的转换是直接且连续的。

这意味着，Vidu同样需要模型训练的Scaling Law（规模法则），不断积累更多的参数和算力。

除算力限制外，一位经验丰富的多模态大模型训练者指出，生成数据的差距是国内视频大模型与Sora的一个主要差异。视频大模型的训练需要大量数据，这是一个逐渐细化和确定的过程。

因此，尽管生数科技在短短两个月内取得了显着进展，但在同等性能表现下追平Sora的1分钟时长，真正做到全面对标Sora，必然还有较长的一段路要走——至少不是“两倍于两个月”这样简单的线性估算。

GSV科技基金创始人史宁

GSV科技基金创始人史宁从事大模型领域投资，他表示“16秒与1分钟的差距可能远超四倍算力，或许不是工程能力所能弥补。”

史宁还提到，Vidu和Sora目前发布的素材有限，从已发布的内容来看，其一致性的表现确实不错，但还需要更多的数据才能做出更准确的评估。从这个角度看，Vidu与Sora的直接比较的维度可能更多的是镜头语言的动态性，以及对物理规律的理解和模拟能力等方面。而长时长和一致性的核心性能，还需要等待后续的版本迭代才能做出更深入的比较。

标签：

猜你喜欢

“五一”消费前瞻：抖音生活服务酒旅相关商品销量同比增长68%

数智新重庆 | 推进信号升格打造算力山城

中商七——携手北京天图万境科技、博云视觉联手研发AOJ 探测车及新型隧道导航系统

影音娱乐体验再升级！爱奇艺、B站等14家头部应用完成鸿蒙核心版本开发

华为手机用户五一出游如何省心省力又省钱？一篇文章为你讲透！

摩尔线程闪耀亮相2024中国移动算力网络大会，展示多项合作创新成果

全面智能化升级！中国移动算网大脑推动算力网络点亮 AI新时代

老WOWer的“魔兽”情怀，天工AI竟然都懂！

耀星计划丨2024年4月最新进展

持续贡献开源国产系统孵化项目加入CNCF Landscape

飞书，陪伴泡泡玛特向全球潮流文化进击

霄云科技助力淄博某三级医院信息化建设：融合存储方案推动行业变革

Valens与黑芝麻智能科技合作，将MIPI A-PHY与黑芝麻智驾和跨域计算平台对接

北京市支付机构反洗钱同业合作研讨会第二期反洗钱沙龙在易宝支付成功举办

打造人才培养新高地！达梦数据与华中师范大学共建“精英班”

北京面部馒化修复中心接诊001号顾客，数字化科技赋能解决馒化难题

智联招聘、天眼查等7家应用完成鸿蒙核心版本，引领企业级商务新体验

海思科：努力十年只为终止千万糖友的“痛”

华为旗舰店·上海南京东路重磅焕新，城市客厅体验升级

蛋仔派对关注未成年身心健康，积极开展公益活动引导健康消费价值观

为数智化安全护航华为云能源行业思享会成功举办！

年轻人最爱的Hi nova 12 SE正式开售，4月30日开售2199元起！

飞猪与松赞集团签署年度战略合作协议围绕品牌营销、会员等深入合作

AI新时代，金融新业态中移金科携多款创新产品亮相2024移动算力网络大会

推动Micro-LED商业化四项核心技术

精倍莱健康贴士：男士减少久坐加强锻炼，有助机体蓄能，笑对挑战

中国移动云•星辰安全云能力中心正式启动！

TCL ESG实践向“绿”前行，武汉制造基地三年水回收量可再造一个武汉东湖

推陈出新陈心陈意——科技赋能广陈皮，铺就新会致富路

芯片性能比肩国际水平！仁芯科技车载SerDes芯片R-LinC强在哪？

热点图片

要闻

统信软件荣获2024年“北京市独角兽企业”授牌
4月28日，由北京市人民政府指导，北京市科委、中关村管委会，市人才工作局，市发改委
开放原子校源行（西安站）顺利开幕
4月29日，开放原子校源行（西安站）暨校源行一周年活动开幕式在西北工业大学成功举办
超声波创始人杨子超：AI融合地方产业是大机遇，邯郸等城市将会全面升级
作为在中国最先倡导AI+产业的人士之一，去年OpenAI在美国旧金山召开首届开发者大会，
纬亚智能入驻企知道科创空间，引领PCBA市场数字化变革风潮！
近日，昆山纬亚智能科技有限公司（以下简称纬亚智能）入驻企知道科创空间。纬亚智能定
健力宝携手飞书，开启数智化变革时代
4月29日，健力宝宣布：全员上飞书。健力宝董事长叶红汉表示，要借用全员用飞书为契机
京东E卡的回收方法？怎么兑现？
临近五一了，公司又发京东E卡了。往年这个时候，小雷的公司老板给每个人发了一张京东E
钉钉AI通过国家网信办大模型服务备案
4月29日晚，浙江省网信办发布生成式人工智能服务已备案信息公告（以下简称：公告），
八位堂携手ASUS华硕、Cup Couple春日快闪活动在山城重庆圆满结束
春日开场，桃气登场！自4月1日开始，八位堂携手 ASUS 华硕，Cup Couple 在山城重
武汉凤煌购科技有限公司与君凤煌签署产业数字化战略合作
2024年4月29日，在这个春暖花开阳光明媚的季节，迎来了武汉凤煌购科技有限公司与广东
三六零与华为合作再添新作：360协同办公App推推启动鸿蒙原生应用开发
在科技飞速发展的当下，全场景及数智化办公已成为提升企业运作效率的重要驱动力，众多

对标Sora，“国产最强”视频大模型Vidu，实力如何？

相关阅读

猜你喜欢

热点图片

要闻