图森未来正式发布图生视频大模型“Ruyi”

2024年12月17日 - 图森未来今日正式发布“Ruyi” - 图生视频大模型，并将Ruyi-Mini-7B版本正式开源，用户可以从huggingface上下载使用。我们希望通过开源模式，让更多AIGC爱好者和社区成员能够自由体验。“Ruyi”专为在消费级显卡（例如 RTX 4090）上运行而设计, 并提供详尽的部署说明和 ComfyUI 工作流，以便用户能够快速上手。

关于Ruyi：

Ruyi是图森未来正式发布的第一款“图生视频”模型。凭借在帧间一致性、动作流畅性方面的卓越表现，以及和谐自然的色彩呈现和构图，Ruyi大模型将为视觉叙事提供全新的可能性。同时，该模型还针对动漫和游戏场景进行深度学习，将成为ACG爱好者理想的创意伙伴。

卓越特性

多分辨率、多时长生成

Ruyi支持最小384*384，最大1024*1024分辨率，任意长宽比，最长120帧/5秒的视频生成。

首帧、首尾帧控制生成

Ruyi可以支持最多5个起始帧、最多5个结束帧基础上的视频生成，通过循环叠加可以生成任意长度的视频。

运动幅度控制

Ruyi提供了4档运动幅度控制，方便用户对整体画面的变化程度进行控制。

镜头控制

Ruyi提供了上、下、左、右、静止共5种镜头控制。

技术概览

模型架构

Ruyi是一个基于DiT架构的图生视频模型，它由两部分构成：一个Casual VAE模块负责视频数据的压缩和解压，一个Diffusion Transformer负责压缩后的视频生成。其中Casual VAE模块会将空间分辨率压缩至1/8，时间分辨率压缩至1/4，压缩后每个像素由16位的BF16进行表示。DiT部分使用3D full attention，在空间上使用2D RoPE进行位置编码，时间上使用sin_cos进行位置编码，最终的loss选用了DDPM进行训练。模型的总参数量约为7.1B，使用了约200M个视频片段进行训练。

训练数据和方式

整个训练分为了4个阶段：

在第一阶段我们使用约200M的视频数据+30M图片数据进行256分辨率的预训练，训练batch size为4096，共训练350k个iteration至充分收敛。

第二阶段使用了约60M的视频数据进行384-512分辨率的多尺度微调训练，训练batch size为1024，共训练了60k个iteration。

第三阶段使用了约20M的高质量视频数据和8M的高质量图片进行384-1024分辨率的多尺度微调，训练batch size根据显存大小进行动态调整，共训练约10k个iteration。

第四阶段使用了10M的精选高质量视频数据进行了图生视频的训练，训练batch size为1024，共训练约10k个iteration。

输入格式和生成长度/模式

Ruyi需要用户提供一张图片作为输入，并可以选择输出时长、输出分辨率、运动幅度和镜头移动方向等选项，如意会根据输入的图像输出一个不超过5秒的视频。

现存缺陷

Ruyi目前仍然存在手部畸形、多人时面部细节崩坏、不可控转场等问题，我们正在改进这些缺点，在日后的更新中对它们进行修复。

下一步计划

随着AIGC领域竞争的日益激烈，图森未来认为: 最佳应用场景是孵化生成式AI工具的原动力。公司致力于利用大模型降低动漫和游戏内容的开发周期和开发成本。因此，Ruyi将持续聚焦在如何真正解决行业痛点。

本次发布的Ruyi大模型，已经可以实现输入关键帧后，生成之后5秒的内容，或输入两个关键帧，由模型生成中间的过渡内容，降低开发周期。未来将持续深耕场景需求，在此基础上实现直接生成CUT的突破。在下一次的发布中，我们将同时发布两个版本，为不同需求的创作者提供更加灵活的选择。

我们欢迎开发者持续探索Ruyi的能力，利用Ruyi开发出更多更好的应用。

标签：

创新交锋决战AI之巅 | 昇腾AI创新大赛2024全国总决赛将于厦门开赛

京东“先人一步”下单vivo Y300 部分版本享特惠100元赠1年只换不修

Soul App陶明出席极客公园创新大会：人机关系新边界，如何定义 AI 社交未来

《鄂尔多斯市煤炭行业人工智能及矿鸿应用三年行动计划（2025-2027）》正式发布

2024一带一路暨金砖国家技能发展与技术创新大赛之元宇宙3D数字内容设计创作赛项（中职组）全国总决赛在湖北崇阳职业技术学校圆满闭幕

阿里云为升学e网通暑期高峰赋能，照亮学子求学梦

手机旗舰产品为何纷纷搭载F1？维信诺A+护眼屏打造极致视觉体验

央视今年五次重点报道！作为科技引领智慧养老消费新潮流

鸿蒙原生版微信持续更新中，语音转文字、听筒模式、群红包已上线

从沉浸式到3D Mapping，光峰科技助力湄洲岛妈祖文化“出圈”

湖北汽车工业学院2024年科技创新高质量发展大会圆满召开

鲸灵集团年货节品鉴会助力商家赢在起跑线

用时代的技术解决时代的问题，云道智造携新一代仿真软件走进无锡

冠一通飞GA20成中国首个民企23部取证飞机型号

2024新华网教育论坛 | 猿编程李翊：用孩子喜欢的方式培养计算思维

Shopee 12.12生日大促收官，开场2分钟即售出1,200万件商品

“钟”遇合肥 “新”潮澎湃

恒昌公益荣膺第二十二届财经风云榜“2024年度优秀公益品牌”

脑科学与AI的巅峰对决！2024NeuroMaster脑科学人工智能挑战赛决赛在深圳圆满落幕

“解锁ROG Lab：只为超越” CES 2025 ROG新品发布会正式官宣

距cippe2025开幕还有100天，你预登记了吗？

彩讯股份CEO白琳获评“2024年度卓越上市公司领导者”荣誉

智元机器人规模化量产，打造全球最大机器人生产与数据采集基地，开启通用机器人商用量产时代

拥有4000万+用户的测测App，为何被越来越多的人喜爱？

林内高性能产品助力厦门兄妹一家六口打造惬意适老化康养生活

精研深耕“技术矩阵” 重庆移动全力擘画山城智治新篇

时空壶再次拓展“双向同传”边界，通话互译功能重磅亮相！

《城市综合体的品牌影响力构建路径及策略研究》发布

投影仪VS会议电视职场老炮儿告诉你怎么选？

热点图片

要闻

网易伏羲具身智能解决方案重磅首发，推动人形机器人产业新发展
12月13日，第二届人形机器人场景应用生态年会在苏州顺利召开。网易伏羲受邀参与此次会
中国家电科技年会智能技术专题研讨会暨第九届智能家居创新发展大会圆满召开
2024年12月12日，中国家电科技年会智能技术专题研讨会暨第九届智能家居创新发展大会在
“西甲电竞巅峰杯” 再度来袭，续写上季精彩华篇
西甲电竞巅峰杯与西甲电竞中国挑战赛重回中国，即将寻觅EA SPORTS FC Online和EA
斩获TMA商业赋能类金奖，vivo×360如何借助AI智能体构筑品牌服务新智慧？
用户消费愈加理性，延迟消费愈演愈烈，数据显示，智能手机换机周期已延长至51个月，中
360马伊：全面激活PC营销力，构建游戏行业增长新闭环
2024年，中国游戏市场经历了一场期待已久的复苏——政策松绑，游戏版号发放频率和数量
喜马拉雅2024·123狂欢节巅峰人气百大主播名单公布
近日，2024年喜马拉雅123狂欢节百团荣誉战·集火力赢大奖活动落下帷幕，活动共吸引200
国云官网焕新升级，共创数智未来！
官网不仅是展示企业产品和服务的核心平台，更是传递企业文化和价值观的重要载体。近日
领鹊科技闪耀2024“中国建造·慧享未来”建筑机器人大赛
12月3日-5日，由重庆市住房和城乡建设委员会、四川省住房和城乡建设厅主办的第二届中
好衣库7周年庆典：携手品牌与店主，共绘年货节蓝图
12月13日至14日，好衣库7周年庆暨2024私域年货节品鉴会在杭州隆重召开。本次周年庆以
斑马百科上线文学首个主题《史记》持续引领儿童数字内容行业创新发展
近日，斑马儿童科教集团旗下少儿百科数字内容平台斑马百科上线文学首个主题《史记》，

图森未来正式发布图生视频大模型“Ruyi”

相关阅读

猜你喜欢

热点图片

要闻