腾讯音乐开源模型MuseV全网首测,LitGate称其表现令人惊艳

2024-03-28 15:51:31     来源:

近日,知名AI游戏创作者社区LitGate对腾讯音乐娱乐旗下的天琴实验室,正式发布了开源虚拟人视频模型MuseV进行了评测。文章将MuseV模型评为今年AI视频领域“王炸级”的产品,并从一致性、时长、自定义动作、口型驱动、通用场景视频生成、生成速度等多维度展示了MuseV的亮点和优势。LitGate表示,测试中MuseV图生视频的稳定度表现超出了LitGate刚开始的预期。尤其是虚拟人微动长视频和口型生成部分有很大的优势,可以说是目前开源模型中最好用的一批。

以下是评测全文:

开源最强?腾讯音乐虚拟人视频模型MuseV首测

腾讯音乐娱乐的天琴实验室正式发布了开源模型MuseV,现阶段支持图生视频和口型生成,可以丝滑生成虚拟人视频,目前可以在Hugging Face和github上直接拉取代码模型跑起来。

项目地址:

GitHub:https://github.com/TMElyralab/MuseV

HuggingFace:https://huggingface.co/TMElyralab/MuseV

从GitHub描述来看,MuseV是2023年3月份基于Diffusion世界模拟器的构想(听着有点熟悉?)启动的,去年年中模型达到里程碑效果,现在因为Sora的发布决定开源。

说个题外话,去年他们还悄悄发布了AI虚拟人陪伴产品“未伴”做落地尝试,LitGate在抱着好奇心去试用后发现,和同类产品星野、筑梦岛等相比,它最大的优势其实是恋与深空的付费功能之一:免费上线了虚拟人实时语音对话和视频通话。

(并非抓取特定关键词回复,是电话形式的真·实时对话,沉浸感拉满)

这次开源的MuseV瞄准了视频生成这一领域,官方公布的成品在一致性和口型生成方面都有相当不错的表现,生成的虚拟人视频非常丝滑:

1711611947686186.png

当然,具体表现还是要试试才知道,LitGate立刻全速对MuseV进行了测评,看看它是否真的像宣传上说的那样靠谱优秀。

Part 1 一致性

由于发布时间比较突然,LitGate先采用了Gen2和Pika这两款线上产品作为对比,后续会补上在工作流内与SVD、AnimateDiff等其他开源模型的测试。

根据官方的描述,MuseV在微动的虚拟人视频制作方面有突出的优势,那就用一张图看看它生成视频的效果:

(从左到右依次为MuseV、Gen-2、Pika)

可以看得出,在人物动作常规+背景不太复杂的情况下,MuseV的画面一致性完胜,表情也很自然;Pika画面一致性尚可,但画面细节丢失很多,清晰度感人,表情相对来说也没有那么自然;至于Gen-2……为什么脸都变了呢(费解)

接下来是乐器弹奏的动作试验:

(从左到右依次为MuseV、Gen-2、Pika)

MuseV画面保持不错,细微动作没有硬伤(手部动作明显优于其他两个),Gen2帮人整了容,Pika模糊问题严重,还一直执着于蜜汁运镜……

不过LitGate也发现,MuseV在画面主体有大动作的情况下表现稍差一些,但有些图片的背景也能实现比较自然的运动,而且和主体融合的效果也没有大问题,官方的示例视频中也有体现。

尝试了一下写实风格的图片和二次元平涂风格图片,视频效果也比较稳定:

(真人图片效果比二次元自然很多,主要真人头发效果确实还蛮让人吃惊的)

Part 2 无限视频时长

这次的测评中,还有一个很重要的亮点。

在过去的AI生成视频模型中,大家生成的视频长度都普遍不长,稍微长一些的能够延长到3-5秒左右。

但是根据官方说明,天琴实验室设计了一种叫Parallel Denoising的新算法,所生成的微动虚拟人视频时长理论上可以达到无限长!

测试环境下,好像确实可以生成蛮长的视频……

(示例视频大约10s,实际效果可以再延长)

这下想多大杯就多大杯,再也不用想方设法拼接短视频还要保持稳定性了。

Part 3 自定义动作生成

让图片跳舞这个事儿,通义千问之前已经小火了一把了,MuseV也支持放入传统工作流通过Openpose来控制动作生成,LitGate先来看一下官方效果:

在真实风格上MuseV的表现还是可圈可点的,动作比较流畅而且没有硬伤。由于MuseV是直接开源的,所以可以融入工作流内进行动作调试,比只能用现有模板的通义千问自由很多。

时间关系LitGate只选了个几个简单的动作进行测试,来看看生成结果:

目前来看,MuseV是基于pose生成图片首帧的,效果不错。但对于任意输入图片的情况,还有待posealign模块进一步开源。

Part 4 口型驱动

口型生成一向是虚拟人视频的重点之一,开源页面有提到口型生成技术MuseTalk将于不久后开源,暂时先看下官方成品的效果吧:

目前看起来效果还是相当自然准确的,对比HeyGen和Pika有一定优势,等开源了LitGate再来详细测评。(从MuseV开源的实诚风格来看,应该不会像隔壁某厂……)

Part 5 通用场景视频生成

需要注意的是,虽然MuseV的主要数据集来自于人像,但它在场景上的表现也不错(还记得刚刚视频中的背景也会动吗?)

(从左到右依次为MuseV、Gen-2、Pika)

MuseV的一致性最高,海浪的运动细节也没有硬伤,唯一的问题就是前景的花基本没怎么动;Pika出现了模糊问题,运动有点怪怪的并且依旧执着运镜;Gen2运动非常自然,但是出现了熟悉的画风问题,可以说看视频知Gen2,味儿很冲……

当然,如果用户有更加个性化的需求也可以通过拓展数据集来实现,反正都开源了,在工作流内进行拓展以及后续的数据集补充训练也不是问题。

Part 6 视频生成速度

顺便一提,在部署到本地环境测试后LitGate发现,MuseV的视频生成速度对比其他模型是有速度优势的,生成10s视频的速度,对比其他模型生成4s左右的视频速度要快。

具体看了一下,步数仅需要10步,而别的视频生成大部分都需要30步,50步,这一点有待天琴实验室放出论文后才能具体了解有没有针对性的优化。

另外LitGate留意到,天琴实验室的HuggingFace上有大量的大模型加速开源工作,后续也可以期待天琴实验室在MuseV上的加速。

评测结语

MuseV这次的开源确实给LitGate带来了不小的震撼,测试中图生视频的稳定度表现超出了LitGate刚开始的预期。

尤其是虚拟人微动长视频和口型生成部分有很大的优势,可以说是目前开源模型中最好用的一批。

AI图生视频的效果方面,常常会受到数据集等多种因素的影响,天琴实验室也表明开源只是一个开始,后续他们会朝着Sora的路线继续追赶,也希望更多团队能够参与到社区的开源共建中,给AI更多学习和进步的空间。

还记得在23年年底LitGate推出的AI产品总结中,视频板块的发展尚不尽如人意,但今年从Sora到SVD,再到如今MuseV对虚拟人细分领域长视频的突破,一切都似乎处在前所未有的飞快发展中。

2024年还未过三分之一已经全是王炸,期待今年的视频生成领域能给LitGate更多的惊喜。

AI视频什么的,今年真的是卷起来了啊!

 

标签:

猜你喜欢

数字技术加码,海信助力西海岸科技馆打造智慧科技馆标杆
突发林火处置到防火新常态,辰安科技做对了这几点!
网易天成集结多方力量,发起“我在街角有个它”流浪动物公益行动
网易云音乐黑胶VIP会员正式升级,车载、电视、手表等智能设备通享会员权益
钉钉发布新能源行业全球协同解决方案,携手头部企业共话数字化实践
休闲游戏乘风出海会当时,Meta AI解决方案如何助力?
网络代际升级,华为以品智联接携手伙伴跃升新质生产力,共创新增长
杨元庆受聘工商联咨询委员 这个信号不一般
华微电子获SGS AEC-Q101车规级认证,足见产品可靠性
哪里回收京东e卡价格最高?
华为旗舰户用储能解决方案,迈向零碳生活新时代
拥抱智能办公,告别传统束缚!科大讯飞办公本X3带你开启新篇章
钉钉 AI 震撼升级:加入多模态、工作流等能力
VMware替代超强干货!一文解读深信服全栈基础设施方案
品胜P1新品耳机 美团独家首发|以百元价格挑战千元音质!
OPPO Watch X推送更新:安卓首个可独立登录的微信手表版上线
解锁超凡生成式 AI 能力:TensorRT 加速 RTX PC 和工作站上的 AI
聚焦中国国际音频产业大会:腾讯音乐与产业伙伴共探AI赋能新答案
视客眼镜与华为云达成全面合作,共见清晰数字未来
聚焦新质生产力,万家乐多维布局推进高质量发展
海外业务运营 别让资金支出管控成为开疆拓土的“绊脚石”
同有科技全新一代自主可控全闪分布式存储震撼发布
《蛋仔派对》设立蛋仔守护月,多种活动保护未成年人健康成长
特易资讯GT6.0自定义工作台可个性定制 成获取客户新利器
以技术创新加持,Soul张璐团队加速AIGC在社交领域的深度融合
特易资讯外贸资讯宝GT6.0:真实展示见全景,助力外贸市场正向拓展
数字政府市场不断扩容,新IT彰显赋能价值
已支持超1万家企业云上创新,阿里云创业者计划未来将投入更大资源支持AI应用创业者
加码求职安全守护 智联招聘联合北京反诈中心共筑安全防线
来QQ短视频,和红山动物园一起为动物保护理念焕发新活力