复旦大学与百度联合发布可控人脸视频生成模型

复旦大学与百度合作发布了名为"Hallo"的人脸视频生成模型，并在公开的学术论文"Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation"中对该模型进行了详细阐述。这一模型是首个基于扩散技术实现端到端生成高度逼真人脸视频的开源项目。用户只需提供一段音频和所选人像，即可轻松制作出具有极高真实感的人脸视频。这一技术的推出代表着数字人相关的视频生成领域的重要进展。

项目主页：https://fudan-generative-vision.github.io/hallo/

论文链接：https://arxiv.org/abs/2406.08801

GitHub链接：https://github.com/fudan-generative-vision/hall

端到端人脸视频生成方案

在过去的技术发展过程中，由于缺乏有效的声音到视频生成方案，人脸视频合成通常需要依赖参数化模型作为中间媒介。腾讯、蚂蚁金服、微软等公司推出的Sadtalker、AniPortrait、GAIA等技术方法便是这一路径的典型代表。然而，这些方法常常受制于参数化模型在表情和动作表达能力上的限制，以及声音与动作之间的弱相关性，导致生成的视频在真实感和连贯性方面存在不足。最近，一些端到端的人脸视频生成方案逐渐出现，避免了中间表示形式的局限性。这些方案利用扩散模型强大的生成能力，可以直接生成高度逼真、高度连贯的视频。然而，这类方案中的音频和视觉特征通常通过全局交叉注意力模块进行直接交互，缺乏对唇部和动作的精细约束，导致生成视频的口型精度不如依赖参数化模型的解决方案，且动作生成能力较差，需要额外输入动作进行驱动。此次，复旦与百度推出的直接从声音驱动生成视频的端到端模型，无需复杂的参数化中间表示和额外的动作输入，即可生成口型、表情、动作极其自然丰富的人脸视频。这一创新依赖于以下几个关键方面：

　1.分层音画特征融合

在音画交叉注意力过程中，由于人脸的嘴唇、面部表情、人头姿势对语音的运动响应方式并不相同，Hallo的研究人员采用了分层交叉注意力操作，针对不同区域分别提取掩码特征。通过他们提出的辅助交叉注意力模块与音频特征融合，从而学习到不同区域的运动特征。具体来说，研究人员使用了嘴唇、面部和头部的掩码(如下图左图所示)，让音频分别对口型、表情和姿势进行引导生成。随后，通过一个自适应机制将这三个部分融合在一起，无需额外参数化表示和动作驱动，即可直接生成表情和动作自然生动的人脸动画视频。经过对注意力图的分析，研究人员发现，音频特征与不同区域视觉特征分别交互，显著提高了注意力模块对面部信息的捕捉能力。模型的注意力可视化效果也呈现出更加聚焦于面部区域的特点，从而能够显著提升口型、表情和动作的真实度。这一方法的整体精度超越了其他现有方法。

2.不同人脸特征的控制能力

在Hallo系统中的分层音频-视觉注意力机制具有将音频特征与图像的不同区域进行融合对齐的能力，从而提升口型、表情和姿势的精准度和自然度，并提供了全局运动的可控性。通过调整各区域的权重，可以实现对不同区域视频运动的精确控制。此外，Hallo采用专门的人脸编码模型来替代传统的图像-语义预训练模型(如CLIP)。人脸编码模型的主要目的是生成高度保真的肖像身份特征。与以往通过在大型图像和文本描述数据集上进行联合训练CLIP以获得通用视觉特征编码的方法不同，Hallo使用预先训练的人脸编码器来提取身份特征。这些特征与扩散网络的交叉注意力模块进行交互，生成与输入角色特征忠实一致的肖像动画。这一方法不仅确保了人脸特征提取的泛化能力，还准确地保留和展现了个人身份特征，例如面部表情、年龄和性别。

3.大规模数字人视频数据集

在训练中，Hallo系统利用了大量高质量的数字人视频数据。尽管互联网上存在大量的数字人视频数据，但这些数据质量参差不齐，存在诸如音画不匹配、背景杂音、视频抖动等各种问题的数据噪声。为了解决这一问题，研发团队构建了一套自动化数字人视频清洗引擎。截至目前，这一引擎已成功清洗了数千小时的高质量数字人视频，涵盖了上万个信息脱敏的数字人肖像。这项工作使得大规模数据训练数字人视频生成模型成为可能。

Hallo实践效果

高质量人脸动画生成：在真人数据集上，Hallo展示出了高度一致的口型，并能够体现出音频的丰富细节，如情绪和讲话节奏。

多类型人像风格支持：尽管Hallo仅在真人视频数据集上进行训练，但表现出了极强的泛化性，包括卡通、素描、雕塑等各类风格，这得益于原始扩散模型在超大规模图像数据集上的训练。

　全局运动可控性：Hallo的另一个重要特点是全局可控性。相较于以往方法中需要借助参数化模型控制人脸运动强度，Hallo利用分层面部特征注意力机制，通过调整三个区域的权重系数，能针对性地控制口型、表情和动作的运动强度，从而大幅提升人脸动画生成的可控性。

影视制作的潜在应用：除此之外，Hallo展示了在影视制作领域的巨大潜力。通过仅有一段电影对白和一个虚拟角色，可以让虚拟角色生动演绎经典电影场景。

应用前景

Hallo的发布为多个行业带来了广泛的应用前景。在娱乐产业方面，AI驱动的角色动画技术具有广泛的应用潜力，可在电影、电视剧和短视频制作中发挥重要作用。通过运用这项技术，制作团队可以提高制作效率，实现更高质量的动画效果，并最终实现成本的降低。这种技术的运用将为娱乐产业带来更多的创意空间和商业机会。此外，在游戏和虚拟现实领域，AI生成的角色动画为用户提供更加沉浸式的体验。通过引入AI角色，游戏和虚拟现实应用可以呈现更生动、真实的虚拟世界，增强用户的沉浸感和参与感。这将为游戏产业和虚拟现实技术带来新的发展机遇，推动这些领域的创新和进步。

在教育领域，AI数字人对于弱势人群的教学具有极其重要的意义。通过整合AI角色到教学视频和活动中，可以为这一群体设计更具包容性和可访问性的教学方法。AI数字人能通过多感官交互—如视觉、听觉和触觉—增加学习的直观性和互动性。这不仅能够吸引学生的注意力，还能够帮助他们更好地理解抽象概念和复杂信息，从而提高学习的有效性。此外，AI数字人可以模拟悉心的教师角色，提供持续的鼓励和支持，帮助学生在遇到挑战时保持积极和自信。通过这种方式，高质量AI数字人的应用不仅能够提供更符合弱势人群需求的教育内容，还能够帮助他们提高社交技能和生活自理能力，从而更好地融入社会，提高生活质量。这种教育方式的推广和应用，有望为弱势群体打开新的学习大门，为他们带来更多的学习机会和社会参与可能。

未来展望

随着人工智能图形计算(AIGC)技术的飞速进步，AI驱动的角色动画将展现更加逼真自然的表现。未来，复旦和百度的研究团队将持续优化模型性能，提升动画生成质量，并扩展更广泛的应用领域。通过与社区紧密合作和开源共享，Hallo有望在多个产业领域发挥作用，为国家人工智能技术的发展和推广贡献力量。

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

标签：

猜你喜欢

美克美家携手扬帆计划公益再起航，共续美育新华章

北大等5校学生助力公益内容创作与传播，获50万网友点赞

驾考刷题用百度搜索，助你轻松「拿本儿」

Soul 开设线上情绪疗愈专场，引导年轻人正确认识情绪

三大升级,第五届“先导杯”等待少年的你!

突破！中科通量基于64位高性能RISC-V CPU成功运行开放麒麟系统

行业第一！迁移科技在搬运上下料场景实现102%增长

吉猫临智能门锁：升级智能门锁，开启智慧生活，入户体验再升级

“幕僚智算”算力云：高性价比的智能算力服务，助您轻松驾驭AI创新

腾讯云王前：打造好用开放的融合创新体系，助力政企行业数字化升级

东古酱油携手央视综艺《此生要去的100个地方》，百大旅行地美景共赏

广州宏途荣获2024年广东省优秀软件产品奖

海量商机，先到先得，世包云助力包装企业走向世界

曙光存储即将发布重磅新品，6月25日见

e签宝电子签章助力深中政务服务融合，优化营商环境

【机器人动态】思岚科技发布全场景、灵巧型机器人底盘Apollo2.0

香港身份服务行业进入量化时代，银河集团荣登艾媒咨询2024年中国香港身份规划服务机构排名行业第一

抖音电商参与北京国际图书博览会，联动线上线下让更多新书好书被看见

绿维文旅：“十五五”规划前期研究已开始文化和旅游十五五系列规划六个必须

技术驱动高端化，追觅科技618销售额破20亿大关

《炽焰天穹》x《Angel Beats!》联动来袭！公测当日活动正式开启！

安可小助手，一款智能Ai检测产品，为您的内容安全护航

开启 AI 新纪元，全新 Surface Pro 与 Surface Laptop 现已正式上市

大咖云集！“专家浓度”最高的华为开发者大会要来了

华为钱包携手广发银行，绑定即领18元交通卡支付优惠券！

六分科技加入中国电信低空经济产业联盟，助推产业健康发展

惊艳现身！国家林业和草原局联合中央广播电视总台、腾讯发布全球首只“全真大熊猫”

突破！中科通量基于64位高性能RISC-V CPU成功运行开放麒麟系统

远光DAP入选2024广东软件风云榜行业应用软件产品TOP20

HDC 2024 丨华为云ROMA Connect邀您共览智能集成新篇章

热点图片

要闻

“新区新课堂”数字化转型研讨会成功开展
6月18日，新区新课堂数字化转型研讨会于成都市实验小学东部新区校区开展。成都市教科
申克服务丨校验转子的定期检测
很多客户为方便随时可以对购买的平衡机进行精度自查，在购买设备的同时，也会选择购买
2024腾讯广告“银领者”峰会落地北京，驱动兴趣教育市场加速增长
6月14日，2024腾讯广告银领者中老年教育行业峰会在京顺利举办，多家教企机构、多位教
懂车帝夏测将开始，比亚迪、问界、小米等20家车企讨论测试标准
6月18日，懂车帝App官方微博发布内容称，2024懂车帝夏测研讨会已于6月17日在北京召开
艾媒咨询发布2024年香港身份规划服务机构排名，银河集团行业第一地位确认！
自2022年底香港特区政府启动全球抢人才战略以来，香港身份规划服务行业呈现出几何增长
HDC 2024倒计时，华为云开天aPaaS 亮点剧透
6月21日-6月23日，华为开发者大会（HDC 2024）将在东莞松山湖举行，一场前沿技术与创
“移”起向新丨中国移动10086数智赋能，助力西部服务“加速跑”
上午好,我是智能语音客服小贝,我可以为您查话费、查流量、查已开业务,您请说。每当拨
直播回顾|个推OneID+用户运营，助力APP多端精细化运营增长
6月17日晚，个推2024数据驱动运营增长系列直播第一场圆满落幕。本期直播，个推数智运
数字中国行2024——华为亮相长春国际光电博览会
6月18日—20日，2024长春国际光电博览会在东北亚国际博览中心举办。华为携F5G智简全光
LuxTrust、契约锁联合发布跨境电子签解决方案
6月18日，欧洲领先的数字身份和电子签名厂商-LuxTrust、全球领先的数字化技术和服务的

复旦大学与百度联合发布可控人脸视频生成模型

相关阅读

猜你喜欢

热点图片

要闻