出门问问推出新一代照片数字人引擎WetaAvatar 4.0-Talking Photo

2024-04-28 10:48:45     来源:

随着AIGC时代的到来,数字人生成技术正逐渐成为焦点。出门问问自主研发的照片数字人引擎,凭借持续的技术创新,让用户仅需一张照片就能快速生成可以说话、讲故事的动态视频。目前,这一引擎已成功应用于国内产品「奇妙元」以及国际产品「DupDub」。

 

 

出门问问不断迭代照片数字人引擎

图片10.png

自2023年推出WetaAvatar 3.0数字人系统及其照片数字人引擎以来,出门问问凭借其易用性和生动的生成效果,迅速赢得了用户的青睐,进行了形式丰富的内容创作。为了进一步提升用户体验,我们推出了最新一代的照片数字人引擎——WetaAvatar 4.0-Talking Photo。这一版本不仅优化了视频生成的清晰度和真实感,还显著加快了合成过程。同时,我们也在积极开发照片数字人实时对话引擎,不断推动技术创新的边界。

在新一代照片数字人引擎WetaAvatar 4.0-Talking Photo中,用户可以体验到以下优化:

合成速度翻倍:合成速度显著提升,大幅缩短等待时间。

背景渲染优化:视频背景渲染精准,与原图色彩无缝匹配。

人物背景分离增强:确保人物与背景之间的高度解耦,提升视频质量。

牙齿与嘴型精准复现:细节处理更出色,确保牙齿和嘴型的真实性和自然性。

 

 

大模型赋能 自然语音输出

图片11.png

用户仅需提供文本内容,便可借助出门问问的MeetVoice Pro语音大模型,生成自然流畅的语音输出。之后,结合我们的数字人系统,这些语音将被转化为精确同步的嘴形动作和自然的表情变化,创造出动作流畅、表现力丰富的数字人视频,为用户提供一种全新的互动体验和内容创作方式。

图片12.png

 

 

两大技术模块 促成高质量效果

图片13.png

WetaAvatar 4.0-Talking Photo是一个高效的双模块引擎,专为生成逼真的照片数字人视频而设计,包含两个核心组件:运动预测模块和人脸驱动模块运动预测模块: 此模块利用先进的语音分析技术,从输入的语音中提取关键参数,这些参数随后用于精确生成与之匹配的嘴型动画。这个过程涉及到复杂的算法,能够确保嘴型与语音的节奏和强度完美同步,从而创造出自然流畅的说话效果。人脸驱动模块:此模块则进一步增强了视频的真实感。它结合了预先生成的驱动视频和用户输入的静态图片,通过算法生成一个全面的运动场。这个运动场不仅包含了嘴型变化,还能够模拟出丰富的面部表情和微妙的肌肉运动。随后,这个运动场可以用来驱动输入图片,生成具有高度表现力和动态变化的数字人视频。基于以上两个模块,在新一代Talking Photo引擎中,不论是人物正脸或侧脸驱动,其表现均优于前代,技术指标Sync-C的数值普遍高于WetaAvatar 3.0-Talking Photo引擎。

Sync-C (SyncNet Confidence):使用预训练的衡量音画同步性的模型 SyncNet 计算的音画同步置信度。相同的驱动音频和驱动视频,数值越高越好。

 

 

更多创作形式 尽在探索

目前,「奇妙元」平台已经搭载WetaAvatar 4.0-Talking Photo引擎,用户能够释放创意潜力,将风格各异的人物照片驱动,生成高质量的动态视频,实现人物自然地说话、讲述,甚至唱歌的视频效果。

「奇妙元」支持对皮克斯风格照片进行人物驱动,效果与真实人物几乎无异。

如照片中的人物有胡子等面部遮挡物,「奇妙元」依然能够精准捕捉面部特征,保证图像生成的准确性。

对于年代久远的老照片,「奇妙元」能够进行精准上色和高清渲染处理,进而驱动照片中的人物,让这些珍贵的记忆焕发出新的活力。

展望未来

出门问问技术团队致力于推动数字人技术的发展,目前正专注于基于WetaAvatar 4.0-Talking Photo的实时照片对话引擎的研发工作,预计不久将投入使用。我们不仅注重技术的创新,更着眼于提升用户体验,旨在通过生成更真实的表情和丰富的动作,打造出具有高度情感表现力的照片数字人。随着大模型时代的到来,出门问问数字人团队也将持续深入探索基于大模型的数字人生成技术,以Sora模型的问世为里程碑,期待在大模型的加持下,创造出更加生动、真实的数字人,为用户提供更加丰富和深入的交互体验。

 

标签:

猜你喜欢

上海九院进修种植专家——赵珍院长,让缺牙患者重拾口福
行业首创全景安全体系 赛力斯魔方平台为用户带来全面守护
华为新品闪耀贵州,新品推介会共绘行业感知与数据存储新篇章
“H”起来 聚“E”起——2024贵州HCIE沙龙活动在贵阳举办
华为智能光伏工商业150K逆变器新品推介会,助力广东低碳发展
杜绝大额充值与网络诈骗,《蛋仔派对》努力守护未成年人安全
仁芯科技携手索尼半导体发布“17MP摄像头传输方案及智驾5V超级视觉解决方
聚焦北京车展,六分科技携车端4合1高精度定位解决方案重磅亮相
海创汇:“创 • 在青岛”青岛市创业城市合伙人创业训练营正式启动
天工展翅 跃见非凡丨新迪数字2024新品发布会圆满召开!
周鸿祎联合懂车帝拍卖迈巴赫:溢价部分将全部捐赠
快手电商与河南邮政达成合作 推出专属物流保障扶持优质产业带商家
日均拦截1.1亿次非法攻击,番茄小说上线千余条策略打击盗版
日均拦截1.1亿次非法攻击,番茄小说上线千余条策略打击盗版
首届全国数字中医现场推进会,余艳红、张伯礼点赞浙江省“中医处方一件事”
首届全国数字中医现场推进会,余艳红、张伯礼点赞浙江省“中医处方一件事”
“数智广电,光赢未来”广电F5G-A创新发展峰会在京举行
探寻电商新机遇,企业快成长电商与数字人创新论坛•深圳站圆满收官
华宝新能:2024年一季度营收净利润双增长,展现强劲复苏势头
天水如何成为“顶流” 短视频40天吸引近300万人次赴当地消费
敢于拼假的人先享受“五一”,带上墨迹天气去游山玩水
CESC2024第二届中国国际储能大会暨智慧储能技术及应用展览会成果丰硕
十方融海AI+教育结硕果,擦亮华工“三创型”人才金字招牌
五一小长假,猫主子自己在家怎么办?3I智能猫砂舱为你解决后顾之忧
沙特政府发布《万兆社会白皮书》,加速迈向 5G-A 时代,谋求更大影响力
李未可科技推出AI眼镜,开启超拟人AI语音交互体验新时代
从GUI到ChatUI:快递100将打造快递物流行业首个鸿蒙原生商业化应用
北京市昌平区科协领导一行赴羽乐科技走访调研
原生全液冷!大解耦!还通用?厉害炸了
数智创新 向“新”而行 | 思特奇亮相第三十届中国国际广播电视信息网络展览会