檀健次虚拟形象流畅度与准确度的背后,是腾讯音乐天琴实验室深耕已久的动作驱动图片数字人技术。自2024年起,天琴实验室已陆续发布并开源MuseV、MuseTalk、MusePose等虚拟人生成框架,推动虚拟人生成技术的发展。2025年,随着与腾讯混元、腾讯广告妙思团队以及优图实验室的共同合作优化,基于HunyuanVideo底座优化的动作数字人效果获得突破并实现应用落地。
近日,腾讯音乐更与腾讯混元共同发布并开源了数字人模型HunyuanVideo-Avatar,该模型带来多个技术创新,包括其角色图像注入模块,基于多模态扩散Transformer(MM-DiT)架构,确保角色一致性与视频动态性;其音频情感模块会从音频和参考图像提取情感信息,生成细腻的表情和动作;面部感知音频适配器,通过人脸掩码技术隔离角色音频,实现多人场景的精准驱动。该技术已逐步应用于腾讯音乐长音频绘本及唱歌MV等多场景。