AAAI 2025|一张图片让你变身童话角色!美图&国科大提出人脸风格化新方法StyO

2025-02-17 17:06:14     来源:

基于单张参考图的人脸风格化一直是图像领域的热门方向,皆在生成特定风格的个性化肖像,其被广泛应用于社交媒体、影视、营销等泛娱乐场景中。实现高可控性、ID相似度及风格程度的人脸风格化,对提高观感与趣味性、营造氛围感十分重要,但现有方法在平衡几何变化与面部、头发颜色、姿态等图像细粒度细节方面,仍然存在一定困难。

日前,美图影像研究院(MT Lab)联合中国科学院大学突破性地提出了基于扩散模型的单张图像人脸风格化新方法StyO,用于生成指定风格的人脸图像,尽可能保持原人脸图像内容和姿态,已被人工智能顶会AAAI2025接收。

1739781962391213.png

论文链接:https://arxiv.org/abs/2303.03231

StyO:基于单张风格图像生成高质量艺术肖像

StyO采用了解耦与重组的策略,并引入了两个创新模块:标识符解耦学习器(Identifier Disentanglement Learner, IDL)和细粒度内容控制器(Fine-grained Content Controller, FCC)。其中,IDL的目标是将图像的风格属性和内容属性解耦为独立的标识符,而FCC则将这些标识符重新组合,以构建描述风格化人脸的提示语。

1739781969684632.png

图1:StyO的简略示意图

具体而言,IDL 定义了一种对比解耦提示模板,将内容和风格标识符以文本描述的形式用于输入图像。此外,引入了一种仅包含源风格和目标风格标识符的辅助提示模板,用于描述具有与源图像相同风格的辅助图像集。这种设计有助于确保风格和内容标识符能够正确表示图像的对应属性,同时也避免了将风格或内容信息与提示中的其他无关词语关联。基于上述定义的提示,StyO构建了文本-图像对以微调预训练的Stable Diffusion,从而将图像属性注入标识符中,实现了解耦目标。

FCC 的目标则是通过重新组合IDL提取的风格和内容标识符来生成风格化的人脸图像,但仅依赖重构提示会导致源图像细粒度细节的丢失,例如头部姿态、头发颜色、胡须样式等。为了解决这一问题,FCC 提出了一种基于注意力图的新操作机制以提升可控性。受到跨注意力层生成的注意力图与提示文本语义相关性的启发,FCC 提取了源图像的注意力图,并用其替换对应风格化图像的注意力图,从而有效控制生成结果的细粒度细节。此外,FCC 提出了通过重复标识符来增强提示的策略,这种简单的增强策略进一步提升了生成质量。

1739781975729402.png

图2:StyO的训练和推理流程

实验结果

大量的实验表明,基于单张图像的人脸风格化方法——StyO,在公开数据集上优于先前的工作,并且消融实验也验证了StyO所设计模块的有效性。

1739781980472154.png

图3:与基线方法的可视化对比

1739781986352330.png

图4:消融实验

1739781991632314.png

图5:消融实验

1739781996324931.png

图6:消融实验

美图以影像科技助力生产力

本研究提出了一种基于单张参考图的人脸风格化方法StyO,该方法首先将源图像和目标图像的内容和风格解耦为标识符,再以交叉方式重新组合这些标识符以生成风格化的人脸图像。通过这种方式,StyO将复杂图像分解为独立且具体的属性,并将人脸风格化简化为输入图像中不同属性的组合,从而生成更符合风格的图像面部几何结构和源图像内容的结果。

该研究为视觉艺术创作带来了新启发。也为社交媒体、影视、营销等泛娱乐场景的应用提供助力。作为论文作者之一,美图影像研究院(MT Lab)基于生成式AI技术,先后推出AI绘画、AI动漫、AI动图、脑洞特效等多款趣味玩法功能表现不俗,吸引了海内外广泛关注,随着生成式AI在口播视频、电商设计、设计服务、游戏营销、商业摄影等影像与设计领域的进一步深入应用,也将为用户与行业带来更多创新服务和优质内容创作体验。

 

标签:

猜你喜欢

DeepSeek正式入驻《逆水寒》手游,网易伏羲提供技术支持
抖音电商带动素人经济崛起,专家:电商达人通过短视频、直播平台踏上“技能变现”进阶之路
龙环汇丰正式接入DeepSeek大模型,开启金融科技智能化新篇章
钉钉Agoal上新组织绩效模块,攻克企业战略评价难题
OPPO Watch将带来破解无感高血压难题的最新技术
大单!400MW,上海海底数据中心项目对外发布采购工程总包意向
一汽丰田携手腾讯云接入DeepSeek 率先应用于智能客服等业务场景
国补火热进行时,顺丰一站式配送引领线上消费升级
时空壶 W4Pro 同传耳机:颠覆传统翻译机体验,开启智能沟通新时代
腾讯地图正式接入满血版DeepSeek-R1,开启全新AI地图体验
白酒与文化的碰撞太上头!洋河梦之蓝跨界封神影视IP,在抖音赢得品效销爆发
新壹科技:AI+传媒缔造新质生产力 助力提升媒体效能
张家口维多利亚隆鼻效果怎么样?隆鼻就到维多利亚
AI界“魔童”闹海:貌美AI携手DeepSeek重塑医美行业新生态
亨通光电:引领全球能源绿色转型,迈向高质量可持续发展
DeepSeek-R1 网页端稳定性测评:天工AI位居总榜第二
网络安全先锋Hello语音:获誉“网络信息安全支撑单位”,力击黑灰产
DeepSeek赋能,卓世科技教育科研大模型一体机开启未来教育新范式
赋能绿色屋顶 | 正泰新能助力多个巴基斯坦旁遮普地区屋顶光伏顺利并网
蜂享家CEO暮雨:告别流量红利,以价值导向破局存量时代
听力熊AI虚拟伙伴“哪吒”单日对话量突破28亿token,领跑青少年AI交互新纪元
全新Denon DCD-3000NE CD 播放器:开启音质新篇章
2024星野年度精神报告剖析:原来玩星野AI的人都这么有想象力
擎朗医疗接入DeepSeek满血版:让AI更懂行业,开启医疗数智化新篇章!
“健康守望,携手前行”——轻松筹携手乐问医学共筑肿瘤患者帮扶防线
浪涌未来泳池机器人亮相“人工智能+”创新发展大会 展现庭院机器人赛道硬实力
开门红观世界,云畅享蛇年盛典正大开启!
来京东先人一步预约OPPO Find N5 1元锁定腾讯视频会员季卡
杭州科技七小龙WiseDiag-Z1发布,医学领域性能测试全球第一
DeepSeek加持!咪鼠科技&泰凌微联手实现智能办公快人一步!