助力AIGC绘图!网易互娱AI Lab图像生成论文被AI顶级会议接收

2023-08-07 15:06:32     来源:

ICCV(International Conference on Computer Vision),即计算机视觉国际大会,是计算机视觉领域世界顶级的学术会议,在国际上享有盛誉并具有广泛的学术影响力。近日,网易互娱AI Lab的一篇关于图像生成的学术论文被 ICCV 2023接收。该论文面向基于单张图像的图像编辑任务,给单张参考图像,即可把图中的物体或风格迁移至源图像,同时不改变源图像的整体结构。

image.png

论文标题:General Image-to-Image Translation with One-Shot Image Guidance

image.png

论文效果图:每组图片左上角是源图,左下角是参考图,右侧是生成结果图

论文概述

近年来,图像生成技术取得了很多关键性突破。特别是自从DALLE2、Stable Diffusion等大模型发布以来,文本生成图像技术逐渐成熟,高质量的图像生成有了广阔的实用场景。然而,对于已有图片的细化编辑依旧是一个难题。一方面,由于文本描述的局限性,现有的高质量文生图模型,只能利用文本对图片进行描述性的编辑,而对于某些具体效果,文本是难以描述的;另一方面,在实际应用场景中,图像细化编辑任务往往只有少量的参考图片,这让很多需要大量数据进行训练的方案,在少量数据,特别是只有一张参考图像的情况下,难以发挥作用。

为了解决现有问题,网易互娱AI Lab提出了一种通用的基于单样本图像引导的图像编辑技术——VCT(visual concept translator,视觉概念转换器)。给定一张源图像,VCT可以在只有一张参考图像的情况下,经过少量的优化步骤,即可将源图像的内容变成参考图像的风格或物体,同时不改变源图像的整体结构。

image.png

论文主体框架

基于一个预训练的文生图模型,VCT 的整体框架包括两个过程:内容-概念反演过程(Content-concept Inversion)和内容-概念融合过程(Content-concept Fusion)。其中,内容-概念反演过程通过两种不同的反演算法,分别学习和表示原图像的结构信息和参考图像的语义信息的隐向量;内容-概念融合过程则将结构信息和语义信息的隐向量进行融合,生成最后的结果。

VCT相较于以往的方案有以下优势:

(1)应用泛化性:与以往的基于图像引导的图像编辑任务相比,VCT不需要大量的数据进行训练,且生成质量和泛化性更好。其基于反演的思路,以在开放世界数据预训练好的高质量文生图模型为基础,实际应用时,只需要一张输入图和一张参考图就可以完成较好的图片编辑效果。

(2)视觉准确性:相较于近期文字编辑图像的方案,VCT利用图片进行参考引导。 图片参考相比于文字描述,可以更加准确地实现对图片的编辑。下图展示了在风格化任务上,与其它方案的对比结果:

image.png

效果对比1:第一列是参考图,第二列是源图,最后一列是本文的结果

(3)不需要额外信息:相较于近期的一些需要添加额外控制信息(如:遮罩图或深度图)等方案来进行引导控制的方案,VCT直接从源图像和参考图像学习结构信息和语义信息来进行融合生成,下图是一些对比结果。其中,Paint-by-example通过提供一个源图像的遮罩图,来将对应的物体换成参考图的物体;Controlnet通过线稿图、深度图等控制生成的结果;而VCT则直接从源图像和参考图像,学习结构信息和内容信息融合成目标图像,不需要额外的限制。

image.png

网易互娱AI Lab

网易互娱AI Lab成立于2017年,隶属于网易互动娱乐事业群,是游戏行业领先的人工智能实验室。实验室致力于计算机视觉、语音和自然语言处理,以及强化学习等技术在游戏场景下的的研究和应用,旨在通过AI技术助力互娱旗下热门游戏及产品的技术升级,目前技术已应用于网易互娱旗下多款热门游戏,如《梦幻西游》、《哈利波特:魔法觉醒》、《阴阳师》、《大话西游》等等。

 

标签:

猜你喜欢

欢迎光临我的家,小红书与卡萨帝联合掀起夏日软风狂潮
全民近视怎么办?Bioagen博奥真明目维,专利成分助力眼睛深度养护
行业透视——AEKE轻力量多维价值赋能居家运动
定档8月8日!易宝支付20周年庆暨数字化战略发布即将开启
核苷酸在奶粉里的作用有哪些?护航宝宝健康成长为佳贝艾特悦白羊奶粉点赞
【赋能电信智慧运营】可视化精准营销,思特奇探索5G时代智慧营销新模式
“抖in清凉季”洞察夏日新需求,趋势好物共赴生意旺季
全方位赋能业务!2023中国优秀企业人才培养实践高峰论坛深圳站圆满收官!
总奖金1550万元!首届“苏颂杯”未来产业技术创新赛正式启动!
华为开发者大会2023丨中软国际携手深开鸿加速推动开鸿智联新产品、新场景、新突破
共建鸿蒙生态 中软国际与深开鸿共创开鸿智联新突破
双屏切换智能体验,ThinkBook Plus Twist售价11999元
走进“五个女博士”,溯源胶原蛋白肽产品的品质之道
《葛大爷宝宝巴士:战至巅峰篇》即将来袭,Gemini带领明星队员开启番外对决!
叮当健康亮相中国(北京)国际视听大会,叮当HealthGPT受关注
探索发行新玩法,37手游参加HDC2023华为开发者大会
助力企业“福利影响力”跃升!丰享福荣获CFS财经峰会“2023(行业)影响力品牌奖”
共创数字化办公新方案 | 北汽研究总院数字化研究院(蓝谷信息)与锐捷网络深化业务合作
通过首批金融级行业云平台认证,天翼云助力金融行业数字化转型
余上鸥助力三农发展—九龙坡区政府领导赴全域数字营销产业基地考察调研
全屋智能家居系统哪个牌子好 这是一款五星级酒店选择的智能品牌
共创数字化办公新方案 | 北汽研究总院数字化研究院(蓝谷信息)与锐捷网络深化业务合作
首次代言声学品牌!Cleer品牌凭啥被这位实力艺人偏爱?
深信服与速石科技签署战略合作协议,高性能存储助推中国“芯”发展
精准定位中国市场,理光RICOH M C2501 A3彩色数码复合机共创行业新价值
精准定位中国市场,理光RICOH M C2501 A3彩色数码复合机共创行业新价值
定档11月,大朗“织交会”新闻发布会在京举行
大咖云集,首届平台工程技术峰会定档9月北京,亮点抢先看!
内蒙古国大药房携手ToDesk,推动数百家门店全方位数字化远程运维
一年卖了1.12亿根自营烤肠,东方甄选变身成产品公司?