ConsiStory:无需训练的一致性文本到图像生成技术

随着大规模文本到图像(T2I)扩散模型的发展,用户可以更自由地通过文本指导图像生成过程。然而,要在不同的提示中保持同一主题的视觉一致性仍然是一个挑战。现有的方法通常需要对模型进行微调或预训练,以教授新词汇来描述特定用户提供的主题,这不仅耗时耗力,而且在生成图像与文本提示的对齐以及描绘多个主题时存在困难。本文提出了一种无需训练的方法ConsiStory,它通过共享预训练模型的内部激活来实现一致性主题生成,不涉及任何优化或预训练步骤。

Fig. 1展示了ConsiStory如何将一组包含重复主题的输入提示转换成一系列图像,这些图像保持相同的主题身份,并符合提供的文字描述。它还可以在多主题情况下保持一致的身份。
重要的是,ConsiStory不涉及任何优化或预训练

ConsiStory通过三个主要步骤实现生成图像之间的一致性:首先是通过主题驱动的共享注意力机制(SDSA)来共享跨图像的主题特定信息;其次是通过注意力丢弃机制和从非一致性采样步骤获取的查询特征混合策略来丰富布局多样性;最后是通过特征注入机制进一步细化结果,确保跨图像的相应区域(如左眼)的特征相似性得到增强。

方法

ConsiStory方法的第一步是引入一个主题驱动的自注意力机制(SDSA),目的是在生成图像批次中共享与主题相关的模型激活信息。这种方法通过扩展自注意力,使得一个图像中的查询(Query)能够关注到批次中其他图像的主题相关的键(Key)和值(Value)。

ConsiStory的架构概览,包括主题定位、受主题驱动的自注意力(Subject Driven Self-Attention, SDSA)和特征注入(Feature Injection)

架构概览(左图)

  • 研究者们在给定一组提示(prompts)的情况下,每一步生成过程中都会在每个生成的图像 中定位主题。
  • 利用到目前为止的每一步生成步骤中的交叉注意力图(cross-attention maps),来创建主题掩码()。
  • 然后,他们将 U-net 解码器中的标准自注意力层替换为主题驱动的自注意力层,这些层能够在批次中的主题实例之间共享信息。
  • 此外,为了额外的细化,他们还添加了特征注入(Feature Injection)。

主题驱动的自注意力(右图)

  • 自注意力层被扩展,使得生成图像 中的查询(Query)也能够访问批次中所有其他图像(​,其中)的键(Keys),这受到它们各自的主题掩码 的限制。
  • 为了丰富多样性,研究者们采取了以下两个策略:
    1. 通过丢弃(dropout)削弱 SDSA,这有助于减少不同图像间共享注意力的影响,从而增强布局的多样性。
    2. 将查询特征(Query features)与非一致性采样步骤中得到的香草查询特征(vanilla Query features)混合,从而产生新的查询特征

这种设计允许模型在生成图像时,不仅关注当前图像内的相关信息,还能够考虑到批次中其他图像的主题信息,从而促进主题在多图像中的一致性。同时,通过引入多样性增强策略,模型能够生成在保持主题一致性的同时,布局和风格上更为多样化的图像。

虽然SDSA能够恢复对提示的对齐并避免背景崩溃,但它可能导致图像布局之间过于相似。为了提高结果的多样性,提出了两种策略:一是结合非一致性采样步骤中获得的特征;二是通过注意力丢弃机制进一步削弱SDSA。使用香草查询特征(Vanilla Query Features)可以在不牺牲一致性的情况下增强姿势的变化。而自注意力丢弃(Self-Attention Dropout)则通过在每次去噪步骤中随机将一部分补丁设置为0,来削弱不同图像之间的注意力共享,从而促进更丰富的布局变化。

共享注意力机制显著提高了主题一致性,但可能在细微的视觉特征上存在挑战,这可能影响主题的身份。因此研究者提出了一种新颖的跨图像特征注入机制,目的是提高批次中不同图像对应区域(例如左眼)的特征相似性。首先,使用DIFT特征为图像对建立一个密集的对应图,然后根据这个图在图像之间注入特征。这个过程通过选择DIFT特征空间中余弦相似度最高的对应补丁来实现,然后将目标图像的自注意力输出层特征与其对应源补丁的特征混合。

特征注入机制,即如何在图像批次中混合特征以进一步细化主题的身份

额外的优化,可以通过指定生成图像的子集作为“锚定图像”来减少方法的计算复杂性。在SDSA步骤中,不是在所有生成图像之间共享键和值,而是只允许图像观察来自锚定图像的键和值。类似地,在特征注入中,只考虑锚定图像作为有效的特征源。这样不仅可以加快推理速度并减少VRAM需求,还可以通过限制扩展注意力的大小来提高大批量生成的质量。最重要的是,现在可以在新场景中重用相同的主题,通过创建一个新的批次,使用相同的提示和种子重新创建锚定图像,但非锚定提示已经改变。

基于个性化的方法在保持单个图像中多个主题的一致性方面,ConsiStory可以通过简单地合并主题掩码来实现多主题一致性生成。当主题在语义上不同时,它们之间的信息泄露不是问题。这是由于注意力softmax的指数形式,它作为一个门控,抑制了不相关主题之间的信息泄露。同样,在特征注入期间阈值化对应图也会产生防止信息泄露的门控效果。

实验

研究者确立了几个基线模型以进行比较。这些包括:(1) 未经调整的SDXL模型作为起点;(2) 基于优化的个性化方法,这些方法通过微调模型的部分结构来使模型学习描述新主题的词汇,例如文本反转(TI)和DreamBooth-LoRA(DB-LORA);(3) 基于编码器的方法,它们通过接受单个图像作为输入,然后为扩散模型提供条件码,如IP-Adapter、ELITE和E4T。除了ELITE之外,所有这些基线都是基于预训练的SDXL模型。对于ConsiStory,研究者采用了两个锚定图像并设置了0.5的丢弃率。

研究者通过定性比较展示了ConsiStory在保持主题一致性和遵循文本提示方面的卓越性能。如图4所示,ConsiStory能够在不同的初始噪声输入下生成多样化且一致的图像集合。相比之下,基于优化的个性化方法在训练图像上的拟合效果要么过强导致缺乏变化,要么不足导致无法维持一致性。IP-Adapter在匹配复杂提示时也显示出了困难,特别是当涉及到风格变化时。ConsiStory成功实现了主题的一致性和文本对齐。

ConsiStory方法与其他方法(如IP-Adapter、TI、DB-LoRA)的定性比较结果
在不同的初始噪声输入下,ConsiStory生成的一致图像集合
ConsiStory在生成多个一致主题方面的比较结果,与其他方法相比,ConsiStory能够更好地保持多个主题的一致性

研究者进一步使用自动化指标进行了定量评估。他们使用每个基线生成了100组图像,每组包含5张在不同提示下描绘同一主题的图像。评估用的提示是利用ChatGPT生成的,包括主题描述、场景描述和风格描述三个部分。研究者使用CLIP分数来衡量生成图像与条件提示之间的相似度,并使用DreamSim来评估图像间的相似性,特别关注了主题一致性。

主题一致性与文本相似性之间的对比,ConsiStory在这两个方面都达到了最优平衡

尽管ConsiStory是一种无需训练的方法,但通过大规模用户研究,研究者发现用户通常更偏好ConsiStory生成的图像,无论是在主题一致性还是文本对齐方面。用户研究采用了两种问题类型:(1) 主题一致性,用户需要选择展示同一主题特征的图像集合;(2) 文本对齐,用户需要选择最符合文本描述的图像。

用户研究结果。无论是在主题一致性还是文本相似性方面参与者普遍偏好ConsiStory生成的图像

研究者还对主要方法的运行时间进行了分析,重点是它们达到一致性主题的时间(TTCS)。ConsiStory实现了最快的TTCS结果,即在H100 GPU上生成两个锚定图像和基于新提示的图像仅需32秒,这一速度是现有最先进方法的25倍。

为了评估ConsiStory中不同组件的影响,研究者进行了消融研究,涉及SDSA步骤、特征注入(FI)、注意力丢弃和查询特征混合等组件。定性和定量结果表明,去除这些组件中的任何一个都会导致一致性降低。

组件消融研究的结果,包括移除SDSA、FI以及变化丰富策略后的影响

研究者还展示了ConsiStory与现有引导生成工具如ControlNet的兼容性,并演示了无需训练的个性化,即ConsiStory能够在没有任何调整或编码器使用的情况下实现个性化。

ConsiStory与ControlNet集成,用于生成具有姿势控制的一致性角色

图 11 展示了 ConsiStory 方法与 ControlNet 的集成能力。ControlNet 是一种用于引导图像生成的工具,它允许用户通过控制特定参数来影响生成图像的特定方面,例如姿势或布局。 

无需训练的个性化,ConsiStory使用编辑友好的逆转实现了无需调整或编码器使用的个性化

图 12 展示了 ConsiStory 方法的一个扩展应用——无需训练的个性化(Training-Free Personalization)。这项技术允许用户使用少量特定主题的图像来生成一致性高的新图像,而无需对模型进行额外的训练或调整。

ConsiStory通过其创新的架构和策略,在保持主题一致性和文本对齐方面展现出了卓越的性能,同时大幅提高了图像生成的速度,减少了对计算资源的需求。然而,这项技术也存在一些局限性。其一ConsiStory依赖于通过交叉注意力图准确定位图像中的主题,这在处理某些不寻常的风格或复杂场景时可能会遇到挑战。其次,该方法在分离主题的外观和风格方面仍有困难,这限制了它在多样化风格生成上的能力。尽管在减少模型偏见方面取得了进展,但SDXL模型本身的某些倾向可能仍然存在,这需要进一步的研究和改进。

ConsiStory方法的一些局限性,包括在处理同一图像集合中的不同风格时的挑战,以及对正确定位主题的依赖性
模型偏差问题。即底层SDXL模型可能对某些群体存在偏见,以及ConsiStory方法如何通过在提示中突出特定群体来减少这些偏见

论文链接:https://arxiv.org/abs/2402.03286 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/771548.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

arthas命令使用

dashboard(线程、内存等环境概览) jvm(JVM相关信息概览) 1、RUNTIME(系统运行环境JVM相关信息,运行时长等) 2、CLASS-LOADING(类加载信息) 3、 COMPILATION(编译信息) 4…

论文学习——基于类型检测的动态自适应多目标优化算法

论文题目:Dynamic adaptive multi-objective optimization algorithm based on type detection 基于类型检测的动态自适应多目标优化算法(Xingjuan Cai a,b, Linjie Wu a,∗, Tianhao Zhao a, Di Wu c, Wensheng Zhang d, Jinjun Chen e)Inf…

Spring启动时,将SpringContext设置到Util中(SpringContextUtil)

场景 在Spring应用开发中,为简化代码或者在静态方法中获取Spring应用的上下文,需要把SpringContext设置到类属性上。经过对源码的分析和实践,使用Spring的事件监听器监听ApplicationPreparedEvent事件是最佳的方式。 通过ApplicationPrepar…

深入理解 Git `git add -p` 命令中的交互选项

个人名片 🎓作者简介:java领域优质创作者 🌐个人主页:码农阿豪 📞工作室:新空间代码工作室(提供各种软件服务) 💌个人邮箱:[2435024119qq.com] &#x1f4f1…

git使用遇到的问题记录

文章目录 1. 记录以下问题*error: RPC failed; HTTP 307 curl 22 The requested URL returned error: 307* 1. 记录以下问题 error: RPC failed; HTTP 307 curl 22 The requested URL returned error: 307 第一种:clone的仓库地址或者账户密码发生改变;…

Python学习篇:Python基础知识(三)

目录 1 Python保留字 2 注释 3 行与缩进 ​编辑4 多行语句 5 输入和输出 6 变量 7 数据类型 8 类型转换 9 表达式 10 运算符 1 Python保留字 Python保留字(也称为关键字)是Python编程语言中预定义的、具有特殊含义的标识符。这些保留字不能用作…

商务视频推广8个增加用户转化率的技巧-华媒舍

商务视频推广是一种有效的营销策略,可以帮助企业吸引更多的潜在客户并增加用户转化率。我们将介绍8个提高商务视频推广效果的技巧,帮助您更好地利用视频来促进业务增长。 技巧一:制作高质量的内容 成功的商务视频推广首先要有高质量的内容。…

Web3 开发者入门手册:技能、工具和职业前景

原文:https://remote3.co/blog-post/how-to-become-a-web3-developer 作者:Paul Anderson 编译:TinTinLand Web3 是 2024 年科技领域最受瞩目的话题之一——Web3 令人激动的实用潜力可以跨越多个行业,早期采用者更有机会在未来…

iOS手机竖着拍的照片被旋转了90°的原因以及解决方案

EXIF.getData(IMG_FILE, function () { // IMG_FILE为图像数据 var orientation EXIF.getTag(this, “Orientation”); console.log(“Orientation:” orientation); // 拍照方向 }); 获取拍照方向的结果为1-8的数字: 注意:对于上面的八种方向中&a…

nginx的重定向(rewrite)

nginx的重定向(rewrite) location 匹配 location匹配的就是后面的URI /wordpress 192.168.60.20/wordpress location匹配的分类和优先级 1、精确匹配 location / 对字符串进行完全匹配,必须完全符合 2、正则匹配 ^~ 前缀匹配&#x…

ACE Studio的成功经验:从国内到全球的市场拓展

在AI技术飞速发展的今天,音乐创作也正经历着一场前所未有的变革。作为这一变革的前沿代表,ACE Studio无疑引起了广泛关注。本文将通过对时域科技创始人Joe与曲凯的对话,深入探讨ACE Studio的创新理念、市场定位、技术优势以及未来发展方向。 …

一个R包完成单细胞基因集富集分析 (全代码)

singleseqgset是用于单细胞RNA-seq数据的基因集富集分析的软件包。它使用简单的基础统计量(variance inflated Wilcoxon秩和检验)来确定不同cluster中感兴趣的基因集的富集。 Installation library(devtools) install_github("arc85/singleseqgse…

【JavaEE】多线程代码案例(2)

🎏🎏🎏个人主页🎏🎏🎏 🎏🎏🎏JavaEE专栏🎏🎏🎏 🎏🎏🎏上一篇文章:多线程代码案例(1)&a…

花键参数确定的流程是怎么样的?

继续花键的话题,今天跟小伙伴们一同学习一下:渐开线花键的参数确定的一般流程及基本方法。 前面有好几篇介绍了花键的基本参数的概念,包括规格、模数、齿数、压力角等等。以及花键的定心方式,内外花键的配合方式。那么这些参数的…

基于docker轻松部署selenium grid环境

做web自动化的同学都知道selenium grid非常好用,但是环境配置特别麻烦,很多人都躺在了环境搭建。那么有没有更简单的方式呢,答案是肯定的,今天我们就用docker来完成它,希望对大家有帮助。 一、环境准备 准备一台 Linu…

6个步骤实现Postman接口压力测试(建议收藏)

🍅 视频学习:文末有免费的配套视频可观看 🍅 点击文末小卡片 ,免费获取软件测试全套资料,资料在手,涨薪更快 这里讲是postman做接口并发测试,基础用法不做赘述 1、第一步接口可以通的情况下点击…

Web应用防火墙用在哪些场景?

WAF是Web Application Firewall的缩写,翻译为“Web应用防火墙”是一种网络安全设备或服务,用于保护Web应用程序免受各种网络攻击和漏洞的影响。 WAF特别设计用于识别和阻止特定于Web应用程序的攻击,例如SQL注入、跨站脚本(XSS)、跨站请求伪造…

2024最新中级会计职称考试全科题库资料。

1.根据消费税法律制度的规定,下列各项中,属于消费税征税范围的是()。 A.汽车轮胎 B.食用酒精 C.铂金首饰 D.体育上用的发令纸 答案:C 解析:选项ABD均不属于消费税的征税范围。 2.甲企业(…

PDF内存如何变小,PDF内存压缩,PDF内存变小怎么调整

在数字化时代,pdf已成为工作、学习和生活中不可或缺的文件格式。它以其跨平台兼容性和安全性受到广大用户的喜爱。然而,随着pdf文件中嵌入的图片、图形和文本内容的增多,文件大小往往会变得相当可观,给文件的传输和存储带来一定的…