返回

TurboEdit: 基于文本的即时图像编辑

https://www.chatbro.cn/news/66c2e6c7d14c98d640a35bd0
cover

TurboEdit 在少步骤扩散模型的背景下解决了精确图像反演和松散图像编辑的挑战。该方案采用基于编码器的迭代反演技术,使反演网络以输入图像和上一步的重建图像为条件,以校正输入图像的下一个重建。

我们发现,通过详细的文本提示,可以在多步扩散模型中轻松实现松散控制。为了操作反转图像,我们冻结噪声图并修改文本提示中的一个属性,从而生成与输入图像相似的新图像,仅更改了一个属性。

迭代反演技术有助于实时进行逼真的文本引导图像编辑,在反演(一次性成本)中只需要8次功能评估(NFE),每次编辑需要4次NFE。该方法不仅速度快,而且明显优于最先进的多步扩散编辑技术。

要点

  1. 精确图像反演:就像把一张破损的照片修复成原来的样子,但要更精确,确保每个细节都尽可能还原。

  2. 分离图像编辑:就是能够单独修改图片的某一部分,比如只改变颜色,而不影响到图片的形状或纹理。

  3. 少步骤扩散模型:这是一种新的技术,它用更少的步骤来完成图像的生成或编辑,比老方法更高效。

  4. 编码器基础的迭代反演技术:这就像是用一个智能的“翻译器”,它能够把图像的信息逐步翻译回原始状态。

  5. 反演网络的条件:这个“翻译器”在工作时,会参考原始的图片和上一步修复的结果,以便下一步修复得更接近原图。

  6. 分离控制的实现:通过给“翻译器”一个详细的文字提示,它就能够理解并单独控制图片的不同属性。

  7. 操纵反演图像:如果想要修改图片的某个特定属性,可以固定图片的其他部分,只修改提示中的那个属性,从而生成一个只有这一属性改变的新图片。

  8. 编辑强度的控制:还可以控制修改的力度,比如轻微修改或者大幅修改,并且可以根据文字提示来进行更精细的调整。

  9. 实时文本引导的图像编辑:这种技术可以实时根据文字提示来编辑图片,就像有一个智能的画家,你告诉他要画什么,他就能立刻画出来。

  10. 功能评估次数:在修复图片的过程中,只需要进行8次评估,每次编辑只需要4次评估。这说明这个过程不仅快,而且成本很低。

  11. 性能比较:这种新方法在速度和质量上都比现有的多步骤图像编辑技术要好很多,可以说是目前最先进的技术。