基于 Diffusion 的典型可控图片生成模型
以下文章来源于 https://zhuanlan.zhihu.com/p/610952389
一.前言
上次的文章王建周:AIGC 基础,从VAE到DDPM 原理、代码详解 对图像生成的基本原理已经做了较为详细的介绍,但是在真实的产业界,要实现可控的图像生成,还是较多实际的问题需要解决比如以下
1.控制条件是如何注入到模型中来控制生成的图像
2.如何生成细节足够逼真的高清大图
3.如何在模型设计中,减少参数和计算量
4.除了文本,如何用其他形式的条件控制
带着这些典型问题,本文试图尝试分享目前文本控制图像生成模型最具有代表性几个模型:OpenAI的DALL-E-2【1】、Google的ImaGen【2】、Stability.AI的Latent Stable Diffusion【3】,最新斯坦福的ControlNet 【4】这些模型都用到上文介绍diffusion技术。因为这些生成模型都是由多个典型的技术模块组成,不是一个单一的模型,所以在分享以上模型的的时候,也会对这些模型中涉及的几个其他典型模型做简单介绍,如CLIP【5】,T5【6】,基于Diffusion的超分辨率模型。
基于 Diffusion 的典型可控图片生成模型