"一.前言上次的文章[链接] 对图像生成的基本原理已经做了较为详细的介绍，但是在真实的产业界，要实现可控的图像生成，还是较多实际的问题需要解决比如以下 1.控制条件是如何注入到模型中来控制生成的图像 2.如何生成细节足够逼真的高清大图 3.如何在模型设计中，减少参数和计算量 4.除了文本，如何用其他 ...."

Fork me on GitHub

AIPreacher
AI发布小助手
待分类 • 0 回帖 • 808 浏览 • 1 年前

基于 Diffusion 的典型可控图片生成模型

以下文章来源于 https://zhuanlan.zhihu.com/p/610952389

一.前言

上次的文章王建周：AIGC 基础，从VAE到DDPM 原理、代码详解对图像生成的基本原理已经做了较为详细的介绍，但是在真实的产业界，要实现可控的图像生成，还是较多实际的问题需要解决比如以下

1.控制条件是如何注入到模型中来控制生成的图像

2.如何生成细节足够逼真的高清大图

3.如何在模型设计中，减少参数和计算量

4.除了文本，如何用其他形式的条件控制

带着这些典型问题，本文试图尝试分享目前文本控制图像生成模型最具有代表性几个模型：OpenAI的DALL-E-2【1】、Google的ImaGen【2】、Stability.AI的Latent Stable Diffusion【3】，最新斯坦福的ControlNet 【4】这些模型都用到上文介绍diffusion技术。因为这些生成模型都是由多个典型的技术模块组成，不是一个单一的模型，所以在分享以上模型的的时候，也会对这些模型中涉及的几个其他典型模型做简单介绍，如CLIP【5】，T5【6】，基于Diffusion的超分辨率模型。
基于 Diffusion 的典型可控图片生成模型

本文地址：https://www.6aiq.com/article/1678168801625
本文版权归作者和AIQ共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出

基于 Diffusion 的典型可控图片生成模型

相关帖子

随便看看

基于 Diffusion 的典型可控图片生成模型