各种文字生成图片的AIGC模型(openAI、谷歌、stable、Midjourney等)

150 篇文章 18 订阅
订阅专栏
7 篇文章 1 订阅
订阅专栏

1 前言

AIGC,全名“AI generated content”,又称生成式AI,意为人工智能生成内容。例如AI文本续写,文字转图像的AI图、视频等。

本文主要描述文字生成图片的模型。而且目前扩散模型(Diffusion Models)流行,所以下面列的大部分是基于扩散模型的,而基于GAN(GenerativeAdversarialNetworks,中文叫生成式对抗网络)的较少。

文字生成图片示例如下:

模型汇总如下,时间以论文(arxiv)的时间为主:

模型

公司或机构

时间

备注

DALL·E

openAI

2021年2月

dVAE

GLIDE

openAI

2022年3月

指导扩散(guided diffusion)

DALL·E2

openAI

2022年4月

unclip、扩散模型

Imagen

google

2022年5月23日

扩散模型

Parti

google

2022年6月

ViT-VQGAN

Stable Diffusion

Stability AI

2022年4月

开源

Midjourney

Midjourney

2022年3月

未公开技术

Make-A-Scene

Meta(facebook)

2022年3月

ERNIE-ViLG 2.0

百度

2023年3月

扩散模型

CogView

清华

2021年11月

VQ-VAE

CogView2

清华

2022年5月

VQ-VAE

Disco Diffusion

Accomplice

2021年10月

2 openAI

2.1 DALL·E:

DALL-E还没有使用扩散模型,使用的dVAE(discrete variational autoencoder离散变分自动编码器)。

详见:DALL·E:OpenAI第一代文本生成图片模型DALL·E:OpenAI第一代文本生成图片模型_AI强仔的博客-CSDN博客

2.2 GLIDE

DALL-E 的参数量是 120 亿,而 GLIDE 仅有 35 亿参数。GLIDE指 Guided Language to Image Diffusion for Generation and Editing 。

在新模型 GLIDE 中,OpenAI 将指导扩散(guided diffusion)应用于文本生成图像的问题。首先该研究训练了一个 35 亿参数的扩散模型,使用文本编码器以自然语言描述为条件,然后比较了两种指导扩散模型至文本 prompt 的方法:CLIP 指导和无分类器指导。通过人工和自动评估,该研究发现无分类器指导能够产生更高质量的图像。

论文地址:《GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models 》 https://arxiv.org/pdf/2112.10741.pdf

2.3 DALL·E 2

DALL·E 2:虚线上面部分是CLIP。虚线之下是我们文本到图像生成过程,一个CLIP text embedding输入到autoregressive或者扩散模型(prior部分)来生成一个image embedding,然后这个embedding输入到扩散模型decoder,生成最终的图像.

详见:DALL·E 2 :OpenAI第二代文本生成图片模型(unCLIP--基于CLIP的文本生成图像模型) DALL·E 2 :OpenAI第二代文本生成图片模型(unCLIP--基于CLIP的文本生成图像模型)_AI强仔的博客-CSDN博客

3 Google

3.1 Imagen

使用了一个文字转图片的diffusion模型,然后使用了2个超分diffusion模型。

3.2 Parti

Parti,全名叫「Pathways Autoregressive Text-to-Image」,是谷歌大脑老大Jeff Dean提出的多任务AI大模型蓝图Pathway的一部分。

Parti是文本-图片的序列到序列模型,包括编码器和解码器。

使用 ViT-VQGAN。

4 Stability AI

独立研究机构Stability AI成立于2020年,背后出资人是数学家,计算机科学家,著名投资人莫斯塔克(Emad Mostaque)。

Stable Diffusion让用户使用消费级的显卡便能够迅速实现文生图。Stable Diffusion 完全免费开源,所有代码均在 GitHub 上公开,任何人都可以拷贝使用。

4.1 Stable Diffusion(LDM)

Stable diffusion是一个基于Latent Diffusion Models(潜在扩散模型,LDMs)的文图生成(text-to-image)模型。出自《High-Resolution Image Synthesis with Latent Diffusion Models 》 https://arxiv.org/pdf/2112.10752.pdf。

模型latent diffusion models (LDMs)是两阶段的。第一部分就是下面左半部分(红色),对图片进行压缩,将图片压缩为隐变量表示(latent),这样可以减少计算复杂度;第二部分还是扩散模型(diffusion与denoising),中间绿色部分。此外引入了cross-attention机制,下图右半部分,方便文本或者图片草稿图等对扩散模型进行施加影响,从而生成我们想要的图片,比如根据文本生成我们想要的图片。

详见 stable diffusion(LDM)--图片生成模型_AI强仔的博客-CSDN博客

5 MidJourney

Midjourney是一款2022年3月面世的AI绘画工具,创始人是David Holz。Midjourney 正式团队成员十分精简,共 11 人。除了 CEO 之外,有 8 位研究与工程师,2 位财务与法务。

目前采取 SaaS 订阅制模式,价格为 10 – 60 美元/月。

Midjourney 最有力的竞争对手是 Stability.AI,与 Midjourney 的闭源不同,其模型 Stable Diffusion 因开源模式受到了广泛关注。

6 Meta(facebook)

6.1 Make-A-Scene

可以在用户创作的粗略草图的基础上,结合文本提示生成具象的图像,即使用者可以通过草图控制最终图像的具体效果。

论文: https://arxiv.org/pdf/2203.13131.pdf

7 百度

7.1 ERNIE-ViLG 2.0

百度文心一言文本生成图像模型。ERNIE-ViLG 2.0是一个大规模中文-图像扩散模型。

参见ERNIE-ViLG 2.0:百度文心一言文本生成图像模型: ERNIE-ViLG 2.0:百度文心一言文本生成图像模型_AI强仔的博客-CSDN博客。

8 清华大学

8.1 CogView

CogView: Mastering Text-to-Image Generation via Transformers。清华大学唐杰团队出品。

使用VQ-VAE将图像压缩为token序列特征,可以输入到transformer中进行生成训练。

论文: https://arxiv.org/pdf/2105.13290.pdf

8.2 CogView2

cogview2来提升cogview的效果,这次的效果也对标DALL-E2。相比cogview,cogview2采用分层Transformer以及并行自回归的方式进行生成,并且也训练了国产跨模态的生成模型CogLM.

论文: https://arxiv.org/pdf/2204.14217.pdf

9 Disco Diffusion

Disco Diffusion具有一个强大的开源 CLIP-Guided Diffusion 模型,可以创建详细、逼真的图像。上线于2021年10月29日,由Accomplice开发,Accomplice是一家创立于2016年的公司,致力于帮助每个团队和个人找到适合他们的 AI 驱动的图像工作流程。

  • 开源,免费。 Disco Diffusion

10 Tiamat

国内首家 AI 生成技术服务商「Tiamat」。

青柑,Tiamat创始人、CEO。00后创业者,毕业于上海科技大学计算机科学与技术专业。于2021年创立生成式AI平台Tiamat,专注AI图像生成领域的应用解决方案。将科技与技术结合的深刻理解付诸实践,致力于通过人工智能生成技术,拓阔人类想象力边界。

11 参考

  1. Midjourney:AIGC现象级应用,一年实现1000万用户和1亿美元营收 : Midjourney:AIGC现象级应用,一年实现1000万用户和1亿美元营收_产品化_技术_Discord

AIGC」如何理解大语言模型
AIGC大前端小王子
04-30 1167
Transformer模型是一种基于自注意力机制的架构,由Vaswani等人在2017年的论文《Attention Is All You Need》中首次提出。它主要用于处理序列到序列的任务,如机器翻译、文本摘要等。案例:机器翻译假设我们想将英文句子 “The quick brown fox” 翻译成法语。在传统的序列到序列模型中,这通常涉及到编码器-解码器架构。Transformer模型首先将句子中的每个单词转换为嵌入向量,然后通过多头自注意力机制来处理这些向量,允许模型同时关注句子中的所有单词。
stable diffusion的AI 绘画关键词库及80G+的热门Lora模型下载
08-06
stable diffusion的AI 绘画关键词库及80G+的热门Lora模型下载,包括但不限于: 1 欧漫 1 武侠 2 2.5D 2二次元 2 卡通 2矢量 3 3D 3 手绘 4 摄影 5 国风感 6 小动物 7 特殊风格 8 服装 8 物品风格 9 功能性 10 建筑 12 星空 13 汽车 14 超现实 15 机甲 16 特定角色 17 小说推文
深度学习项目分支一:文本图像模型01
weixin_45888522的博客
04-07 665
扩散模型
各种文字生成图片AIGC模型
最新发布
xiaocong1990的博客
03-27 314
各种文字生成图片AIGC模型openAI谷歌、stable、Midjourney等)_文本生成图像模型-CSDN博客
文本生成图像工作简述5--对条件变量进行增强的 T2I 方法(基于辅助信息的文本生成图像
白洞,白色的明天在等着我们
10-23 469
在传统的T2I方法中,常常使用一个固定的随机噪声向量作为输入,然后通过生成器网络来生成图片。而条件变量增强的T2I方法则通过引入额外的条件信息来生成更具特定要求的图片,这个条件信息可以是任何与图片相关的文本信息,比如图片的描述、标签或者语义向量。
【文生图系列】文生图大模型合集与效果对比
热门推荐
陶将的博客
07-06 1万+
本篇博文粗略了介绍了OpenAI的DALL E系列,百度的ERNIE-ViLG系列,google的Imagen,MidJourney,Stable Diffusion,智源研究院的AltDiffusion,英伟达的eDiff-I和阿里的通义文生图大模型,并进行了效果对比。
文本生成图像工作简述4--扩散模型、自回归模型生成对抗网络的对比调研
白洞,白色的明天在等着我们
02-02 1万+
各种各样的模型已经开发用于文本图像生成模型主要可以分为三大类:扩散模型(Diffusion Model)、自回归模型(Autoregressive Model)、生成对抗网络模型(Generative Adversarial Networks),下面梳理一些近几年重要的模型并对比这三种方法的优劣
AIGC模型之——以文生图介绍
yamgyutou的博客
06-05 1万+
二是种子(作用是生成噪声图),固定的种子和固定的分辦率生成的噪声图是固定的,模型以这个为基础进行图片生成。(4)专业设计:将AI作画与专业领域的知识相结合,如3D建模、医疗、工业设计、建筑设计、教育等,先由Al根据提示制作粗略的草图,再由专业人员完成后续工作。(2)广告创意:快速生成各种类型的广告和宜传素材,也可以根据用户的需求生成个性化的广告,缩短制作成本和时间。(2)图像定制:用户可以选择不用的颜色,字体,背景,作画风格等,定制自己喜欢的图像。,一个完全开源的模型( 代码,数据,模型全部开源)。
【CVPR 2023的AIGC应用汇总二】可控文生图,基于diffusion扩散模型/GAN生成对抗方法...
idol24的博客
04-25 1675
【CVPR 2023的AIGC应用汇总一】图像转换/翻译,基于GAN生成对抗/diffusion扩散模型方法1、DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation大型文本生成图像模型已取得显著进展,有能力从给定的文本提示中生成高质量和多样化的图像。然而,给定目标个体的一些参考图片(...
AI艺术的背后:详解文本生成图像模型【基于 Diffusion Model】
Pain is inevitable but suffering is optional.
09-20 6660
GLIDE 使用了文本作为条件,来实现文本引导的扩散模型,在文本引导上面,文中主要使用了两种策略,Classifier-Free Diffusion Guidence 以及 CLIP 来作为条件监督,同时使用了更大的模型,在数据量上,和DALL-E 相似。实际上,扩散模型做的事情本质上是一样的,不同的是,扩散模型完全使用了全新的思路来实现这个目标。(实际上等价于学习了一个隐含的分类器),缺点是,成本比较高,相当于每次要生成两个输出,尽管如此,后面的大部份知名文本生成图像模型,都是基于这个方法进行的。
AIGC 文生图及 stable diffusion webui 练习笔记
yichudu
04-28 991
第一步, 拉git仓库第二部, 进入项目目录, 运行 webui.bat (linux 为 webui.sh). 它会安装 venv 虚拟环境, 还会试运行。
AIGC 课程, 目前已支持 ChatGPT, Midjourney,Stable Diffusion ,AI数字
12-24
AIGC 课程, 目前已支持 ChatGPT, Midjourney, Runway, Stable Diffusion, AI数字人,AI声音&音乐,大模型微调 内容创作效率提升: AIGC能够快速生成大量高质量的内容,包括文本图像、音频、视频等,极大地...
ai绘画Stable Diffusion安装包与教程WebUI版本文字生成图片
11-05
AI绘画,文本生成图片,WebUI 输入英文描述然后点击生成就可以了,根据描述语生成精美图画 注意 1、英伟达显卡显卡最低4G,最好是6G以上,显卡内存越高越好,效果更佳 2、安装时部分依赖需要外网
永久免费开源的 AIGC 课程,AI模型
10-24
目前已支持 ChatGPT, Midjourney, Runway, Stable Diffusion, AI数字人,AI声音&音乐,大模型微调 更新计划 持续迭代 ChatGPT 的优秀案例 Runway AI视频制作教程的案例更新 Stable Diffusion 文生图教程 GPT4...
AI模型》--stable-diffusion是一个支持文本生成图片AI语言模型,功能异常强大,一起探索中.zip
03-22
人工智能学习总结成果,希望可以帮到大家,有疑问欢迎随时沟通~ 人工智能学习总结成果,希望可以帮到大家,有疑问欢迎随时沟通~ 人工智能学习总结成果,希望可以帮到大家,有疑问欢迎随时沟通~ ...
Stability AI生成模型
02-26
出于研究目的,发布了 Stable Video Diffusion,这是一种图像到视频模型: SVD:此模型经过训练以生成 14 分辨率为 576x1024 的帧,给定相同大小的上下文帧。 我们使用 SD 2.1 中的标准图像编码器,但将解码器替换...
【大模型系列】图片生成(DDPM/VAE/StableDiffusion/ControlNet/LoRA)
kabuto_hui的博客
03-14 1721
ControlNet 是一个任务相关的端到端方法,即对于每一种控制类型都要训练一个特定的 ControlNet 支持, 比如线图控制、深度图控制、姿态控制等等。这样有好处也有坏处, 单独看一个场景,拥有使用简单、训练成本低等优点。但是,如果面对一个复杂场景(多场景),反而变得略麻烦,每一个细分场景都要训练和维护一个模型, 成本高昂,也不易用。LoRA与Adapter的区别:adapter是在模块的后面接上一个mlp,对模块的计算结果进行一个后处理。
人工智能前沿弄潮】——生成AI系列:扩散模型及稳定扩散模型
qq_43456016的博客
08-11 1471
与GAN 利用生成器和判别器进行对抗训练来生成图像不同,扩散模型则是通过对生成的随机噪声进行循环去噪来生成图像,就有点像雕刻一样,一块原石,随着大师一点一点地去除掉多余的部分,剩下的就是完美的艺术品。所使用的随机噪声需要和生成的目标图像具有相同的高宽。在扩散模型的去噪过程中,去噪的步骤数(step)是人工提前定好的,如1000等。这个step不仅是步骤数,也代表着噪声的严重程度信息。并且每次去噪所的Denoise 模块是同一个,进行反复使用。
DALL·E 2 :OpenAI第二代文本生成图片模型(unCLIP--基于CLIP的文本生成图像模型)
zephyr_wang的博客
09-22 3651
《Hierarchical Text-Conditional Image Generation with CLIP Latents》翻译总结的。如题,基于CLIP进行图片生成
文字生成图片stable diffusion
09-12
文字生成图片稳定扩散是一种将文字内容转化为图像的技术。通过将文字作为输入,通过特定的算法将文字逐渐转化为图像的过程。这种技术可以用于各种场景,例如艺术创作、广告设计、图像生成等。 文字生成图片稳定扩散的方法包括两个关键步骤:生成和扩散。首先,将输入的文字转化为图像,可以通过字体、大小、颜色等参数来控制生成的效果。生成图像可以是黑白的、彩色的,或者带有特定的纹理和效果。然后,通过扩散的过程逐渐将文字图像填充为完整的图像。扩散可以采用不同的方式,例如像素级别的扩散、区域级别的扩散或者混合的方式。 文字生成图片稳定扩散的关键在于保持生成的过程稳定和可控。稳定性意味着生成图像在不同的输入下保持相对一致的效果,而可控性意味着可以通过调整参数来控制生成图像的样式和效果。这样可以保证生成图片符合需求,并满足设计师或者用户的要求。 文字生成图片稳定扩散可以应用于多个领域。在艺术创作中,可以通过文字生成图片来表达创作者的思想和感情,将文字转化为图像来传达更加具体和直观的意义。在广告设计中,可以通过文字生成图片来制作吸引人的广告海报或者宣传图片,增加视觉冲击力和吸引力。在图像生成中,可以将大量文字数据转化为图像,用于数据可视化和图像分析等领域。 总之,文字生成图片稳定扩散是一项将文字转化为图像的技术,通过生成和扩散的过程,将输入的文字逐渐转化为具有稳定和可控效果的图像。该技术具有广泛的应用前景,在艺术、设计和数据可视化等领域中都具有重要的意义。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • ILSVRC-ImageNet历年竞赛冠军 30051
  • 各种生成模型:VAE、GAN、flow、DDPM、autoregressive models 22056
  • Grafana alert预警+钉钉通知 19335
  • 神经网络之父Hinton介绍及其论文介绍 16692
  • 图像预处理方法总结 16648

分类专栏

  • 硬件开发 8篇
  • 机器人 12篇
  • 人工智能 150篇
  • 对抗训练 2篇
  • GAN 8篇
  • 图像处理 35篇
  • python 22篇
  • 多模态 7篇
  • 语音识别 15篇
  • 数学 22篇
  • 笔记 16篇
  • Tensorflow 9篇
  • 深度学习 17篇
  • transformer 33篇
  • 算法 38篇
  • 工作生活 1篇
  • 机器学习 30篇
  • NLP 51篇
  • 语音合成 5篇
  • 神经网络 24篇
  • 迁移学习 3篇
  • Attention 6篇
  • 不平衡数据 2篇
  • 特征工程 6篇
  • 物体识别 5篇
  • 文本识别 9篇
  • GPU 2篇
  • Hinton 5篇
  • 玻尔兹曼机 3篇
  • 半监督学习 3篇
  • 知识跟踪 3篇
  • 医学人工智能 2篇
  • 强化学习 2篇
  • OCR 2篇
  • java 3篇

最新评论

  • ILSVRC-ImageNet历年竞赛冠军

    莓莓不加糖: AN ANALYSIS OF DEEP NEURAL NETWORK MODELS FOR PRACTICAL APPLICATIONS

  • catboost自定义损失函数和metric

    weixin_46795832: 大佬,LoglossMetric一直报错pool为空是为什么呢?用回自带的Logloss就不报错了

  • LSTM+Attention代码

    xiaoye_zi: 你好博主,我是萌新,我想问一下,如果使用了注意力机制,请问训练策略上需要怎么调整呢?

  • 黎曼猜想--黎曼1859年《论小于某给定值的素数的个数》

    qq_42699523: 惊为天人的思路,那时候的人太强了吧

  • UNIFORMER-视频模型(3D CNN和transformer结合)

    learner00000: 代码仓库没了?

大家在看

  • python对软件的封装——PyQt
  • MySQL 高级(进阶) SQL 语句
  • 开源大模型部署——ollama 961
  • (五)数据采集与处理基础练习题(17道选择题) 164
  • idea怎么重复启动实例

最新文章

  • 轮腿机器人的PID控制
  • 轮足机器人硬件总结
  • 人形机器人汇总
2023年42篇
2022年75篇
2021年72篇
2020年90篇
2019年12篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI强仔

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

哆哆女性网我在东京创造都市传说农资公司起名大全集五行属火和木的字起名宋轶怎么读摄政王的医品狂妃女孩姓潘起名字路由器和猫的区别免费公司起名测验起名字2019古人起名仁者无敌电视剧起名字注意什么成都保利国际广场如意分集介绍给宝宝起名的网站哪个好吗大师 起名大全赘婿李石川电视剧在线观看免费恋爱情结胡姓鼠宝宝起名大全给女宝宝起名字大全2015彩峰快印周易起名网站源码免费八字起姓名测试打分结果拜年祝福语简短赤脚医生手册百度网店加湿设备起名商城起名免费网美国电影推荐租房子app哪个好淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻不负春光新的一天从800个哈欠开始有个姐真把千机伞做出来了国产伟哥去年销售近13亿充个话费竟沦为间接洗钱工具重庆警方辟谣“男子杀人焚尸”男子给前妻转账 现任妻子起诉要回春分繁花正当时呼北高速交通事故已致14人死亡杨洋拄拐现身医院月嫂回应掌掴婴儿是在赶虫子男孩疑遭霸凌 家长讨说法被踢出群因自嘲式简历走红的教授更新简介网友建议重庆地铁不准乘客携带菜筐清明节放假3天调休1天郑州一火锅店爆改成麻辣烫店19岁小伙救下5人后溺亡 多方发声两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#青海通报栏杆断裂小学生跌落住进ICU代拍被何赛飞拿着魔杖追着打315晚会后胖东来又人满为患了当地回应沈阳致3死车祸车主疑毒驾武汉大学樱花即将进入盛花期张立群任西安交通大学校长为江西彩礼“减负”的“试婚人”网友洛杉矶偶遇贾玲倪萍分享减重40斤方法男孩8年未见母亲被告知被遗忘小米汽车超级工厂正式揭幕周杰伦一审败诉网易特朗普谈“凯特王妃P图照”考生莫言也上北大硕士复试名单了妈妈回应孩子在校撞护栏坠楼恒大被罚41.75亿到底怎么缴男子持台球杆殴打2名女店员被抓校方回应护栏损坏小学生课间坠楼外国人感慨凌晨的中国很安全火箭最近9战8胜1负王树国3次鞠躬告别西交大师生房客欠租失踪 房东直发愁萧美琴窜访捷克 外交部回应山西省委原副书记商黎光被逮捕阿根廷将发行1万与2万面值的纸币英国王室又一合照被质疑P图男子被猫抓伤后确诊“猫抓病”

哆哆女性网 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化