如果你告诉1960年代的计算机科学家,有一天机器能够仅凭一句话就画出逼真的画作,他们可能会觉得你在说科幻小说。但这个看似不可能的梦想,经过六十多年的技术积累,真的实现了。

从最初笨拙的几何图形绘制,到今天能够生成"红蓝色动力甲蜘蛛侠背上带蜘蛛义肢全身形象"并生成精美图像,这个效果如今已经媲美曾经设计师一周的工作量,但是这条路走得并不容易。每一个技术突破的背后,到底AI是如何一步步学会"画画"的呢?

早期探索:当计算机第一次拿起"画笔"(1960-2000年)

一切从Sketchpad开始

1963年说起。MIT的博士生Ivan Sutherland创造了一个叫Sketchpad的程序,这可能是人类历史上第一个真正意义上的计算机绘图软件。在那个年代,大多数人连计算机长什么样都没见过,Sutherland就已经在用光笔直接在屏幕上画图了。Sketchpad奠定了现代计算机图形学和人机交互(HCI)的基础,为后来的AI绘图埋下了种子。

Sketchpad的程序

神经网络的早期萌芽

同一时期,另一条技术路线也在悄悄发展。1979年,日本科学家福岛邦彦提出了Neocognitron一个模仿视觉皮层工作方式的神经网络。当时的人们可能没有意识到,这个看起来很学术的模型,被认为是现代卷积神经网络(CNN)的重要先驱,其实也是是今天所有深度学习图像处理技术的鼻祖。

Neocognitron的设计灵感来自于Hubel和Wiesel对猫视觉皮层的研究,模拟了视觉皮层中简单细胞和复杂细胞的工作机制。在Hubel-Wiesel模型里面, 通过动物的视觉刺激, 来观察了脑部接受的电信号来提出假设模型。

而福岛提出了类似的神经网络模型用来做模式识别的进程。先识别边, 然后识别特征, 然后模式识别。 这不就是我们介绍深度学习里面用的最多的东东?

Hubel和Wiesel的研究

并且为此构建了网络模型, 是个多层网络模型, 并且命名了简单单元和复杂单元的映射, 作为每个层次识别的层结构。

1980年推出的neocognitron是第一个真正意义上的级联卷积神经网络

1985年,Geoffrey Hinton(就是那个后来获得诺贝尔奖的"深度学习之父")和同事们发明了玻尔兹曼机。这个名字听起来很高深,其实核心思想很直观:让机器通过统计学的方法来理解数据的规律。就像人类通过观察大量画作来理解什么是"美"一样。

玻尔兹曼机的核心奥秘在于能够“学习”并找出数据中隐藏的模式。你可以把它看作是一个能够通过调整内部连接(我们称之为“权重”)来理解复杂信息的机器,它不像传统程序那样需要你一步步告诉它怎么做,而是能够自己摸索着学习。这个过程之所以被称为“玻尔兹曼”。

玻尔兹曼机就是一个装满开关和磁铁的盒子,它通过随机拨动开关,让盒子整体越来越“舒服”(能量最低)。它还能通过看我们给它的“案例”,学会调整哪些开关之间该用吸引磁铁,哪些该用排斥磁铁。

深度学习的"觉醒"

2006年是个重要的年份。Hinton在《Science》杂志上发表了一篇划时代论文《Reducing the Dimensionality of Data with Neural Networks》,证明了深度神经网络可以被有效训练。这听起来很技术化,但简单说就是:机器终于学会了如何从复杂的数据中提取有意义的特征。

这就像是给了机器一双能够理解世界的"眼睛"。有了这双眼睛,后面的故事才真正开始。

深度学习时代:机器开始"理解"图像(2010-2016年)

变分自编码器(VAE):第一次真正的"创作"

2013年12月,两位荷兰科学家Kingma和Welling发布了变分自编码器(VAE)。这个技术的厉害之处在于,它不仅能复制已有的图像,还能创造出全新的、从未见过的图像

把概率图模型的“变分推断”和神经网络的“反向传播”无缝拼在一起:

编码器把输入 x 变成隐变量 z 的概率分布(而不是一个点);解码器再把 z 还原成 x 的分布;目标函数是“重构误差 + KL 散度”,既能生成新数据,又能给出似然估计。

想象一下,如果你教一个孩子画苹果,传统的方法是让他模仿现有的苹果画。但VAE就像是教会了这个孩子理解"苹果"这个概念的本质,然后他就能画出各种不同的苹果,甚至是世界上不存在的苹果品种。

GAN的诞生:一场"艺术较量"

2014年6月的一个晚上,在蒙特利尔的一家酒吧里,Ian Goodfellow和朋友们正在讨论如何让机器生成更好的图像。当朋友们提出各种复杂的数学方法时,Goodfellow突然想到了一个绝妙的点子:为什么不让两个神经网络互相竞争呢?

就这样,生成对抗网络(GAN)诞生了。一个网络专门负责"画画"(生成器),另一个网络专门负责"鉴定真假"(判别器)。两者在不断的对抗中互相提高,就像真正的艺术家在竞争中成长一样。

GAN 的核心思想是同时训练两个深度神经网络:

  • 生成器 Generator:负责“绘画”一些看起来与真实数据无异的图片。
  • 判别器 Discriminator:像一位“质检员”,判断输入的图片究竟是真实样本还是 G 伪造的。

在训练过程中,G 和 D 像打擂台的对手:G 不断“造假”,D 不断“打假”。随着回合增加,G 的赝品愈发逼真,D 的火眼金睛也愈发锐利。最终,当 D 再也分不清真假时,G 就学会了如何产出高质量的新数据。

生成对抗网络(GAN)

尽管 GAN 已经能合成令人惊艳的图像,但仍有两个痛点:

  1. 训练成本高:对抗式训练既耗时又吃显卡,稍不注意就可能把 GPU 跑崩。
  2. 局部编辑难:GAN 对整个图像“一知半解”,很难精准地只改一只眼睛而不影响整张脸。

Transformer:注意力机制的革命

2017年,Google的研究团队发表了一篇名为"Attention is All You Need"的论文,提出了Transformer架构。这个看起来专注于自然语言处理的技术,实际上为整个AI领域带来了一场革命。

Transformer的核心创新是"注意力机制"——让AI能够专注于最重要的信息,就像人类在阅读时会重点关注关键词句一样。这种机制不仅让机器更好地理解语言,也为后来的多模态AI奠定了重要基础。

Transformer

最初,人们可能没有意识到Transformer会对图像生成产生多大影响。但这个架构的优雅和强大很快就显现出来:它能够处理任意长度的序列,能够并行计算,最重要的是,它为不同模态(文字、图像、音频)之间的融合提供了统一的框架。

StyleGAN:给AI艺术家更多控制权

2018年底,NVIDIA再次突破,推出了StyleGAN。这个技术最了不起的地方在于,它让AI不仅能画得像,还能画得"有风格"。

想象一下,传统的AI就像是只会临摹的学徒,而StyleGAN就像是有了自己风格的艺术家。你可以告诉它:"画一个人,但要有梵高的笔触风格",或者"保持这个人的五官,但改变发色和表情"。

大家的QQ里也出现了同样的功能,简单来说,就是可以把照片变成梵高风格:

StyleGAN

VQ-VAE-2:分层思考的智慧

2019年,DeepMind的研究者们想出了一个聪明的方法:VQ-VAE-2。这个系统模仿人类画画的思维方式——先构思整体布局,再添加具体细节。

顶层网络负责理解"这是一张海边日落的照片"这样的宏观信息,底层网络负责处理"海浪的纹理应该是什么样的"这样的细节问题。这种分层处理的思想,为后来更先进的生成模型提供了重要启发。

VAE原理

理解语言的AI画家:多模态时代的到来(2020-2021年)

DALL-E:会读文字的AI画家

2021年1月,OpenAI发布了DALL-E,这是一个历史性的时刻。第一次,我们有了一个真正能够理解人类语言并将其转化为图像的AI。

DALL-E有12亿个参数,就像一个拥有12亿个"神经元"的大脑。你可以告诉它"一只戴着侦探帽的鳄鱼在下雨天查案",它就能画出来。更神奇的是,即使是从未在训练数据中见过的奇异组合,它也能合理地创作出来。与当时主流的 GAN 路线不同,DALL·E 把文本和图像都离散化为 token,再用自回归 Transformer 统一建模,从而首次展示了“一句话出图”的可行性

DALL-E这个名字象征着艺术和技术的统一,“DALL”向西班牙艺术家萨尔瓦多·达利致敬,“-E”指的是受欢迎的迪士尼角色Wall-E。

DALL·E 1 的“文字→图像”流程拆成了 4 个你一眼就能看懂的小盒子,可以把它想象成 “写作文→画草图→上色→交卷” 的四步:

  1. BPE Tokenizer 你敲进去一句话,它先把每个字切成小“积木”(Token),就像把“一只穿西装的猫”切成 一只 / 穿 / 西装 / 的 / 猫 这样的编号。
  2. dVAE 编码器 真正的照片太大,机器不好直接画。于是先有一个“压缩大师”把参考图压成 32×32 个小方格,每个方格用一个“色号”(codebook 里的编号)表示,变成一张“马赛克草图”。
  3. Transformer 大脑 现在作文(文字 Token)和草图(马赛克编号)都准备好了。 Transformer 像一位“语文老师兼美术老师”,它一边读作文,一边按顺序猜下一个方格该填哪个色号,直到 32×32 格全部写完——这就是“自回归”地画图。
  4. dVAE 解码器(也是 VAE 解码器) 最后一步相当于“上色放大”:把 32×32 的草图还原成 256×256 的真彩色高清大图,交卷!

一句话总结:

“文字 → 小积木 → 马赛克草图 → Transformer 猜色号 → 上色放大 → 最终图像。”

这一技术路线带来了三大突破:

  1. 跨模态对齐:文本语义与视觉元素精准对应,支持“穿西装的牛油果坐在法庭上”这类复杂组合。
  2. 零样本泛化:无需针对特定类别微调,即可生成训练集里从未出现过的概念。
  3. 局部可控:通过修改文本提示词或 token 掩码,就能重新绘制图像的局部区域,解决了 GAN 难以“只改一处”的痛点。

DALL·E 的出现,标志着“文本→图像”生成进入可商用阶段,也为后续的 DALL·E 2、Stable Diffusion、Midjourney 等模型奠定了架构基础。

CLIP:视觉与语言的桥梁

同样在2021年,OpenAI还发布了CLIP(Contrastive Language–Image Pre-training对比式语言-图像预训练),这个技术虽然不直接生成图像,但它做了一件同样重要的事:建立起了视觉和语言之间的联系,核心目标是用自然语言监督来训练一个能同时理解文本和图像的通用表征。

CLIP就像是一个双语翻译官,能够理解图像的含义,也能理解文字的含义,并且知道它们之间的对应关系。这为后来所有的文本到图像生成系统提供了"语言理解"的基础能力。

CLIP通过利用大规模图文配对数据(约 4 亿条),通过对比学习让文本编码器和图像编码器在同一个向量空间里学会对齐语义。

图像和文本编码器的对比学习过程
图像和文本编码器进行匹配的过程

扩散模型革命:AI艺术的成熟时代(2022-至今)

扩散模型:从噪声中诞生的艺术

扩散模型的核心思想其实很诗意:从纯粹的噪声开始,一步步去除噪声,最终"显现"出清晰的图像。就像雕塑家从一块粗糙的石头中雕出美丽的雕像一样。

这个想法最早来自2015年斯坦福大学的研究,他们受到物理学中分子扩散现象的启发。想象一滴墨水在水中慢慢扩散,最终变成均匀的灰色。扩散模型就是要学会这个过程的"倒放"——从均匀的灰色重新聚集成清晰的墨水滴。

扩散模型灵感源于热力学中的“扩散”过程,分为两个步骤:正向扩散过程和反向扩散过程。

  • 正向扩散过程:将初始图像通过基于马尔可夫链原理被逐渐加入随机“噪声”,一般这个过程会迭代上千次进行降噪过程,将原始图像逐渐变成纯粹的随机噪声。
  • 反向扩散过程:就是如何“反向”去噪,通常会训练一个神经网络(通常用U-Net)预测每一步需要减去的噪声,逐步去除噪声还原数据。随着这一过程的进行,原始数据的清晰度和细节逐渐显现。

到了2020-2021年,研究者们发现扩散模型在图像生成质量上竟然超越了GAN,而且训练过程更加稳定。这就像发现了一个既有天赋又很听话的学生,自然引起了全行业的关注。、

Midjourney的出现开启ai绘图纪元

2022年7月,一个小团队推出了公测的 Midjourney,打破了 AIGC 领域的大厂垄断。作为一个精调生成模型,以聊天机器人方式部署Discord,目前有980万用户,

2022年8月,游戏设计师 Jason Allen 凭借 AI 绘画作品《太空歌剧院》获得美国科罗拉多州博览会“数字艺术/数码摄影“竞赛单元一等奖,“AI 绘画”引发全球热议。

Stable Diffusion:开源的力量

2022年8月,Stability AI做了一个大胆的决定:将Stable Diffusion完全开源。这就像是把一个原本只有少数人能用的昂贵艺术工具,免费分享给了全世界。

Stable Diffusion的厉害之处不仅在于生成质量高,更在于它能在普通的消费级显卡上运行。为什么叫 Stable? 不是数学意义上的“稳定”,而是相对早期像素级扩散模型,显存占用低、训练收敛稳、社区生态繁荣。突然之间每个人都可以在自己的电脑上拥有一个AI艺术家。这种技术民主化的影响是革命性的。一夜之间,社交媒体上充满了AI生成的精美图像,各种基于Stable Diffusion的应用如雨后春笋般涌现。从专业设计师到普通用户,每个人都可以成为"AI艺术的导演"。

基于潜在扩散模型(LDM)的架构,Stable Diffusion在保持生成质量的同时大大降低了计算需求

Stable Diffusion架构图,展示VAE编码器-解码器和UNet去噪过程

Stable Diffusion 并不是单个模型,而是 “文本编码器 → 潜空间扩散器 → 图像解码器” 三段式流水线,用潜空间换效率,用文本嵌入做方向盘,把 1000 步扩散压到 50 步就能跑在消费级显卡上。

  • CLIP 把文字变成向量:77 个 token,每个 768 维,语义浓缩。
  • U-Net 在潜空间里“降噪”:从纯噪声张量一步步减去预测噪声,得到 4×64×64 的干净潜图。
  • VAE 负责“放大”:把潜图解码成高清 512×512 像素图,完成出图。

当前图像生成(“生图”)领域,主流技术路线主要有两类:自回归模型扩散模型。二者都能从文本、草图或多模态条件生成高质量图像,但在建模方式、训练与推理流程、可控性与速度等方面存在显著差异。后续我会继续出品主流模型的区别和原理讲解~