DALL·E·2

DALL·E·2

文章标题:Hierarchical Text-Conditional Image Generation with CLIP Latents |citation
作者:Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, Casey Chu, Mark Chen

发表时间:(2022)

dalle-mini pyorch code

CLIP + Diffusion models

title

使用CLIP训练好的特征做层级式的依托于文本的图像生成

层级式:先生成一个小分辨率的图片再多次上采样成高清大图

Methods


DALL_E2 or unclip
  • 先训练好一个CLIP模型,然后找到图片和文本对$(x,y)$之间的关系之后;给定一个文本,CLIP的文本编码器就可以把这个文本变成一个文本特征$z_t$;

  • 训练一个prior模型$ P(z_i|y)$,输入文本特征,输出类似于CLIP的图像特征

    CLIP生成的对应的图像特征$z_i$是用来训练prior做ground truth用的

    方法:auto regressive自回归模型和扩散模型(选择了扩散模型)

  • decoder解码器 $P(x|z_i,y)$ 输入图像特征生成一个完整的图像

    扩散模型生成图像;扩散模型大部分时候是U-Net

    通过将 CLIP 输出编码和添加 timestep embedding,并将 CLIP编码投影到四个额外的文本token中,token连接到 GLIDE 文本编码器的输出序列

    使用classifier-free guidance

    guidance信号有10%的时间内把这个CLIP的特征呢设成0,在训练的时候有50%的时间内随机删除文本特征。

$$ P(x|y)=P(x,z_i|y)=P(x|z_i,y)P(z_i|y) $$

拓展阅读

DALL·E 2【论文精读】

0%