cleanUrl: "paper/DALL-E"
๋
ผ๋ฌธ : Zero-Shot Text-to-Image Generation
์ ์ : Aditya Ramesh,ย Mikhail Pavlov,ย Gabriel Goh,ย Scott Gray,ย Chelsea Voss,ย Alec Radford,ย Mark Chen,ย Ilya Sutskever
๋
ผ๋ฌธ ์ ์ ๊ณ๊ธฐIntroductionDALL-E1. Stage-12. Stage-23. Data Collection4. Training Big ModelExperiments1. MS-COCO and CUB2. Reranking3. QualatativeConclusionReference & Further Reading
๋ ผ๋ฌธ ์ ์ ๊ณ๊ธฐ
CLIP๊ณผ ๊ฐ์ด ๋ ๊ฐ์ modality๋ฅผ ๋์์ ์ดํดํ๋ ์ฐ๊ตฌ๊ฐ ๋ง์ด ์งํ์ค์ด๋ค. ๋, ํน์ ํ ์ด๋ฏธ์ง์ ๋ํด ์ธ์ด์ ํํ๋ก ์ด๋ฏธ์ง๋ฅผ ํํํ๋ image captioning ๋ถ์ผ๋ ์ค๋๋ ์ฐ๊ตฌ ๋ถ์ผ ์ค ํ๋์ด๋ค. ๊ทธ๋ฌ๋, language์์ vision์ผ๋ก, ๋ค์ ๋งํด ์ฃผ์ด์ง ์ธ์ด๋ฅผ ๋ฐํ์ผ๋ก ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๊ฒ์ ์์ ๋ ์์ ์ ๋นํด ํจ์ฌ ์ด๋ ค์ด ์ผ์ด๋ค.
๊ทธ๋ ๊ธฐ ๋๋ฌธ์ language์์ image๋ฅผ ์์ฐ์ค๋ฝ๊ฒ ์์ฑํ ์ ์๋ ํด๋น ๋
ผ๋ฌธ์ด ํฐ Contribution ์ด ์๋ค๊ณ ์๊ฐํ์ฌ, ๋ณธ ๋
ผ๋ฌธ์ ์ ์ ํ์๋ค.
Introduction
Zero-Shot Image Generation
๋ด๊ฐ ๋ณด์ง ์์ ๋ฌผ์ฒด ์ํฉ์ ๊ทธ๋ ค๋ด๋ ๊ฒ์ ์ฌ์ด ๊ฒ์ด ์๋๋ค. ํ์ง๋ง ์ฌ๋ฌ ์์ ๊ฐ๋ค์ ๊ตฌ์ ์ผ๋ก ๋ด๋ ค์ค๋ ์ ํ์ ํ ์ฅ๋ฉด๋ ๊ณง ์ ๊ทธ๋ ค๋ธ๋ค. DALL-E์์๋ ์ถฉ๋ถํ ์์ ๋ฐ์ดํฐ์ ๋ชจ๋ธ ํฌ๊ธฐ๋ง ์๋ค๋ฉด ๊ณผ๊ฑฐ์ ํ์ตํ์ง ๋ชปํ ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค์ด๋ด๋ Zero-shot ํ์ต ๋ฐฉ๋ฒ์ ์ ์ฉ์ด ๊ฐ๋ฅํจ์ ๋ณด์ฌ์ค๋ค.
Two-Stage Approach
vision ์ ๋ํ tokenizing ์ ํตํ high-quality ์ด๋ฏธ์ง ์์ฑ๊ณผ ์ธ์ด์ ๊ฐ์ stream ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃฐ ์ ์๊ฒ ํ์๋ค. ๋ํ ๊ธฐ์กด์ ์ฐ๊ตฌ๋ค์ด MS-COCO์ ๊ฐ์ ๋ฐ์ดํฐ์
์์ ์ฐ๊ตฌ๋ฅผ ํ๋๋ฐ ํ์ ๋์ด์์ง๋ง, ๋ง์ ์ต์ ์ฐ๊ตฌ๋ค์ด Large-Scale Generative model ์ ๋ํ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค. ๋ฐ๋ผ์, ๋ฐ์ดํฐ์
๊ณผ ๋ชจ๋ธ ์ฌ์ด์ฆ๋ฅผ Scaling ํ๋ ๊ฒ์ด ์ฑ๋ฅ์ ์ด๋ค ์ํฅ์ ์ฃผ๋์ง ์คํํด๋ณด์๋ค๋๋ฐ ์๋ฏธ๊ฐ ์๋ค.
DALL-E๋ 12B ๋ชจ๋ธ์ฌ์ด์ฆ์ 250M ๋ฐ์ดํฐ์
(ํ
์คํธ, ์ด๋ฏธ์ง) ์์ผ๋ก ํ๋ จํ๋ค.
DALL-E
DALL-E๋ ์ฐ์ ํ
์คํธ์ ์ด๋ฏธ์ง๋ฅผ ๊ฐ์ ์คํธ๋ฆผ์ ๋ฐ์ดํฐ๋ก ์๊ฐํ๋ ๊ฒ์์ ์ถ๋ฐํ๋ค. ๊ทธ๋์ ์ฒ์์๋ ์ด๋ฏธ์ง๋ฅผ Sequence ๋ก ๋ง๋ค๊ธฐ ์ํด Vector Quantized ํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์ค๋ช
ํ๋ค.
1. Stage-1
dVAE (discrete Variational AutoEncoder)
dVAE ๋ฅผ ์ด์ฉํ์ฌ 256x256 โ 32x32 ์ image tokens ์ผ๋ก ๋ง๋ ๋ค. DALL-E์์๋ token ์ codebook ์ฌ์ด์ฆ๋ฅผ 8192๋ก ํ์๋ค.
์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด dVAE ๊ตฌ์กฐ๋ก q(z|x)๋ฅผ ์ป๋ ๊ฒ์ด Stage-1์ ๋ชฉ์ ์ด๋ค.
์์ ๊ฐ์ ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํจ์ผ๋ก์ transformer ์ context size๋ฅผ ์ค์ผ ์ ์๋ค.
ํ ๊ฐ์ง ๋ฌธ์ ์ ์, encoder ๋ฅผ ๊ธฐ์กด VQ ๋ฐฉ์์ผ๋ก ์ฌ์ฉํ๋ฉด codebook ์ ํฌ๊ธฐ๋ฅผ ๋๋ฆฌ๋ฉด encoder ์ ๋ฒกํฐ์ codebook ์ ๋ฒกํฐ๋ฅผ ๋น๊ตํ๋๋ฐ ์๊ฐ์ด ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํ๋ค. ๊ทธ๋์ encoder๊ฐ codebook ์ indice ๋ฅผ ์์ธกํ๋ ๋ฐฉ์์ continuous relaxation ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๋ ๊ฒ์ด ์ข๋ค.
continuous relaxation
gumbel softmax ๋
ผ๋ฌธ์์ gumbel distribution ๋ฅผ ๋ํ ํ temperature scale ๋ฅผ ํด์ฃผ๋ฉด ์ด๊ฒ์ด ๊ฐ ๋ฌดํํ ์์์ง๋ฉด argmax์ ๊ฐ์ ์ญํ ์ ํ๋ค๋ ๊ฒ์ ์ฆ๋ช
ํ์๋ค.
encoder ์ ๊ฐ์ gumbel softmax ๋ฅผ ์ทจํ์ฌ ํด๋น ์ธ๋ฑ์ค๋ฅผ ๊ตฌํ๋ ๋ฐฉ์์ ์ฐ๋ฉด ํจ์ฌ ๊ฐ๋จํ๋ค.
2. Stage-2
Stage-2 ์์๋ 256 BPE token ๊ณผ ์์์ ์ธ์ฝ๋ฉํ 32x32 = 1024 ์ด๋ฏธ์ง ํ ํฐ์ concat ํ์ฌ ์ด 1280 tokens ๋ฅผ ๋ง๋ ๋ค. ์ด๋ ๊ฒ ๋ง๋ค์ด์ง text์ image ํ ํฐ์ autoregressive transformer์ ๋ฃ์ด image ์ text์ joint distribution ์ log-likelihood ๋ฅผ maximize ํ๋๋ฐ ๋ชฉ์ ์ด ์๋ค.
- image :
- text :
- token :
- : dVAE encoder ์ distribution ( ๋ dVAE encoder)
- : dVAE decoder given image tokens
- : transformer ์ (text,image) joint distribution
๋ค์์์ joint distribution (text, image) ๋
์ฆ, x,y,z(text,image,token)์ joint distribution ์ y,z ๊ฐ ์ฃผ์ด์ก์ ๋ transformer ์์ํ์ผ๋ก ๋์จ ์ด๋ฏธ์ง distribution x ์ decoding ๋ ๊ฒฐ๊ณผ์ text distribution ์ ๊ณฑ์ผ๋ก ์ด๋ฃจ์ด์ง๋ค๊ณ ํ ์ ์๋ค.
- ์ฒซ๋ฒ์งธ ํ ์ dVAE ๋์ฝ๋๊ฐ ๋ณต์ํ๋ distbribution์ maximize ํ๋ ํ ์ด๋ค.
- ๋๋ฒ์งธ ํ ์ dVAE ์ธ์ฝ๋๊ฐ ํ ํฐ์ ์์ธกํ๋ ํ ์ด๋ค.
- ์ธ๋ฒ์งธ ํ ์ Autoregressive Transformer์ Text, Image Joint distribution์ Maximizeํ๋ ํ ์ด๋ค.
์ด๋ฅผ ๋ชจ๋ Maximize ํ๋ฉด x,y (ํ
์คํธ,์ด๋ฏธ์ง)์ ๋ํ distribution ์ ํ์ตํ ์ ์๋ค.
transformer์ ๋ค์ด๊ฐ๋ input์ ๋ค์๊ณผ ๊ฐ์ ๊ตฌ์กฐ๊ฐ ๋๋ค.
Masked attention on Vision
image๊ฐ์ ๊ฒฝ์ฐ๋ ๊ทผ์ฒ์ ํฝ์
์ ์ํฅ์ ๋ฐ๋ ๊ฒฝ์ฐ๊ฐ ๋ง๋ค. transformer์ masking์ ์กฐ์ ํ์ฌ row-masking, colume masking, conv maksing์ layer ๋ง๋ค ๋ค๋ฅด๊ฒ ์ฌ์ฉํ์๋ค๊ณ ํ๋ค.
์๋ฅผ ๋ค์ด row-masking์
์ด๋ฏธ์ง์ ํน์ token ์ ์์ ๋ชจ๋ text๋ฅผ ์ฐธ์กฐํ์ง๋ง ํด๋น row์ ์ ๋จ๊ณ ํ ํฐ๋ง ์ฐธ์กฐํ๊ฒ ๋์ด์๋ค.
3. Data Collection
PoC ๊ฐ๋
์ผ๋ก ๋น๊ต์ ์ ์ ๋ฐ์ดํฐ ์์ ์คํ์ ํด๋ณด์๋ค๊ณ ํจ
Conceptual Captions : 3.3 million text-image pairs ์์ ์ฐ์ ์คํ์ ํ๊ณ ,
์ดํ์๋ JFT ๋ฐ์ดํฐ์
๊ณผ ๋น์ทํ ํฌ๊ธฐ๋ก 250 million text-images pairs ๋ฅผ ์ธํฐ๋ท์์ ์์งํจ.
4. Training Big Model
Mixed Precision, PowerSGD, Distributed Training ๋ฑ ๊ฑฐ๋ ๋ชจ๋ธ์ ํ๋ จํ๊ธฐ ์ํ ๋ค์ํ ๋ฐฉ๋ฒ๋ค์ ์ ์ฉํ์๋ค.
Experiments
1. MS-COCO and CUB
๊ธฐ์กด GAN์ด๋ ๋ค๋ฅธ ๋ฐฉ์๋ค๋ณด๋ค FID๋ IS ๊ฐ ๋๋ค. FID์ IS ๋ ๋ณดํต Perceptual metric, ์ฆ ์ผ๋ง๋ ์ง์ง ๊ฐ์์ง์ ๋ํ Score ๋ก์ ๊ธฐ์กด GAN๋ณด๋ค ํจ์ฌ ์์ ๋ฒํ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ค๊ณ ํด์ํ ์ ์๋ค.
2. Reranking
k ์ฅ์ sample ํ ํ CLIP score ๋ก ranking์ ๋งค๊ฒจ์ ๊ฐ์ฅ ๋์ ๊ฒ์ ์ฌ์ฉํ๋ฉด ํจ์ฌ ๋ ๊ทธ๋ด์ธํ ์ด๋ฏธ์ง๊ฐ ์์ฑ๋๋ค. ์ฌ์ค ์ด๋ฌํ ํ์ฒ๋ฆฌ ๊ณผ์ ์ ๋งค์ฐ Resource-Heavy ํ ๋ฐฉ๋ฒ์ด๋ผ๊ณ ์๊ฐ๋๋ค.
3. Qualatative
์ฌ๋ฐ๋ ์ ์ ๊ธฐ์กด์ ๋ณด์ง๋ชปํ โ์๋ณด์นด๋ ๋ชจ์์ ์์" ๋ฅผ ์์ฑํ๋ ๊ฒ ๋ฟ๋ง์ด ์๋๋ผ
์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด โ์์ ๊ทธ๋ฆผ๊ณผ ๋๊ฐ์ ๊ณ ์์ด ์ค์ผ์น"๋ผ๊ณ ํ๊ณ ์ด๋ฏธ์ง๋ฅผ ๋ฐ๋ง ์ฃผ๊ณ ์๋ ๊ทธ๋ฆผ์ ๊ทธ๋ ค๋ณด๋ผ๊ณ ํ๋ฉด ์ค์ ์๋ ์ค์ผ์น๋ฅผ ๊ทธ๋ฆฐ๋ค๋ ๊ฒ์ด๋ค.
This suggests that it has developed a rudimentary ability to compose unusual concepts at high levels of abstraction.
๋ง์ฝ, ๋ชจ๋ธ์ด ํ๋ จ ๋ฐ์ดํฐ๋ฅผ ๋จ์ํ memorization์ ํ๋ค๋ฉด ์ด๋ฌํ ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ์์ฑํ์ง ๋ชปํ ๊ฒ์ด๋ค. ๊ทธ๋ ์ง๋ง ๋ชจ๋ธ์ด ํ์ต๊ณผ์ ์์ ์ ํ์ง ๋ชปํ๊ณ , ํ์ค์์๋ ์กด์ฌํ๊ธฐ ์ด๋ ค์ด ์ด๋ฏธ์ง๋ ๊ทธ ์๋ฏธ๋ฅผ ์ถ๋ก ํ์ฌ ์ ์์ฑํด ๋ธ๋ค๋ ๊ฒ์ ๊ณ ๋์ ์ถ์ํ๋ฅผ ํตํด ๊ธฐ๋ณธ์ ์ธ ๊ฐ๋
๋ค์ ๋ํด ๋ชจ๋ธ์ด ์ ํ์ตํ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ค.
Conclusion
๊ธฐ์กด Text-to-Image Generation ์ Qualitative ํ ์ธก๋ฉด์์ ๋ฟ๋ง์ด ์๋๋ผ Generalization ์์๋ ๋ฅ๊ฐํ๋ DALL-E ๋ชจ๋ธ์ ์ ์ํ๋ค. ์ฆ, ๋๊ท๋ชจ ๋ชจ๋ธ๊ณผ ๋๊ท๋ชจ ๋ฐ์ดํฐ์
์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ฌ๋ฆฌ๋ ๋ํ๊ตฌ๊ฐ ๋ ์ ์์์ ์์ฌํ๋ค.
Reference & Further Reading
Gumbel Softmax https://arxiv.org/abs/1611.01144
ImageBART https://arxiv.org/abs/2108.08827
VQ-Diffusion https://arxiv.org/pdf/2111.14822.pdf