INTRO
์๋
ํ์ธ์๐๐ป Generative AI ์๋ฆฌ์ฆ์ ์ธ ๋ฒ์งธ ์ด์ผ๊ธฐ๋ก ์ฐพ์์์ต๋๋ค.
์ด๋ฒ ์ํฐํด์์๋ ํ์ฌ ์ด๋ฏธ์ง ์์ฑ ๋ถ์ผ์์ ์์ฃผ ํซํ ์คํ์์ค Text-to-Image ๋ชจ๋ธ์ธ Stable Diffusion์ ๋ํด์ ์์๋ณด๊ฒ ์ต๋๋ค.
์์ฆ ์ธ๊ณต์ง๋ฅ์ด ๊ทธ๋ฆฐ ๋ฏธ์ ์ํ๋ค์ด ๋ง์ ํ์ ๊ฐ ๋๊ณ ์์ต๋๋ค. 2022๋
9์์๋ ๋ฏธ๊ตญ ์ฝ๋ก๋ผ๋ ์ฃผ๋ฆฝ ๋ฐ๋ํ์ ๋ฏธ์ ์ ์์ 1๋ฑ์ ์์ํ ๊ทธ๋ฆผ์ด ์๊ณ ๋ณด๋ AI๊ฐ ๊ทธ๋ฆฐ ๊ฒ์ผ๋ก ๋ฐํ์ ธ ๋ง์ ๊ด์ฌ์ ๋ฐ๊ธฐ๋ ํ์์ฃ .
๋ฐ๋ก ์ด ๊ทธ๋ฆผ์ธ๋ฐ์. ๋ฅด๋ค์์ค ์๋์ ๋ถ์๊ธฐ๋ ๋๋ฉด์ ์กฐ๊ธ์ ์ดํ์ค์ ์ธ ๋๋๋ ๋๋, ์๋ฆ๋ต๊ณ ํ์์ ์ธ ๊ทธ๋ฆผ์ผ๋ก ๋ณด์
๋๋ค. ์์ ๋ง์๋๋ ธ๋ฏ์ด ์ด ๊ทธ๋ฆผ์ AI๊ฐ ๊ทธ๋ฆฐ ๊ฒ์ผ๋ก, ํ๋กฌํํธ์ ๋ช
๋ น์ด๋ฅผ ์
๋ ฅํ๋ฉด ์ด๋ฏธ์ง๋ฅผ ์์ฑํด ์ฃผ๋ AI ๋ชจ๋ธ ์ค ํ๋์ธ ๋ฏธ๋์ ๋(Midjourney)๋ฅผ ์ด์ฉํ ๊ฒ์
๋๋ค.
๋จ ํ ์ค์ ํ
์คํธ์ ์ ๊น์ ๊ธฐ๋ค๋ฆผ์ผ๋ก ์ด๋ ๊ฒ ๋ฉ์ง ์ํ์ ์์ฑํ ์ ์๋ค๋, ์ ๋ง ๋๋์ง ์๋์? ์์ ์ธ๊ณต์ง๋ฅ์ด ๋ง๋ค์ด ๋ธ ๊ทธ๋ฆผ๋ค์ ๋ณด๊ณ ์์ผ๋ฉด ์ ๋ง์ด์ง ์์ ์งํก์ด๊ฐ ๋ฐ๋ก ์์ต๋๋ค. ํ์ฌ๋ก์ โ์ธ๊ณต์ง๋ฅ์ ์ฐฝ์์ฑโ์ด๋ผ๋ ํ๋๊ฐ ๊ฐ์ฅ ์ ์ด์ธ๋ฆฌ๋ ๋ถ์ผ๊ฐ ๋ฐ๋ก ์ด Text-to-Image ๋ถ์ผ๊ฐ ์๋๊น ํ๋ ์๊ฐ๋ ๋๋ค์.
Text-to-Image ๋ชจ๋ธ์๋ ์์ฆ ํญ์ ํจ๊ป ์ธ๊ธ๋๋ 3๋์ฅ์ด ์์ต๋๋ค. ๋ฐ๋ก ์์ ์ธ๊ธํ ๋ฏธ๋์ ๋์ ๋๋ถ์ด DALL-E 2 ๊ทธ๋ฆฌ๊ณ Stable Diffusion์
๋๋ค. ์ด ์ค์์๋ ์ค๋ ์ดํด๋ณผ Stable Diffusion์ ์คํ ์์ค๋ก ์ถ์๋์ด, ํ
์คํธ ๊ธฐ๋ฐ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ ๋๊ตฌ๋ ์ฌ์ฉํ๊ณ ์์ฉํ ์ ์๊ฒ๋ ์ ๊ทผ์ฑ์ ๋์๋ค๋ ์ ์์ ์์ฃผ ํฐ ์์๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
์ด์ โ์ผ, ๋๋ AI๋ก ๊ทธ๋ฆผ ๊ทธ๋ฆด ์ ์์ด!โ๋ฅผ ์ธ์น๋ฉฐ ๋์จํด์ง ๋ฏธ์ ๊ณ์ ๊ธด์ฅ๊ฐ์ ์ฃผ๊ณ ์๋ Stable Diffusion์ ๋ํด ์์ธํ ์์๋ด
์๋ค๐ง
ย
ย
[ ๋ชฉ์ฐจ ]
INTRO1. ์ง์
์ฅ๋ฒฝ์ ๋ฎ์ถ๊ณ , ํจ์จ์ ๋์ด์ฌ๋ฆฌ๋ค2. Diffusion ๋ชจ๋ธ, ๊ทธ๊ฒ ๋ญ๋ฐ?2.1 ์ด๋ฏธ์ง์ ๋
ธ์ด์ฆ ๋ผ์น๊ธฐ: Forward Process2.2 ์ฅ์ธ ์ ์ ์ผ๋ก ์ด๋ฏธ์ง ๋ณต์ํ๊ธฐ: Reverse Process3. Stable Diffusion์ 3์์3.1 ํ
์คํธ ์ธ์ฝ๋ CLIP3.2 ์ด๋ฏธ์ง ์์ฑ๊ธฐ UNet๊ณผ Scheduler3.3 ์ด๋ฏธ์ง ๋์ฝ๋ VAE4. Stable Diffusion, ๋๋ ํ ๋ฒ ์จ๋ณด๊ณ ์ถ๋ค๋ฉด?4.1 DreamStudio4.2 HuggingFace์ Web DemoOUTRO์ฐธ๊ณ ๋ฌธํ ๋ฐ ์ถ์ฒ
ย
ย
1. ์ง์ ์ฅ๋ฒฝ์ ๋ฎ์ถ๊ณ , ํจ์จ์ ๋์ด์ฌ๋ฆฌ๋ค
์์ ๋ง์๋๋ ธ๋ฏ์ด, Text-to-Image ๋ชจ๋ธ์ด๋ ์ฌ์ฉ์๊ฐ ํ๋กฌํํธ์ ์
๋ ฅํ ํ
์คํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค์ด๋ด๋ ์์ฑ AI์ ํ ์ข
๋ฅ์
๋๋ค. ์ ์ Text-to-Image ๋ชจ๋ธ์ ๋ณ์ฒ์ฌ๋ฅผ ๊ฐ๋ตํ๊ฒ ์ดํด๋ณผ๊น์?
Stable Diffusion์ด ๋์ค๊ธฐ ํ์ฐธ ์ ์ธ 2021๋
1์, OpenAI์์ DALL-E๋ผ๋ ์ด๋ฆ์ Text-to-Image ๋ชจ๋ธ์ ๋ฐํํ์ต๋๋ค. 2020๋
ํ
์คํธ ์์ฑ ๋ชจ๋ธ GPT-3๊ฐ ๋์ฑ๊ณต์ ๊ฑฐ๋ ํ ๋ด๋์ GPT์ ์ด๋ฏธ์ง ์์ฑ ๋ฒ์ ์ด์์ฃ .
๊ทธ๋ฆฌ๊ณ 2022๋
4์, DALL-E์ ํ์์์ธ DALL-E 2๊ฐ ๊ณต๊ฐ๋์์ต๋๋ค. GPT ๊ธฐ๋ฐ์ด์๋ ์ ์๊ณผ ๋ฌ๋ฆฌ Diffusion ๋ชจ๋ธ์ ์ ์ฉํด ๋ง์ ์ฑ๋ฅ ํฅ์์ ์ด๋ค์ต๋๋ค.
๊ฐ์ ํด 5์, ์ด์ ์ง์ธ๋ผ ๊ตฌ๊ธ์์ Imagen์ด๋ผ๋ ์ด๋ฆ์ ๊ณ ์ฑ๋ฅ Text-to-Image ๋ชจ๋ธ์ ๋ฐํํ์ฃ . ๊ทธ๋ฆฌ๊ณ ๋ ๋ฌ ๋ค์ธ 2022๋
7์์๋, ์์ ๋ณด์๋ ๋ฉ์ง ๊ทธ๋ฆผ์ ์ฃผ์ธ๊ณต Midjourney๊ฐ ํ์ํ์ต๋๋ค.
DALL-E๊ฐ ๋ง์ ์ด๋ค์๊ฒ ์ ๊ธฐํจ์ ์๊ฒจ์ฃผ์๋ค๋ฉด, ์ดํ ๊ณต๊ฐ๋ DALL-E 2์ Imagen ๊ทธ๋ฆฌ๊ณ Midjourney๋ ๋๋ผ์ ๊ทธ ์์ฒด์์ต๋๋ค. ์ธ๊ณต์ง๋ฅ์ ๊ทธ๋ฆผ ์ค๋ ฅ์ด ์ธ๊ฐ์ ๋ฅ๋ ฅ์ ๋์ด์๋ ๋ ์ด ๋จธ์ง์์์์ ๋๋ผ๊ฒ ํด ์ฃผ์์ฃ .
๊ทธ๋ฌ๋, ์ด ๋ชจ๋ธ๋ค์๊ฒ๋ ๊ณตํต์ ์ผ๋ก ์์ฌ์ด ์ ์ด ํ ๊ฐ์ง ์์์ต๋๋ค. ๋ฐ๋ก โ์ ๊ทผ์ฑโ์ด์์ฃ . ์ด ๋ชจ๋ธ๋ค์ ๋ชจ๋ ์คํ์์ค๋ก ๊ณต๊ฐ๊ฐ ๋์ง ์์์ต๋๋ค. ๋ํ ์์์ ์ฌ๋๋ค๋ง ์ฌ์ฉ ๊ฐ๋ฅํ๊ฑฐ๋, ์ผ์ ํฌ๋ ๋ง ์ด์ ์ฌ์ฉํ๊ธฐ ์ํด์๋ ์ ๋ฃ ๊ฒฐ์ ๋ฅผ ํด์ผ ํ๋ ๋ฑ์ ์ ํ์ด ์์์ต๋๋ค.
์ด๋ฌํ ์ํฉ์์, 2022๋
8์ 22์ผ Stability.ai ์ฌ์ ํ๊ฒฉ์ ์ธ ์คํ์์ค Text-to-Image ๋ชจ๋ธ์ด ๊ณต๊ฐ๋์๊ณ , ๊ทธ ๋ชจ๋ธ์ด ๋ฐ๋ก ์ค๋์ ์ฃผ์ ์ธ Stable Diffusion์
๋๋ค!
ย
Stable Diffusion์ด ๋ชจ๋ธ, ์ฝ๋ ๋ฑ์ ๋ชจ๋ ๊ณต๊ฐํ ์คํ์์ค ๋ชจ๋ธ์ด๋ผ๋ ์ ์ด ์ ํ๊ฒฉ์ ์ธ ๊ฑธ๊น์?
DALL-E 2, Imagen, Midjourney์ ๊ฐ์ด ๊ท๋ชจ๊ฐ ํฐ ๋ชจ๋ธ์ ํ์ต ๊ณผ์ ์๋ ๋ง์ ์์ GPU๋ฅผ ํฌํจํด ์ฒ๋ฌธํ์ ์ธ ๋น์ฉ์ด ๋ค์ด๊ฐ๋๋ค. ๋๋ฌธ์ ์ด๋ ๊ฒ ๋ง์ ๋น์ฉ์ด ๋ค์ด๊ฐ ๋ชจ๋ธ์ ์ฝ์ฌ๋ฆฌ ๊ณต๊ฐํ๊ธฐ๋ ์ด๋ ค์ด ์ผ์ด์ฃ .
๊ทธ๋ฌ๋ Stable Diffusion์, ๋ง์ฐฌ๊ฐ์ง๋ก ์์ฒญ๋๊ฒ ๋ง์ ๋ฆฌ์์ค๋ฅผ ๋ค์ฌ ํ์ตํ์์๋ ์ด๊ฒ์ ๋๊ตฌ๋ ์ฌ์ฉํ ์ ์๋๋ก ๋ชจ๋ ๊ณต๊ฐํ์ต๋๋ค. ์ค์ ๋ก ๊นํ๋ธ ์ฃผ์๋ฅผ ํตํด ์ฝ๋๋ฅผ ๋ด๋ ค๋ฐ์ ์ ์์ผ๋ฉฐ, ํ์ด์ฌ ๋ชจ๋์ ์ด์ฉํด ์ฝ๋ฉ ํ๊ฒฝ์์ ์ฝ๋ ๋ช ์ค๋ก๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์์ต๋๋ค.
์คํ ์์ค๋ผ๋ ํน์ฑ์ผ๋ก ์ธํด ๋๊ตฌ๋ ๊ณ ์ฑ๋ฅ์ ์ด๋ฏธ์ง ์์ฑ AI๋ฅผ ์ฌ์ฉํ ์ ์๊ฒ ๋์๊ณ , ์ด๋ฅผ ํตํด ์๋ง์ ์์ฉ ๋ชจ๋ธ๊ณผ ์๋น์ค์ ํ์ ๊ฐ๋ฅ์ฑ๊น์ง ๋ด๋น์น๊ณ ์์ผ๋, ์ ๋ง ํ๊ฒฉ์ ์ธ ๋ชจ๋ธ์ด๋ผ๊ณ ํ ์ ์์ ๊ฒ ๊ฐ์ต๋๋ค.
์ ์๋ฌด๋ฆฌ ์คํ์์ค๋ผ๊ณ ํด๋, ์ผ๋ฐ ์ฌ์ฉ์์ ์ปดํจํ
ํ๊ฒฝ์์ ๊ณ ์ฑ๋ฅ ๋ชจ๋ธ์ ์ฌ์ฉํ๊ธฐ์๋ ๋ถ๋ด์ด ์์ง ์์๊น์?
Stable Diffusion์ ์คํ ์์ค๋ก ์ง์
์ฅ๋ฒฝ์ ํ๋ฌผ๊ณ , ๋์ ํจ์จ์ฑ์ผ๋ก ์ผ๋ฐ ์ฌ์ฉ์์ ์ ๊ทผ์ฑ์ ๊ทน๋ํํ์ต๋๋ค. ๊ธฐ์กด์ ๋ํ ๋ชจ๋ธ๋ค์ ์ข์ ์ฑ๋ฅ์ ๋ด์ง๋ง ๋ชจ๋ธ์ ์ค์ ๋ฐ์ดํฐ๋ฅผ ๋ฃ์ด ์์
์ ์ํํ๋ Inference ๊ณผ์ ์์ ๋๋ฌด ๋ง์ ์ปดํจํ
์์์ด ๋ค์ด๊ฐ๋ค๋ ๋จ์ ์ด ์์์ต๋๋ค.
๊ทธ๋ฌ๋ Stable Diffusion์ ์ผ๋ฐ GPU 1๊ฐ๋ก ๊ตฌ์ฑ๋ ๊ทธ๋ฆฌ ๋์ง ์์ ์ฑ๋ฅ์ ํ๊ฒฝ์์๋ ์ถฉ๋ถํ Inference ๊ฐ๋ฅํ ์ ๋์ ํจ์จ์ฑ์ ๋ณด์ธ๋ค๋ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๊ฐ ์์ต๋๋ค. Stable Diffusion์ ์คํ์์ค ์ถ์๊ฐ ๋๊ตฌ๋ ์ฌ์ฉ ๊ฐ๋ฅํจ์ ์๋ฏธํ๋ค๋ฉด, ๋์ ํจ์จ์ฑ์ ์ด๋ฅผ ๋๊ตฌ๋ โ์ฝ๊ฒโ ์ฌ์ฉ ๊ฐ๋ฅํ๋๋ก ์ด๋์๋ค๊ณ ํ ์ ์์ ๊ฒ์
๋๋ค.
ย
ย
2. Diffusion ๋ชจ๋ธ, ๊ทธ๊ฒ ๋ญ๋ฐ?
Stable Diffusion์ ๋ํด ์ดํดํ๊ธฐ ์ํด์๋, ๋จผ์ Diffusion ๋ชจ๋ธ์ ๋ํด ์์์ผ ํฉ๋๋ค. ๊ทธ ์ด๋ฆ์์๋ ์ ์ ์๋ฏ์ด Diffusion์ด๋ผ๋ ์์ฑ ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ๊ธฐ ๋๋ฌธ์ด์ฃ .
Diffusion ์ด๋ ๋ฌด์์ผ๊น์?
๋ฌผ์ด ๋ด๊ธด ์ปต์ ์ํฌ๋ฅผ ํ ๋ฐฉ์ธ ๋จ์ดํธ๋ ธ๋ค๊ณ ๊ฐ์ ํด ๋ด
์๋ค. ์ํฌ๊ฐ ๋ฌผ์ ๋ฟ์ ์๊ฐ๋ถํฐ ํผ์ ธ๋๊ฐ ๊ตฌ์๊ตฌ์ ๋ฒ์ง ๊ฒ์
๋๋ค. ์ฐ๋ฆฌ๋ ์ด๊ฒ์ ํ์ฐ, ์ฆ Diffusion์ด๋ผ๊ณ ๋ถ๋ฆ
๋๋ค.
๊ทธ๋ ๋ค๋ฉด, ์ฌ๊ธฐ์ ์ํฌ๊ฐ ๋ฌผ์ ํ์ฐ๋๊ธฐ ์ ์ ์ํฉ์ผ๋ก ๋๋๋ฆด ์ ์์๊น์?
Diffusion ๋ชจ๋ธ์ ๋ฐ๋ก ์ด ์ง์ ์ผ๋ก๋ถํฐ ์ฐฉ์๋์์ต๋๋ค. โ์ํฌ๊ฐ ๋ฒ์ ธ ํ์ฒด๋ฅผ ์์๋ณผ ์ ์๊ฒ ๋ ์ด๋ฏธ์ง๋ฅผ ๋ฐ์ ์ฐจ๊ทผ์ฐจ๊ทผ ๋์ง์ด๊ฐ๋ฉฐ ์ต๋ํ ์๋ณธ์ ๊ฐ๊น๊ฒ ๋ณต์ํ๋ ๊ฒ์ ํ์ต์ํจ๋ค๋ฉด, ๊ทธ ํ์ ์๋ณธ์ ์ ์ ์๋ ์ด๋ฏธ์ง๋ก๋ถํฐ ์ถ๋ฐํด๋ ์ฝ๊ฐ์ ํํธ๋ง ์๋ค๋ฉด ์๋ณธ์ ๊ฐ๊น๊ฒ ๋ณต์ํ ์ ์์ง ์์๊น?โ๋ผ๋ ์์ด๋์ด์ธ ๊ฒ์ด์ฃ .
Note
์ฃผ๋ชฉํ ๋งํ ๋ถ๋ถ์ โ์๋ณธ์ ๊ฐ๊น๊ฒ ๋ณต์โํ๋ค๋ ๊ฒ์
๋๋ค. ์ฌ๊ธฐ์ โ์๋ณธ ๋ฐ์ดํฐ๋ฅผ ๊ทผ์ฌํ๋โ,
์ฆ โ์ถฉ๋ถํ ์์ ๋ฒํ์ง๋ง ์๋ก์ดโ ์ด๋ฏธ์ง๊ฐ ์์ฑ๋๋ ๊ฒ์
๋๋ค.
์์ฑ ๋ชจ๋ธ์ ๊ดํตํ๋ ํต์ฌ ๊ฐ๋
์ด๋ผ๊ณ ๋ ํ ์ ์์ฃ .
๊ทธ๋์ Diffusion ๋ชจ๋ธ์ ํ์ต ๊ณผ์ ์์ ์ด๋ฏธ์ง์ ๋
ธ์ด์ฆ๋ฅผ ์์ด ์ผ๋ถ๋ฌ ํ์ฒด๋ฅผ ์์๋ณผ ์ ์๊ฒ ๋ง๋ญ๋๋ค. ๊ทธ๋ฐ ๋ค์ ์์ ํ ๋
ธ์ด์ฆ๋ก ๋ค๋ฎ์ธ ์ด๋ฏธ์ง๋ฅผ ์ญ์ฐ์ฐ์ ํตํด ํ ๋จ๊ณ์ฉ ๋ณต์ํด๋๊ฐ๋ ๊ฒ์ ํ์ตํ์ฃ . ์ฆ, โ์์ ์ง์ ์ผ๋ก ๋๋์๊ฐ๋ ๋ฒโ์ ์์๊ฐ๋ ๊ฒ์ด Diffusion ๋ชจ๋ธ์ ํ์ต ๋ชฉํ์
๋๋ค.
๊ทธ๋ฆฌ๊ณ ์ด ๋ชฉํ๋ ์ด๋ฏธ์ง์ ๋
ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๋ Forward(Diffusion) Process์ ๋
ธ์ด์ฆ๋ก๋ถํฐ ์ด๋ฏธ์ง๋ฅผ ๋ณต์ํ๋ Reverse Process, ์ด ๋ ๊ฐ์ง ํ๋ก์ธ์ค๋ฅผ ํตํด ์ด๋ฃจ์ด์ง๋๋ค.
ย
2.1 ์ด๋ฏธ์ง์ ๋ ธ์ด์ฆ ๋ผ์น๊ธฐ: Forward Process
ย
ย
๋จผ์ , Forward Process์ ๋ชฉํ๋ ์ด๋ฏธ์ง์ ์ ์ง์ ์ผ๋ก ๋
ธ์ด์ฆ๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์
๋๋ค. ์ ์ง์ ์ด๋ผ๋ ๋ง์ ์ฆ, ์๊ฒ ๋๋ ์ง Time Step์ ๊ฑฐ์น๋ฉฐ ๋
ธ์ด์ฆ๋ฅผ ์กฐ๊ธ์ฉ ์ฃผ์
ํ๋ค๋ ๋ป์ธ๋ฐ์.
Diffusion ๋ชจ๋ธ์ ์๊ฐํ ๋
ผ๋ฌธ <Denoising Diffusion Probabilistic Models>์์๋ ์ด๋ฏธ์ง์ ๋
ธ์ด์ฆ๊ฐ ์ฃผ์
๋์ง ์์ ์์ ์ , ์ด ์ด๋ฏธ์ง๊ฐ ์์ ํ ๋
ธ์ด์ฆ๊ฐ ๋ ์์ ์ ๋ก ํํํ์ต๋๋ค. Forward Process๋ฅผ ๋ค์ ๋งํ๋ค๋ฉด, ์ด๋ฏธ์ง()๋ฅผ ๋
ธ์ด์ฆ()๋ก ๋ง๋ค์ด๊ฐ๋ ๊ณผ์ ์ด๋ผ๊ณ ํ ์ ์๊ฒ ๋ค์.
์ด์ ์ด ๊ณผ์ ์ ์ผ๋ฐํํด ๊ฐ ๋จ๊ณ์์ ์ด๋ค ์ผ์ด ์ผ์ด๋๋์ง ์ดํด๋ณด๊ฒ ์ต๋๋ค. ๊ณผ ์ฌ์ด์ ์ด๋ค ์์ ์ ๋ํด ์์ ๋ก ๊ฐ๋ ๊ณผ์ ์ ์ ์๊ณผ ๊ฐ์ด ๋ํ๋ผ ์ ์์ต๋๋ค.
์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ฌ์ฉํด ์ด ์ฃผ์ด์ก์ ๋ ์ Gaussian ๋ถํฌ๋ฅผ ๋ํ๋ด์๋๋ฐ์. ์ด๋ ์ด์ ์์ ์ ๋ฅผ ๊ณฑํ ๊ฒ์ด ๋ค์ ์์ ์ ํ๊ท ์ด ๋๊ณ , ์ ๋ฅผ ๊ณฑํด ๋ถ์ฐ์ด ๋จ์ผ๋ก์จ ๋
ธ์ด์ฆ๊ฐ ์ถ๊ฐ๋ฉ๋๋ค. ์ฌ๊ธฐ์ ๊ฐ ๋
ธ์ด์ฆ๋ฅผ ๊ฒฐ์ ์ง๋ ์์๋ก, ์ด๋ฏธ์ง๊ฐ ๋
ธ์ด์ฆ์ ๊ฐ๊น์์ง์๋ก ์ปค์ง๋๋ค ().
๋ฐ๋ผ์ Forward Process์ ์ ์ฒด ๊ณผ์ ์ ์์ผ๋ก ๋ํ๋ด๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
ย
2.2 ์ฅ์ธ ์ ์ ์ผ๋ก ์ด๋ฏธ์ง ๋ณต์ํ๊ธฐ: Reverse Process
ย
ย
์ด์ Reverse Process๋ฅผ ์ดํด๋ณด๊ฒ ์ต๋๋ค. Reverse Process์ ๋ชฉํ๋ ๋
ธ์ด์ฆ()๋ก๋ถํฐ ์ด๋ฏธ์ง()๋ฅผ ๋ณต์ํ๋ ๊ฒ์
๋๋ค. ์ด ๊ณผ์ ์ ํตํด ์ต์ข
์ ์ผ๋ก ์ด๋ฏธ์ง๊ฐ ์์ฑ๋๋ฏ๋ก, Reverse Process๊ฐ ๊ณง ์์ฑ ๋ชจ๋ธ์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค.
์ด ๊ณผ์ ์์๋ Forward Process์ ๋ฐ๋๋ก ์ ์ฌ์ด์ ์ด๋ค ์์ ์ ๋ํด ์์ ๋ก ๊ฐ๋ ๊ณผ์ ์ ์ดํด๋ด์ผ๊ฒ ์ฃ ? ๋ค์๊ณผ ๊ฐ์ ์์ผ๋ก ๋ํ๋ผ ์ ์์ต๋๋ค.
์ด๋ฒ์๋ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์ฌ์ฉํด ๊ฐ ์ฃผ์ด์ก์ ๋ ์ ๋ถํฌ๋ฅผ ํํํ์ต๋๋ค. ๋ง์ฐฌ๊ฐ์ง๋ก ์ด์ ๋จ๊ณ์ธ ๋ฅผ ์ด์ฉํด ๋ค์ ๋จ๊ณ์ธ ์ ํ๊ท ๊ณผ ๋ถ์ฐ์ ๋ํ๋ด์๋ค์. ์ฌ๊ธฐ์ ์ ๋ ํ์ต์ ํตํด ์ต์ ํ๋์ด์ผ ํ ํ๋ผ๋ฏธํฐ์
๋๋ค. ๋ฐ๋ผ์ Reverse Process์ ์ ์ฒด ๊ณผ์ ์ ์์ผ๋ก ํํํ๋ฉด ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ด๋ ๊ฒ ๋
ธ์ด์ฆ๋ฅผ ์กฐ๊ธ์ฉ ๊ฑท์ด๋ด๋ฉด์ ์ด๋ฏธ์ง๋ฅผ ๋ณต์ํ๋ ๊ณผ์ ์ Denoising์ด๋ผ๊ณ ํฉ๋๋ค. ์ต์ข
์ ์ผ๋ก ์ด Reverse Process๊ฐ ํ์ต์ ๋ง์น๋ฉด, ์ด์ ๋๋ค ํ ๋
ธ์ด์ฆ๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฐ์ Denoising์ ํตํด ์ํ๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํด ๋ด๋ ๋ชจ๋ธ์ด ํ์ต๋ ๊ฒ์
๋๋ค!
ย
ย
3. Stable Diffusion์ 3์์
์ด์ Diffusion ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ Stable Diffusion์ ์๋ ์๋ฆฌ๋ฅผ ์์๋ด
์๋ค. Stable Diffusion์ ํฌ๊ฒ ์ธ ๋ถ๋ถ์ผ๋ก ๋๋ ์ ์์ต๋๋ค.
Stable Diffusion์ 3๊ฐ์ง ๊ตฌ์ฑ์์
- ์ฌ์ฉ์๊ฐ ํ๋กฌํํธ์ ์ ๋ ฅํ ํ ์คํธ๋ฅผ ๋ฒกํฐ๋ก ์๋ฒ ๋ฉํ๋ ํ ์คํธ ์ธ์ฝ๋
- ํ ์คํธ ์๋ฒ ๋ฉ ์ ๋ณด๋ฅผ ๋ฐ์ ๊ทธ์ ๋ง๋ ์ด๋ฏธ์ง ์ ๋ณด๋ฅผ ์์ฑํ๋ ์ด๋ฏธ์ง ์์ฑ๊ธฐ
- ์ด ์ ๋ณด๋ฅผ ํฝ์ ๋ก ๋ณํํด ์ค์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ์ด๋ฏธ์ง ๋์ฝ๋
ย
์ด 3์์๋ฅผ ์ค๋ช
ํ๊ธฐ์ ์์, Stable Diffusion์ ํฝ์
๊ณต๊ฐ์์ ์๋ํ๋ ๊ธฐ์กด Diffusion ๋ชจ๋ธ๊ณผ ๋ฌ๋ฆฌ Latent Space๋ผ๊ณ ํ๋ ์ด๋ฏธ์ง ์ ๋ณด ๊ณต๊ฐ์์ ์๋ํฉ๋๋ค. Stable Diffusion์ Diffusion ๋ชจ๋ธ ์ค์์๋ Latent Diffusion ๋ชจ๋ธ์ด๋ผ๊ณ ๋ถ๋ฅด๋ ์ด์ ์ด์ฃ .
Latent Space๋, ์ ์ฌ ๊ณต๊ฐ ํน์ ์๋ฒ ๋ฉ ๊ณต๊ฐ์ผ๋ก ๋ถ๋ฆฌ๋ ๊ฒ์ผ๋ก, ๋ฐ์ดํฐ๋ฅผ ๋ช ๊ฐ์ง ํน์ฑ์ ๋ฐ๋ผ ๋ถ๋ฅํด๋์ ๋ค์ฐจ์์ ๊ณต๊ฐ์
๋๋ค. ์ด Latent Space์์ ์์
ํ๊ฒ ๋๋ฉด ์ด๋ฏธ์ง๋ฅผ ์์ถํด์ ํํํ ์ ์๊ธฐ ๋๋ฌธ์ ๋ค๋ฃจ๋ ๋ฐ์ดํฐ์ ํฌ๊ธฐ๊ฐ ํจ์ฌ ์์์ง๋๋ค.
๊ธฐ์กด์ ํฝ์
๊ธฐ๋ฐ ๊ณ์ฐ ๋ฐฉ์์ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๊ฐ 1024x1024x3 ํฝ์
๋ง ๋์ด๋ ์์ฒญ๋ ๊ณ์ฐ๋์ ํ์๋ก ํ๊ธฐ ๋๋ฌธ์ ์๋๊ฐ ๋๋ฆฌ๋ค๋ ๋จ์ ์ด ์์์ง๋ง, Stable Diffusion์ Latent Space๋ฅผ ๋์
ํด ์์ถ๋ ์ด๋ฏธ์ง ํํ์ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ ํ์ง๊ณผ ๋๋ถ์ด ๋น ๋ฅธ ์๋๋ฅผ ์ฅ์ ์ผ๋ก ๋ด์ธ์ธ ์ ์๊ฒ ๋ ๊ฒ์ด์ฃ .
ย
3.1 ํ ์คํธ ์ธ์ฝ๋ CLIP
๋จผ์ , ์ฌ์ฉ์๊ฐ ๊ทธ๋ ค๋ฌ๋ผ๊ณ ์์ฒญํ ํ
์คํธ๋ฅผ ์ดํดํด์ผ ํ๊ฒ ์ฃ ? ์ฒซ ๋ฒ์งธ๋ CLIP์ด๋ผ๋ ์ด๋ฆ์ ํ
์คํธ ์ธ์ฝ๋์
๋๋ค. ์ด ํ
์คํธ ์ธ์ฝ๋๊ฐ ํ๋ ์ผ์ ์
๋ ฅ์ผ๋ก ๋ค์ด์จ ๋ฐ์ดํฐ๋ฅผ Latent Vector๋ก ์๋ฒ ๋ฉํ๋ ๊ฒ์
๋๋ค.
์๋ฅผ ๋ค์ด โAn astronaut riding a horseโ๊ฐ Input์ผ๋ก ๋ค์ด์๋ค๋ฉด, ์ด ํ
์คํธ ์ธ์ฝ๋๊ฐ ๋จ์ด ์๋ฒ ๋ฉ์ ์งํํด
Astronaut
, Horse
๋ฑ์ ํ ํฐ์ Latent Space์ ์์น์ํค๋ ์์
๋๋ค. ๋ฐ๋ผ์ ์ด ๋จ๊ณ์ ์ถ๋ ฅ์ ์๋ฒ ๋ฉ๋ Latent ๋ฒกํฐ๊ฐ ๋ฉ๋๋ค. ย
3.2 ์ด๋ฏธ์ง ์์ฑ๊ธฐ UNet๊ณผ Scheduler
๋ ๋ฒ์งธ๋ ์ด๋ฏธ์ง ์์ฑ์ ๋ด๋นํ๋ ๋ถ๋ถ์
๋๋ค. Stable Diffusion์ ํต์ฌ์ด๋ผ๊ณ ๋ ํ ์ ์์ฃ . ์ด ๋ถ๋ถ์์ ์์ ์ดํด๋ดค๋ Diffusion ๋ชจ๋ธ์ ์๋ฆฌ๊ฐ ์ฐ์
๋๋ค.
์ด์ ๊ณผ์ ์ธ ํ
์คํธ ์ธ์ฝ๋์์ ๋ง๋ค์ด์ง ์๋ฒ ๋ฉ ๋ฒกํฐ๊ฐ U์ ๋ชจ์์ UNet์ด๋ผ๊ณ ํ๋ ๋คํธ์ํฌ ๊ตฌ์กฐ๋ก ์ ๋ฌ๋ฉ๋๋ค. UNet์์๋ ์ด ํ
์คํธ ์๋ฒ ๋ฉ์ ๋ฐ๋ผ ์กฐ๊ฑดํ(Conditioning) ๋ ์ํ๋ก ๋๋ค ๋
ธ์ด์ฆ, ์ฆ Random Latent Vector๋ฅผ Denoise ํ๋ ๊ณผ์ ์ ๋ฐ๋ณตํฉ๋๋ค. ์ฌ๊ธฐ์ ํ
์คํธ ์๋ฒ ๋ฉ์ ์ด์ฉํ ์กฐ๊ฑดํ๋ฅผ ํตํด ํ
์คํธ์ ๋ด์ฉ๊ณผ ๋ง๋ ๋ฐฉํฅ์ผ๋ก Denoise ๋๋ฉด์ ์ด๋ฏธ์ง๊ฐ ์์ฑ๋๋ ๊ฒ์ด์ฃ .
๋ํ Denoising์ ๊ฐ ๋จ๊ณ์์ ์ถ๊ฐ๋ ๋
ธ์ด์ฆ๋ฅผ ์กฐ์ ํด ์ฃผ๋ ์ญํ ๋ก Scheduler๊ฐ ์ฌ์ฉ๋ฉ๋๋ค. UNet๊ณผ Scheduler๊ฐ ํ ๋ชธ์ฒ๋ผ ์์ง์ด๋ฉฐ ์กฐ๊ฑดํ๋ ์ ๋ณด์ ๋ฐ๋ผ Denoising ๊ณผ์ ์ ๋ฐ๋ณตํ๋ ๊ฒ์ด์ฃ .
์ต์ข
์ ์ผ๋ก UNet๊ณผ Scheduler๋ก ๊ตฌ์ฑ๋ ์ด ๊ณผ์ ์ ๊ฑฐ์น๊ณ ๋๋ฉด, ์์ฑํ ์ด๋ฏธ์ง ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ ์ ํด์๋์ Latent ๋ฒกํฐ๊ฐ ์์ฑ๋ฉ๋๋ค. ๋ฐ๋ผ์ ์ด ๋จ๊ณ์ ์
๋ ฅ์ ํ
์คํธ ์๋ฒ ๋ฉ ๋ฒกํฐ์ ๋๋ค ๋
ธ์ด์ฆ์ด๊ณ , ์ถ๋ ฅ์ ์ด๋ฏธ์ง์ ์ ๋ณด๋ฅผ ๋ด์ Latent ๋ฒกํฐ์
๋๋ค.
ย
3.3 ์ด๋ฏธ์ง ๋์ฝ๋ VAE
์ด๋ฏธ์ง ์์ฑ๊ธฐ์์ ์์ฑ๋ ๋ฐ์ดํฐ์ ํํ๊ฐ Pixel ํํ๊ฐ ์๋ Latent ๋ฒกํฐ ํํ์ด๊ธฐ ๋๋ฌธ์, ์ด๋ฅผ ์ค์ ์ด๋ฏธ์ง๋ก ๋ง๋ค๊ธฐ ์ํด Pixel๋ก ๋ณํํ๋ Decode ๊ณผ์ ์ด ํ์ํฉ๋๋ค. ์ฌ๊ธฐ์ VAE(Variational Auto Encoder/Decoder)๋ผ๊ณ ํ๋ ๋คํธ์ํฌ๊ฐ ์ฐ์
๋๋ค.
VAE๋ ๋ค์ด์จ ์
๋ ฅ์ ๋ฐํ์ผ๋ก Encoder์ Decoder ๊ตฌ์กฐ๋ฅผ ํตํด ์๋ก์ด ๋ฐ์ดํฐ๋ฅผ ๋ง๋ค์ด๋ด๋ ๋ ๋ค๋ฅธ ์์ฑ ๋ชจ๋ธ์ธ๋ฐ์. ์ฌ๊ธฐ์๋ ์ด VAE์ Decoder ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ต์ข
์ ์ผ๋ก Latent ๋ฒกํฐ๋ฅผ ์ฐ๋ฆฌ๊ฐ ์ํ๋ ์ฌ์ด์ฆ์ ์ด๋ฏธ์ง๋ก Decode ํจ์ผ๋ก์จ ์์ฑ๋ ์ด๋ฏธ์ง๋ฅผ ์ป์ ์ ์๋ ๊ฒ์
๋๋ค.
ย
ย
4. Stable Diffusion, ๋๋ ํ ๋ฒ ์จ๋ณด๊ณ ์ถ๋ค๋ฉด?
๋ฐฑ๋ฌธ์ด ๋ถ์ฌ์ผ๊ฒฌ์ด์ฃ . ๋ง์ง๋ง์ผ๋ก Stable Diffusion์ ์ด์ฉํด ์ง์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์๋ ์น์ฌ์ดํธ๋ฅผ ์๊ฐํ๊ฒ ์ต๋๋ค.
4.1 DreamStudio
ย
DreamStudio๋ Stable Diffusion์ ๊ฐ๋ฐํ Stability.ai ์ฌ์์ ๋ด๋์ ๊ณต์ ์๋น์ค์
๋๋ค. ์ฒ์ ๊ฐ์
ํ๋ฉด ์ ๊ณต๋๋ 200 ํฌ๋ ๋ง์ ์์งํ๋ฉด ์ ๋ฃ๋ก ์ ํ๋๋๋ฐ์, ์ด๋ฏธ์ง ํ ์ฅ ๋น 0.2 ํฌ๋ ๋ง์ด๋ฏ๋ก ์ฝ 1,000์ฅ์ ์ด๋ฏธ์ง๋ฅผ ๋ฌด๋ฃ๋ก ์์ฑํ ์ ์์ต๋๋ค.
์ฌ์ฉ ๋ฐฉ๋ฒ์ ๊ฐ๋จํฉ๋๋ค. ๊ฐ์
ํ ๋ณด์ด๋ ๋ฉ์ธ ํ์ด์ง ํ๋จ์ ํ๋กฌํํธ์ ์์ฑํ๊ณ ์ ํ๋ ์ด๋ฏธ์ง์ ๋ํ ์ค๋ช
์ ์์ฑํ๋ฉด ๋ฉ๋๋ค. ๋ค์๊ณผ ๊ฐ์ ํ๋กฌํํธ๋ฅผ ์
๋ ฅํด ์ด๋ฏธ์ง๋ฅผ ์์ฑํด ๋ณด์์ต๋๋ค.
>> Deep dive into the world of Artificial Intelligence, concept art, matte painting, HQ, 4k
DreamStudio์ ๊ฐ์ฅ ํฐ ์ฅ์ ์ ์ด๋ฏธ์ง ์์ฑ ์๊ฐ์ด 5์ด ์ ๋๋ก ๋งค์ฐ ์งง๋ค๋ ๊ฒ์
๋๋ค. ๋ฉ์ธ ํ์ด์ง ์ฐ์ธก์ ๊ธฐ๋ฅ๋ค์ ํตํด ์์ฑํ ์ด๋ฏธ์ง์ ํฌ๊ธฐ, ์ ๊ทธ๋ฆฌ๊ณ ๋ชจ๋ธ์ ๋ฒ์ ๊น์ง๋ ์ค์ ํ ์ ์์ด ์กฐ๊ธ ๋ ๋ํ
์ผํ ์ด๋ฏธ์ง ์์ฑ์ด ๊ฐ๋ฅํ๋ ์ฐธ๊ณ ํ์๊ธฐ ๋ฐ๋๋๋ค.
ย
4.2 HuggingFace์ Web Demo
ย
๋ ๋ฒ์งธ๋ก, HuggingFace์์ ์ ๊ณตํ๋ Web Demo์
๋๋ค. ํ์ฌ Stable Diffusion์ ์ต์ ๋ฒ์ ์ธ 2.1์ด ์ ์ฉ๋์๋๋ฐ์, ์ด HuggingFace Demo๋ ๊ฐ์
์ด ํ์ ์์ผ๋ฉฐ, ์์ ํ ๋ฌด๋ฃ์
๋๋ค.
์ฌ์ฉ ๋ฐฉ๋ฒ์ ๋ง์ฐฌ๊ฐ์ง๋ก ๋ฉ์ธ ํ์ด์ง ์ค์์ ์๋ ํ๋กฌํํธ์ ์์ฑํ๊ณ ์ ํ๋ ์ด๋ฏธ์ง๋ฅผ ์ค๋ช
ํ๋ ํ
์คํธ๋ฅผ ์
๋ ฅํ๋ ๊ฒ์
๋๋ค.
๋ค๋ง, HuggingFace์ Demo์๋ ํ๋กฌํํธ๊ฐ ํ๋ ๋ ์๋๋ฐ์. ๋ ๋ฒ์งธ ํ๋กฌํํธ๋ Negative Prompt๋ก, ์ด๋ฏธ์ง ์์ฑ์ ํฌํจ๋์ง ์์์ผ๋ฉด ํ๋ ์์๋ฅผ ์
๋ ฅํ๋ ์ฉ๋์
๋๋ค.
DreamStudio์์์ ๊ฐ์ ํ๋กฌํํธ๋ฅผ ์
๋ ฅํด ์ด๋ฏธ์ง๋ฅผ ์์ฑํด ๋ณด์์ต๋๋ค.
>> Deep dive into the world of Artificial Intelligence, concept art, matte painting, HQ, 4k
HuggingFace์ Web Demo๋ ์์ ๋ณด์๋ DreamStrudio๋ณด๋ค ์ด๋ฏธ์ง ์์ฑ์ ๋ ๋ง์ ์๊ฐ์ด ์์๋ฉ๋๋ค. ํ๊ท ์ ์ผ๋ก ์ฝ 1๋ถ ์ ๋๊ฐ ๊ฑธ๋ฆฝ๋๋ค.
ย
ย
OUTRO
DALL-E 2, Imagen, Midjourney ๋ฑ Text-to-Image ์์ฑ ๋ชจ๋ธ ์ดํ์ ์ค์ฌ์ Stable Diffusion์ ์ด๋ ๊ฒ ์ธ์น๋ฉฐ ๋ฑ์ฅํ์ต๋๋ค.
โ์ผ, ๋๋ AI๋ก ๊ทธ๋ฆผ ๊ทธ๋ฆด ์ ์์ด!โ
Stable Diffusion์ ๋ฑ์ฅ์ผ๋ก Text-to-Image ๋ถ์ผ์ ๋ฌธ์ด ํ์ง ์ด๋ฆฐ ํํธ, AI๊ฐ ์์ ๊ฐ๋ฅผ ๋์ฒดํ๋ ๊ฒ์ด ์๋๋๋ ์ฐ๋ ค์ ๋ชฉ์๋ฆฌ๋ ๋์ค๊ณ ์๋๋ฐ์. ์์ง์ ์์ ๊ฐ๋ฅผ ๋์ฒดํ๋ค๊ธฐ๋ณด๋ค, ์์ ๊ฐ๋ฅผ ๋ณด์กฐํ๋ ์ฐฝ์ ๋๊ตฌ๋ก์์ ์ฐ์์ด ๋ ์ ํฉํ๋ค๊ณ ํ ์ ์์ต๋๋ค ๐
Stable Diffusion์ ์คํ์์ค ์ถ์๊ฐ ๊ฐ์ ธ์ฌ ๋ ํ ๋ฒ์ ํ์ ์ ์ฃผ๋ชฉํจ๊ณผ ๋๋ถ์ด, ๋์์์ด ๋ฐ์ ํ๋ AI ๋ชจ๋ธ์ ์ด๋ป๊ฒ ๋ฐ์๋ค์ด๊ณ ์ฌ์ฉํ ์ง์ ๊ดํ ๋
ผ์๊ฐ ํจ๊ป ์งํ๋๋ค๋ฉด, ๋ค๊ฐ์ค๋ ๋ฏธ๋๋ฅผ ์กฐ๊ธ ๋ ํ๋ช
ํ๊ฒ ๋๋นํ ์ ์์ ๊ฒ ๊ฐ์ต๋๋ค. ์ด๊ฒ์ผ๋ก ์ด๋ฒ ์ํฐํด์ ๋ง๋ฌด๋ฆฌํ๊ฒ ์ต๋๋ค๐ซก
ย
ย
ย
์๋ํฐ
ย
ย
ย
์ฐธ๊ณ ๋ฌธํ ๋ฐ ์ถ์ฒ
[1] Stable Diffusion ๋
ผ๋ฌธ: [2112.10752] High-Resolution Image Synthesis with Latent Diffusion Models (arxiv.org)
[2] Diffusion ๋ชจ๋ธ(DDPM) ๋
ผ๋ฌธ: [2112.10752] High-Resolution Image Synthesis with Latent Diffusion Models (arxiv.org)
[3] Stable Diffusion๊ณผ ์์ฑ ๋ชจ๋ธ ๊ด๋ จ ์ํฐํด: Stable Diffusion๊ณผ ์์ฑ๋ชจ๋ธ์ ํ์ (brunch.co.kr)
[4] Stability.ai ๊ณต์ ๋ธ๋ก๊ทธ: Stable Diffusion Public Release โ Stability AI
ย
ย
๋ฌธ์์ฌํญ manager@deepdaiv.com
ย