INTRO
์๋
ํ์ธ์๐๐ป Generative AI ์๋ฆฌ์ฆ์ ๋ง์ง๋ง ์ด์ผ๊ธฐ๋ก ์ฐพ์์์ต๋๋ค.
์ค๋์ ์ฃผ์ ๋ ๋ฐ๋ก ํ
์คํธ ๊ธฐ๋ฐ ๋น๋์ค ์์ฑ ๋ชจ๋ธ, Imagen Video์
๋๋ค. ์ง๋ ์ํฐํด์์ ํ
์คํธ ๊ธฐ๋ฐ ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ธ Stable Diffusion์ ๋ํด ๋ค๋ฃจ์๋๋ฐ์, ์ด์ ์ด๋ฏธ์ง ์์ฑ์์ ๋ ๋์๊ฐ ๋น๋์ค๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ์ด ๊ฐ๋ฐ๋๊ณ ์๋ค๊ณ ํฉ๋๋ค.
ย
์ฌ๋ฌ๋ถ ๋ชจ๋ ์ธ์คํ๊ทธ๋จ, ์ ํ๋ธ ๋ฑ์ผ๋ก ์งง์ ๋์์์ ๋๊ธฐ๋ฉฐ ์๊ฐ์ ๋ณด๋๋ ๊ฒฝํ์ด ์์ ๊ฒ์
๋๋ค๐ ์ด์ฒ๋ผ ์์
๋ฏธ๋์ด์ ๋ฐ๋ฌ๋ก ์ธํด ์ด์ฉ๋ฉด ๊ธ๋ณด๋ค ์์์ ๋ ๋ง์ด ์ ํ๋ ์๋๊ฐ ๋์ด๊ฐ๊ณ ์๋๋ฐ์. ์ด์ AI๊ฐ ์์๊น์ง ์ ์ํ๊ฒ ๋ ๋ ์ด ๋จธ์ง์์์ต๋๋ค.
๋๊ตฌ๋ ๊ฐ๋
์ด ๋์ด ๋๋ง์ ์์์ ๋ง๋๋ ์๋, ํ์ํ ๊ฒ์ ์์๋ ฅ์ด ๊ฐ๋ ๋ด๊ธด ๋ช ์ค์ ํ
์คํธ๊ฐ ์ ๋ถ๋ผ๋๋ฐ์. AI์ ๊ทธ๋ฆผ ์ค๋ ฅ๋ ๋๋ผ์ ๋๋ฐ ์ด์ ์์๊น์ง ๋ง๋ ๋ค๋, ์ด๋ป๊ฒ ๋ง๋๋ ๊ฑธ๊น์? ์ง๊ธ๋ถํฐ ์์๋ด
์๋ค.
ย
ย
[ ๋ชฉ์ฐจ ]
INTRO1. Text-to-Video ์์ฑ ๋ชจ๋ธ์ ๋ฑ์ฅ2. Imagen Video, ์ด๋ป๊ฒ ๋น๋์ค๋ฅผ ์์ฑํ ๊น?2.1 Cascaded Diffusion Models2.2 Video U-Net3. ์์ผ๋ก์ Text-to-Video ๋ชจ๋ธOUTRO์ฐธ๊ณ ๋ฌธํ ๋ฐ ์ถ์ฒ
ย
ย
1. Text-to-Video ์์ฑ ๋ชจ๋ธ์ ๋ฑ์ฅ
Text-to-Image ์์ฑ ๋ชจ๋ธ ์ดํ์ด ํ์ฐฝ์ด๋ 2022๋
9์ ๋ง, Meta(๊ตฌ ํ์ด์ค๋ถ)์์ ๋์์ ์์ฑ AI์ธ โMake-A-Videoโ๋ฅผ ๋ฐํํ์ต๋๋ค. Text-to-Image ์์ฑ ๋ชจ๋ธ๊ณผ ๋น์ทํ๊ฒ ์งง์ ๋ฌธ์ฅ์ ์
๋ ฅํ๋ฉด ๊ทธ ๋ด์ฉ์ ๋ด์ ์งง์ ๋์์์ด ์์ฑ๋๋ ๋ฐฉ์์ด์์ฃ . ๋ฉํ๊ฐ Make-A-Video๋ฅผ ์๊ฐํ๋ฉฐ ๊ณต๊ฐํ ์ผ๋ถ ๋์์์ ๊ธธ์ด๊ฐ ์งง์๊ณ , ๋ค์ ํ๋ฆฟํ๊ณ ๋ถ์์ฐ์ค๋ฌ์ด ๋ถ๋ถ๋ ์์์ง๋ง ์ฐฝ์์ ์ด๊ณ ์ธ์์ ์ธ ๊ฒฐ๊ณผ๋ฌผ๋ก ๋น๋์ค ์์ฑ AI์ ๊ฐ๋ฅ์ฑ์ ๋ถ๋ช
ํ๊ฒ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
Meta๊ฐ Make-A-Video๋ฅผ ๊ณต๊ฐํ ์ง ์ฑ ์ผ์ฃผ์ผ์ด ์ง๋์ง ์์ 2022๋
10์ ์ด, ๊ตฌ๊ธ์์๋ ๋น๋์ค ์์ฑ AI๋ฅผ ๊ณต๊ฐํ์ต๋๋ค. ๊ตฌ๊ธ์ 2๊ฐ์ Text-to-Video ์์ฑ ๋ชจ๋ธ์ ๊ณต๊ฐํ๋๋ฐ์, ๋ฐ๋ก Imagen Video์ Phenaki์
๋๋ค. ์ด ๋ ๋ชจ๋ธ์ ํ
์คํธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋น๋์ค๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ์ด๋ผ๋ ์ ์ ๊ฐ์ง๋ง, ์์ฑ์ ๋ชฉ์ ์ ๋ถ๋ช
ํ ์ฐจ์ด๊ฐ ์์ต๋๋ค. ํ๋๋ ์งง์ ๊ธธ์ด์ ๊ณ ํ์ง ๋น๋์ค๋ฅผ, ๋ค๋ฅธ ํ๋๋ ๊ธธ๊ณ ๊ตฌ์ฒด์ ์ธ ์ ํ์ง ๋น๋์ค๋ฅผ ์์ฑํ๋ค๋ ๊ฒ์
๋๋ค.
๋จผ์ ์ดํด๋ณผ Phenaki๋ ๊ทธ์ค ๋ ๊ธธ๊ณ ๊ตฌ์ฒด์ ์ธ ์ ํ์ง์ ๋น๋์ค๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ์
๋๋ค. ์์ฑํ๊ณ ์ ํ๋ ์์์ ์ด์ผ๊ธฐ๋ฅผ ๋ด์ ๋ช ๊ฐ์ ๋ฌธ์ฅ์ ํ๋กฌํํธ์ ์
๋ ฅํ๋ฉด, ์ต๋ 2๋ถ ๊ฐ๋์ ์์์ ์์ฑ ํด์ค๋๋ค. ์๋ ์์์ฒ๋ผ ์๋๋ฆฌ์ค ํํ์ ๊ธ์ ์
๋ ฅํ๋ฉด 2๋ถ์ง๋ฆฌ ๋จํธ ์ํ๋ฅผ ๋ง๋ค ์๋ ์๊ฒ ๋ค์๐คญ Phenaki๊ฐ ์์ฑํ ๋์์ ์ํ์ Penaki์ ๊ณต์ ์นํ์ด์ง์์ ํ์ธํ ์ ์์ต๋๋ค.
๋ง์ง๋ง์ผ๋ก, ์ค๋์ ์ฃผ์ ์ธ Imagen Video๋ ์ฝ 5.3์ด์ ์งค๋งํ ๊ณ ํ์ง ๋น๋์ค๋ฅผ ์์ฑํ๋ ๋ชจ๋ธ์
๋๋ค. Phenaki๊ฐ ๋น๋์ค์ โ์ผ๊ด์ฑ๊ณผ ๊ธธ์ดโ์ ์ค์ ์ ๋์๋ค๋ฉด Imagen Video๋ ๋น๋์ค์ โํ์งโ์ ์ค์ ์ ๋์๋ค๊ณ ํ ์ ์์ฃ . ๊ณ ํ์ง์ ๋น๋์ค๋ฅผ ์์ฑํ๊ธฐ ์ํด ์์ฆ ์์ฑ ๋ชจ๋ธ์์ ๋ง์ด ์ฐ์ด๊ณ ์๋ Diffusion ๋ชจ๋ธ์ ์ฌ์ฉํ๋ค๊ณ ํ๋๋ฐ์. ๊ทธ์ค์์๋ Diffusion ๋ชจ๋ธ์ ๋น๋์ค ์์ฑ ๋ฒ์ ์ผ๋ก ํ์ฅํ Video Diffusion ๋ชจ๋ธ์ ์๋กญ๊ฒ ์ ์ฉํ๋ค๊ณ ํฉ๋๋ค. ๊ทธ๋ผ Imagen Video๊ฐ ์ด๋ป๊ฒ ๋น๋์ค๋ฅผ ์์ฑํด ๋ด๋์ง, ๊ทธ ๋ด๋ถ๋ฅผ ๋ค์ฌ๋ค๋ณผ๊น์?
ย
ย
2. Imagen Video, ์ด๋ป๊ฒ ๋น๋์ค๋ฅผ ์์ฑํ ๊น?
Imagen Video๋ Diffusion ๋ชจ๋ธ์ ๋น๋์ค ์์ฑ์ ๋ง๊ฒ ํ์ฅํ Video Diffusion ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค. ๋น๋์ค ์์ฑ์ ๋ค์๊ณผ ๊ฐ์ด ํฌ๊ฒ ์ธ ๋จ๊ณ๋ก ์ด๋ฃจ์ด์ง๋๋ค.
Imagen Video์ ๋น๋์ค ์์ฑ ๊ณผ์
1. T5 ํ
์คํธ ์ธ์ฝ๋๋ฅผ ํตํ ํ
์คํธ ์๋ฒ ๋ฉ
2. Base Video Diffusion ๋ชจ๋ธ์ ํตํ ์ ํด์๋ ๋น๋์ค ์์ฑ
3. Temporal/Spatial Super-Resolution ๋ชจ๋ธ์ ํตํด ์
์ํ๋ง๋ ๊ณ ํด์๋ ๋น๋์ค ์์ฑ
๋จผ์ , ์ฌ์ฉ์๊ฐ ํ๋กฌํํธ์ ์
๋ ฅํ ํ
์คํธ๋ฅผ Frozen T5 ํ
์คํธ ์ธ์ฝ๋๋ฅผ ํตํด Base Video Diffusion ๋ชจ๋ธ์ ๋๊ฒจ์ค๋๋ค. ๊ทธ๋ฐ ๋ค์ Base ๋ชจ๋ธ์ด ์์ฑํ 3fps(์ด๋น 3ํ๋ ์)์ผ๋ก ๊ตฌ์ฑ๋ 16x40x24 ํด์๋์ ์ ํด์๋ ๋น๋์ค๋ฅผ ์์์ผ๋ก TSR(Temporal Super-Resolution)๊ณผ SSR(Spatial Super-Resolution) ๋ชจ๋ธ์ ๋ฐ๋ณตํ๋ฉฐ ๋น๋์ค์ ํด์๋๋ฅผ ์ ์ฐจ ๋์ฌ๋๊ฐ๋๋ฐ, ์ด ๊ณผ์ ์ ์
์ํ๋ง(Upsampling)์ด๋ผ๊ณ ํฉ๋๋ค.
๋ชจ๋ ๊ณผ์ ์ ๊ฑฐ์น๋ฉด 24fps๋ก ๊ตฌ์ฑ๋ 128ํ๋ ์์ 1280x768 ๊ณ ํด์๋ ๋น๋์ค๊ฐ ์์ฑ๋๋๋ฐ์. ์ด ๊ณผ์ ์ ํตํ์ด Cascaded Diffusion Models(๊ณ๋จ์ ํ์ฐ ๋ชจ๋ธ)์ด๋ผ๊ณ ํฉ๋๋ค.
ย
2.1 Cascaded Diffusion Models
Cascaded Diffusion Models๋ ์ด 7๊ฐ์ ํ์ ๋ชจ๋ธ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. 1๊ฐ์ Base Video Diffusion ๋ชจ๋ธ, 3๊ฐ์ SSR(Spatial Super-Resolution) ๋ชจ๋ธ, ๊ทธ๋ฆฌ๊ณ 3๊ฐ์ TSR(Temporal Super-Resolution) ๋ชจ๋ธ์ด ํฌํจ๋๋ฉฐ, ์ด Diffusion ๋ชจ๋ธ๋ค์ ํ๋ผ๋ฏธํฐ๊ฐ ์ด 1,160๋ง ๊ฐ๋ผ๊ณ ํฉ๋๋ค.
๊ฐ์ฅ ๋จผ์ , Diffusion ๋ชจ๋ธ์ ์์ T5 ํ
์คํธ ์ธ์ฝ๋๊ฐ Input ํ
์คํธ๋ฅผ ์๋ฒ ๋ฉํฉ๋๋ค. ์ด ํ
์คํธ ์๋ฒ ๋ฉ์ด ๋น๋์ค์ ํ
์คํธ ํ๋กฌํํธ๋ฅผ ์ฐ๊ฒฐํด ์ฃผ์ด ์ฌ์ฉ์์ ์
๋ ฅ์ ๋ฐ์ํ ๋น๋์ค๋ฅผ ์์ฑํ ์ ์์ต๋๋ค. ๊ทธ๋ฐ ๋ค์ ํ
์คํธ ์๋ฒ ๋ฉ์ ์ ๋ฌ๋ฐ์ Base ๋ชจ๋ธ์ด Diffusion์ ํตํด ์ ํด์๋์ ๋น๋์ค๋ฅผ ์์ฑํ๋ฉด, SSR๊ณผ TSR ๋ชจ๋ธ์ด ์
์ํ๋ง์ ์์ํฉ๋๋ค.
Note
ํ๋์ ํ๋ ์์ผ๋ก ์ด๋ฃจ์ด์ง ์ด๋ฏธ์ง์ ๋ฌ๋ฆฌ, ๋น๋์ค๋ ์ฌ๋ฌ ํ๋ ์๋ค์ด ์ฐ์๋ ์๊ฐ ์์์ ์์๋ฅผ ๊ฐ์ง๊ณ ๋ฐฐ์น๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ Temporal, ์ฆ โ์๊ฐโ์ ๊ฐ๋
์ด ์ถ๊ฐ๋ฉ๋๋ค.
์ฌ๊ธฐ์ TSR์ด ์๊ฐ ํด์๋๋ฅผ ๋์ด๋ ๋ชจ๋ธ๋ก, Input ํ๋ ์ ์ฌ์ด์ฌ์ด์ ํ๋ ์์ ์ฑ์ ๋ฃ์ด ๋น๋์ค์ ํ๋ฆ์ ์กฐ๊ธ ๋ ๋ถ๋๋ฝ๊ฒ ๋ง๋๋ ์ญํ ์ ํฉ๋๋ค. ๋ฐ๋ฉด SSR์ ๊ณต๊ฐ ํด์๋๋ฅผ ๋์ด๋ ๋ชจ๋ธ๋ก, ๊ฐ Input ํ๋ ์ ๋ด์ ํฝ์
์๋ฅผ ๋๋ ค ํด์๋๋ฅผ ๋์
๋๋ค. ์ผ๋ฐ์ ์ธ ์ด๋ฏธ์ง ์ฒ๋ฆฌ์ ๊ฐ์ฃ .
ย
2.2 Video U-Net
์ด์ ์์ ์ดํด๋ณธ ๊ฐ๊ฐ์ Diffusion ๋ชจ๋ธ ๋ด๋ถ์์ ํ๋์ ๋น๋์ค๋ฅผ ์ด๋ฃจ๋ ํ๋ ์๋ค์ด ์ด๋ป๊ฒ ์ฒ๋ฆฌ๋๋์ง ์ดํด๋ณผ๊น์?
Video U-Net์ Space-Time Separable Block์ผ๋ก, ๊ณต๊ฐ์ (Spatial) ์ฐ์ฐ๊ณผ ์๊ฐ์ (Temporal) ์ฐ์ฐ์ด ๋ถ๋ฆฌ๋์ด ์ํ๋ฉ๋๋ค. ์ฐ์ฐ์ Convolution๊ณผ Self-Attention, ๋ ์ข
๋ฅ๋ก ๊ตฌ์ฑ๋๋๋ฐ์. Base ๋ชจ๋ธ์์๋ Spatial Convolution, Spatial Self-Attention ๊ทธ๋ฆฌ๊ณ Temporal Self-Attention์ ์ฌ์ฉํ๊ณ , SSR ๋ฐ TSR์์๋ Spatial Convolution, Spatial Self-Attention ๊ทธ๋ฆฌ๊ณ Temporal Convolution์ ์ฌ์ฉํฉ๋๋ค. SSR ๋ฐ TSR์์๋ ๋ฉ๋ชจ๋ฆฌ ํจ์จ์ฑ์ ๋์ด๊ณ ์ Temporal Attention ๋์ Convolution ์ฐ์ฐ์ ํ๋ค๋ ๊ฒ์ด ํน์ง์
๋๋ค.
์์ ๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ฏ์ด ๊ณต๊ฐ์ ์ฐ์ฐ์ ๊ฐ ํ๋ ์ ๋ณ๋ก ๋
๋ฆฝ์ ์ผ๋ก ์ํ๋ฉ๋๋ค. ๊ฐ๋ณ ํ๋ ์์ ํด์๋๋ฅผ ๋์ด๋ ์์
์ด๊ธฐ ๋๋ฌธ์ด์ฃ . ๋จ, ๋ชจ๋ ํ๋ ์์ ํด์๋๊ฐ ๊ฐ์์ผ ํ๋ฏ๋ก ์ด๋ ์ฐ์ฐ์ ์ฌ์ฉ๋๋ ํ๋ผ๋ฏธํฐ๋ ๋ชจ๋ ํ๋ ์์ด ๊ณต์ ํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์๊ฐ์ ์ฐ์ฐ์ ๋ชจ๋ ํ๋ ์์ด ํผํฉ๋์ด ์ํ๋ฉ๋๋ค. ๊ธฐ์กด ํ๋ ์ ์ฌ์ด์ ์ ํ๋ ์์ ๋ผ์ ๋ฃ์ด ์๊ฐ์ ํด์๋๋ฅผ ๋์ด๋ ์์
์ด๊ธฐ ๋๋ฌธ์
๋๋ค.
Video U-Net์ ๊ธฐ์กด ์ด๋ฏธ์ง ์์ฑ์ ์ฌ์ฉ๋์๋ 2D U-Net์ 3D๋ก ์ผ๋ฐํํด ๋น๋์ค ์์ฑ์ ์ ์ฉํ ๊ฒ์ธ๋ฐ์. ์ด ๊ณผ์ ์ ํตํด ์์ฑ๋ ๋น๋์ค์ Spatial Fidelity์ ํจ๊ป Temporal Dynamics๋ฅผ ํ๋ณดํ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค.
ย
ย
3. ์์ผ๋ก์ Text-to-Video ๋ชจ๋ธ
์์๋ ฅ์ด ํ๊ป ๋ด๊ธด ๋น๋์ค๋ฅผ ์์ฑํ๋ Text-to-Video ๋ชจ๋ธ๋ค, ์ฐจ์ธ๋ ์์ฑ ๋ถ์ผ๋ก ์ฃผ๋ชฉ๋ฐ๊ณ ์๊ธด ํ์ง๋ง ์์ง์ ๋์๊ฐ์ผ ํ ๊ธธ์ด ๋ง์ด ๋จ์์ต๋๋ค.
์์ง ์ด๋ฏธ์ง ์์ฑ ๋ชจ๋ธ์ ๋ํ ์ค๋ฆฌ์ ์ด์๋ ํด๊ฒฐ๋์ง ์์ ์ํ์ด๊ณ , ์์ฑ AI์ ํน์ฑ์ ๋ถ์ ์ ํ๊ฑฐ๋ ์
์์ ์ธ ์ฌ์ฉ์ผ๋ก ์ด์ด์ง ์์ง๊ฐ ๋ค๋ถํ๊ธฐ ๋๋ฌธ์ ํนํ๋ ์ ์ค์ ๊ธฐํ ์๋ฐ์ ์์ต๋๋ค. ๋ํ ํํฐ๋ง ํ ๋ฐ์ดํฐ๋ฅผ ์ด์ฉํ์ฌ ํ์ตํ๋๋ผ๋, ์ฌ์ฉ์ ์๋์ ์๊ด์์ด ํญ๋ ฅ์ ์ด๊ณ ์ฐจ๋ณ์ ์ธ ์ ํด ์ฝํ
์ธ ๋ฅผ ์์ฑํ ์๋ ์์ฃ .
๋๋ฌธ์ Imagen Video๋ฅผ ๋น๋กฏํ์ฌ ์์ ์ธ๊ธํ๋ Phenaki์ Make-A-Video ๋ชจ๋ ์์ง ์ ์์ผ๋ก ๊ณต๊ฐ๋์ง ์์์ผ๋ฉฐ, ๋
ผ๋ฌธ๊ณผ ์ํ๋ง ์ด๋ํ ์ ์๋ ์ฐ๊ตฌ ๋จ๊ณ์ ์์ต๋๋ค.
โWhile our internal testing suggests much of explicit and violent content can be filtered out, there still exists social biases and stereotypes which are challenging to detect and filter. We have decided not to release the Imagen Video model or its source code until these concerns are mitigated.โ - Imagen Video ๋
ผ๋ฌธ ์ธ์ฉ
์ด์ ๊ตฌ๊ธ์ โ์ฐ๋ ค๊ฐ ์ํ๋ ๋๊น์ง Imagen Video์ ๋ชจ๋ธ ๋ฐ ์์ค์ฝ๋๋ฅผ ๊ณต๊ฐํ์ง ์๊ธฐ๋ก ํ๋คโ๋ผ๋ฉฐ ์ ์ ๊ณต๊ฐ ์์ ์ ๋ฏธ๋ฃฌ ์ํฉ์
๋๋ค. ๋น๋์ค ์์ฑ ๋ชจ๋ธ์ด ์ถฉ๋ถํ ์ ์ ๋์ด ์์ฉํ๋๋ฉด ๋ ์ด๋ค ์๋น์ค๊ฐ ํ์ํด ์ด๋ป๊ฒ ์ธ์์ ๋ฐ๊ฟ์ง ๊ธฐ๋๊ฐ ๋๋ ํ ํธ, ์ ์ ๋ฐ์ ํ๋ AI ๊ธฐ์ ์ด ์
์ฉ๋์ง ์๋๋ก ์ถฉ๋ถํ ์ฃผ์์ ์กฐ์น๊ฐ ํ์ํ ๊ฒ ๊ฐ์ต๋๋ค.
ย
ย
OUTRO
Generative AI ์๋ฆฌ์ฆ, ๊ทธ ๋ค ๋ฒ์งธ ์ด์ผ๊ธฐ์ธ Text-to-Video ๋ชจ๋ธ Imagen Video๋ฅผ ๋์ผ๋ก ์ฌ๊ธฐ์ ๋ง๋ฌด๋ฆฌ๋ฉ๋๋ค๐คย ์๋ฆฌ์ฆ๋ฅผ ํตํด GAN๋ถํฐ GPT-3, Stable Diffusion ๊ทธ๋ฆฌ๊ณ Imagen Video๊น์ง, AI ์์ฑ ๋ชจ๋ธ์ ํ๋ฆ ๊ฐ์ด๋ฐ ๋ช ๊ฐ์ง ์ฃผ์ํ ๋ชจ๋ธ์ ์ดํด๋ณด์๋๋ฐ์. ํ
์คํธ์ ์ด๋ฏธ์ง๋ ๋ฌผ๋ก ์ด๊ณ ์ด์ ๋ ์์๊น์ง! AI๊ฐ ๋ฌด์์ด๋ ์ง ๋๋ฑ ๋ง๋ค์ด๋ด๋ ์ธ์์ด ์ค๊ณ ์์์ด ์๋ฟ์ต๋๋ค.
์์ฑ AI์ ๋๋ถ์ ๋ฐ์ , ํ ํธ์ผ๋ก๋ โ์ด๋ฌ๋ค AI๊ฐ ์ธ๊ฐ์ ๋์ฒดํ๋ ๊ฒ์ด ์๋๋โ ์ฐ๋ ค ์์ธ ๋ชฉ์๋ฆฌ๋ ์์ด ๋์ค๋๋ฐ์. ์ค์, AI๋ ์์ง ์์ ํ์ง ์์ต๋๋ค. ๊ทธ๋ด๋ฏํ๊ฒ ํฌ์ฅ๋ AI์ ์์ฑ๋ฌผ ๊ทธ ์ด๋ฉด์๋ ์ฌ์ค ๊ฐ์ ์ค๋ฅ์ ํธํฅ์ด ์จ์ด ์์ต๋๋ค. ๋จ์ง AI๋ ์ง๊ธ๋ ๋ฌด์์ด ์๋๋ก ์ธ์์ ๋ฐฐ์๋๊ฐ๋ฉฐ ์ค์ค๋ก ๊ฐ์ ๋๊ณ ์์ ๋ฟ์ด์ฃ .
๋ฌด์์ด ์๋๋ก ๋ฐ์ ํ๊ณ ์๋ AI,
์ด์ ๋ ์ด๋ค์ด ๊ฐ์ ธ์ฌ ๋ณํ์ ๋ฐ๋ง์ถ์ด ํจ๊ป ๋์๊ฐ๊ธฐ ์ํ ์ฐ๋ฆฌ ์ธ์์ ์ ํ์ด ํ์ํ ์์ ์
๋๋ค.
ย
ย
ย
์๋ํฐ

ย
ย
ย
ย
ย
ย
ย
ย
ย
์ฐธ๊ณ ๋ฌธํ ๋ฐ ์ถ์ฒ
[1] Imagen Video ๋
ผ๋ฌธ: https://arxiv.org/abs/2210.02303
[2] Imagen Video ๊ณต์ ๋ธ๋ก๊ทธ: https://imagen.research.google/video/
[3] ๋์์ ์์ฑ AI ๊ด๋ จ ๊ธฐ์ฌ: https://newstheai.com/site/data/html_dir/2022/10/19/2022101980137.html
ย
ย
๋ฌธ์์ฌํญ manager@deepdaiv.com
ย
ย
ย