Generative AI, ์ƒ์„ฑ๋ชจ๋ธ ํ†บ์•„๋ณด๊ธฐ - (4)Imagen Video
๐ŸŽจ

Generative AI, ์ƒ์„ฑ๋ชจ๋ธ ํ†บ์•„๋ณด๊ธฐ - (4)Imagen Video

Created
Mar 10, 2023
Editor
์œ ํ˜„ ์‹ 

INTRO


์•ˆ๋…•ํ•˜์„ธ์š”๐Ÿ–๐Ÿป Generative AI ์‹œ๋ฆฌ์ฆˆ์˜ ๋งˆ์ง€๋ง‰ ์ด์•ผ๊ธฐ๋กœ ์ฐพ์•„์™”์Šต๋‹ˆ๋‹ค.
์˜ค๋Š˜์˜ ์ฃผ์ œ๋Š” ๋ฐ”๋กœ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ, Imagen Video์ž…๋‹ˆ๋‹ค. ์ง€๋‚œ ์•„ํ‹ฐํด์—์„œ ํ…์ŠคํŠธ ๊ธฐ๋ฐ˜ ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ์ธ Stable Diffusion์— ๋Œ€ํ•ด ๋‹ค๋ฃจ์—ˆ๋Š”๋ฐ์š”, ์ด์ œ ์ด๋ฏธ์ง€ ์ƒ์„ฑ์—์„œ ๋” ๋‚˜์•„๊ฐ€ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ์ด ๊ฐœ๋ฐœ๋˜๊ณ  ์žˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค.
ย 
์—ฌ๋Ÿฌ๋ถ„ ๋ชจ๋‘ ์ธ์Šคํƒ€๊ทธ๋žจ, ์œ ํŠœ๋ธŒ ๋“ฑ์œผ๋กœ ์งง์€ ๋™์˜์ƒ์„ ๋„˜๊ธฐ๋ฉฐ ์‹œ๊ฐ„์„ ๋ณด๋ƒˆ๋˜ ๊ฒฝํ—˜์ด ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค๐Ÿ˜Ž ์ด์ฒ˜๋Ÿผ ์†Œ์…œ ๋ฏธ๋””์–ด์˜ ๋ฐœ๋‹ฌ๋กœ ์ธํ•ด ์–ด์ฉŒ๋ฉด ๊ธ€๋ณด๋‹ค ์˜์ƒ์„ ๋” ๋งŽ์ด ์ ‘ํ•˜๋Š” ์‹œ๋Œ€๊ฐ€ ๋˜์–ด๊ฐ€๊ณ  ์žˆ๋Š”๋ฐ์š”. ์ด์ œ AI๊ฐ€ ์˜์ƒ๊นŒ์ง€ ์ œ์ž‘ํ•˜๊ฒŒ ๋  ๋‚ ์ด ๋จธ์ง€์•Š์•˜์Šต๋‹ˆ๋‹ค.
๋ˆ„๊ตฌ๋‚˜ ๊ฐ๋…์ด ๋˜์–ด ๋‚˜๋งŒ์˜ ์˜์ƒ์„ ๋งŒ๋“œ๋Š” ์‹œ๋Œ€, ํ•„์š”ํ•œ ๊ฒƒ์€ ์ƒ์ƒ๋ ฅ์ด ๊ฐ€๋“ ๋‹ด๊ธด ๋ช‡ ์ค„์˜ ํ…์ŠคํŠธ๊ฐ€ ์ „๋ถ€๋ผ๋Š”๋ฐ์š”. AI์˜ ๊ทธ๋ฆผ ์‹ค๋ ฅ๋„ ๋†€๋ผ์› ๋Š”๋ฐ ์ด์ œ ์˜์ƒ๊นŒ์ง€ ๋งŒ๋“ ๋‹ค๋‹ˆ, ์–ด๋–ป๊ฒŒ ๋งŒ๋“œ๋Š” ๊ฑธ๊นŒ์š”? ์ง€๊ธˆ๋ถ€ํ„ฐ ์•Œ์•„๋ด…์‹œ๋‹ค.
ย 
ย 
[ ๋ชฉ์ฐจ ]
ย 
ย 

1. Text-to-Video ์ƒ์„ฑ ๋ชจ๋ธ์˜ ๋“ฑ์žฅ


Text-to-Image ์ƒ์„ฑ ๋ชจ๋ธ ์—ดํ’์ด ํ•œ์ฐฝ์ด๋˜ 2022๋…„ 9์›” ๋ง, Meta(๊ตฌ ํŽ˜์ด์Šค๋ถ)์—์„œ ๋™์˜์ƒ ์ƒ์„ฑ AI์ธ โ€˜Make-A-Videoโ€™๋ฅผ ๋ฐœํ‘œํ–ˆ์Šต๋‹ˆ๋‹ค. Text-to-Image ์ƒ์„ฑ ๋ชจ๋ธ๊ณผ ๋น„์Šทํ•˜๊ฒŒ ์งง์€ ๋ฌธ์žฅ์„ ์ž…๋ ฅํ•˜๋ฉด ๊ทธ ๋‚ด์šฉ์„ ๋‹ด์€ ์งง์€ ๋™์˜์ƒ์ด ์ƒ์„ฑ๋˜๋Š” ๋ฐฉ์‹์ด์—ˆ์ฃ . ๋ฉ”ํƒ€๊ฐ€ Make-A-Video๋ฅผ ์†Œ๊ฐœํ•˜๋ฉฐ ๊ณต๊ฐœํ•œ ์ผ๋ถ€ ๋™์˜์ƒ์€ ๊ธธ์ด๊ฐ€ ์งง์•˜๊ณ , ๋‹ค์†Œ ํ๋ฆฟํ•˜๊ณ  ๋ถ€์ž์—ฐ์Šค๋Ÿฌ์šด ๋ถ€๋ถ„๋„ ์žˆ์—ˆ์ง€๋งŒ ์ฐฝ์˜์ ์ด๊ณ  ์ธ์ƒ์ ์ธ ๊ฒฐ๊ณผ๋ฌผ๋กœ ๋น„๋””์˜ค ์ƒ์„ฑ AI์˜ ๊ฐ€๋Šฅ์„ฑ์„ ๋ถ„๋ช…ํ•˜๊ฒŒ ๋ณด์—ฌ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
Meta๊ฐ€ Make-A-Video๋ฅผ ๊ณต๊ฐœํ•œ ์ง€ ์ฑ„ ์ผ์ฃผ์ผ์ด ์ง€๋‚˜์ง€ ์•Š์€ 2022๋…„ 10์›” ์ดˆ, ๊ตฌ๊ธ€์—์„œ๋„ ๋น„๋””์˜ค ์ƒ์„ฑ AI๋ฅผ ๊ณต๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ตฌ๊ธ€์€ 2๊ฐœ์˜ Text-to-Video ์ƒ์„ฑ ๋ชจ๋ธ์„ ๊ณต๊ฐœํ–ˆ๋Š”๋ฐ์š”, ๋ฐ”๋กœ Imagen Video์™€ Phenaki์ž…๋‹ˆ๋‹ค. ์ด ๋‘ ๋ชจ๋ธ์€ ํ…์ŠคํŠธ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ์ด๋ผ๋Š” ์ ์€ ๊ฐ™์ง€๋งŒ, ์ƒ์„ฑ์˜ ๋ชฉ์ ์— ๋ถ„๋ช…ํ•œ ์ฐจ์ด๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜๋‚˜๋Š” ์งง์€ ๊ธธ์ด์˜ ๊ณ ํ™”์งˆ ๋น„๋””์˜ค๋ฅผ, ๋‹ค๋ฅธ ํ•˜๋‚˜๋Š” ๊ธธ๊ณ  ๊ตฌ์ฒด์ ์ธ ์ €ํ™”์งˆ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•œ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
๋จผ์ € ์‚ดํŽด๋ณผ Phenaki๋Š” ๊ทธ์ค‘ ๋” ๊ธธ๊ณ  ๊ตฌ์ฒด์ ์ธ ์ €ํ™”์งˆ์˜ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ƒ์„ฑํ•˜๊ณ ์ž ํ•˜๋Š” ์˜์ƒ์˜ ์ด์•ผ๊ธฐ๋ฅผ ๋‹ด์€ ๋ช‡ ๊ฐœ์˜ ๋ฌธ์žฅ์„ ํ”„๋กฌํ”„ํŠธ์— ์ž…๋ ฅํ•˜๋ฉด, ์ตœ๋Œ€ 2๋ถ„ ๊ฐ€๋Ÿ‰์˜ ์˜์ƒ์„ ์ƒ์„ฑ ํ•ด์ค๋‹ˆ๋‹ค. ์•„๋ž˜ ์˜ˆ์‹œ์ฒ˜๋Ÿผ ์‹œ๋‚˜๋ฆฌ์˜ค ํ˜•ํƒœ์˜ ๊ธ€์„ ์ž…๋ ฅํ•˜๋ฉด 2๋ถ„์งœ๋ฆฌ ๋‹จํŽธ ์˜ํ™”๋ฅผ ๋งŒ๋“ค ์ˆ˜๋„ ์žˆ๊ฒ ๋„ค์š”๐Ÿคญ Phenaki๊ฐ€ ์ƒ์„ฑํ•œ ๋™์˜์ƒ ์ƒ˜ํ”Œ์€ Penaki์˜ ๊ณต์‹ ์›นํŽ˜์ด์ง€์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋งˆ์ง€๋ง‰์œผ๋กœ, ์˜ค๋Š˜์˜ ์ฃผ์ œ์ธ Imagen Video๋Š” ์•ฝ 5.3์ดˆ์˜ ์งค๋ง‰ํ•œ ๊ณ ํ™”์งˆ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. Phenaki๊ฐ€ ๋น„๋””์˜ค์˜ โ€˜์ผ๊ด€์„ฑ๊ณผ ๊ธธ์ดโ€™์— ์ค‘์ ์„ ๋‘์—ˆ๋‹ค๋ฉด Imagen Video๋Š” ๋น„๋””์˜ค์˜ โ€˜ํ’ˆ์งˆโ€™์— ์ค‘์ ์„ ๋‘์—ˆ๋‹ค๊ณ  ํ•  ์ˆ˜ ์žˆ์ฃ . ๊ณ ํ™”์งˆ์˜ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๊ธฐ ์œ„ํ•ด ์š”์ฆ˜ ์ƒ์„ฑ ๋ชจ๋ธ์—์„œ ๋งŽ์ด ์“ฐ์ด๊ณ  ์žˆ๋Š” Diffusion ๋ชจ๋ธ์„ ์‚ฌ์šฉํ–ˆ๋‹ค๊ณ  ํ•˜๋Š”๋ฐ์š”. ๊ทธ์ค‘์—์„œ๋„ Diffusion ๋ชจ๋ธ์„ ๋น„๋””์˜ค ์ƒ์„ฑ ๋ฒ„์ „์œผ๋กœ ํ™•์žฅํ•œ Video Diffusion ๋ชจ๋ธ์„ ์ƒˆ๋กญ๊ฒŒ ์ ์šฉํ–ˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿผ Imagen Video๊ฐ€ ์–ด๋–ป๊ฒŒ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•ด ๋‚ด๋Š”์ง€, ๊ทธ ๋‚ด๋ถ€๋ฅผ ๋“ค์—ฌ๋‹ค๋ณผ๊นŒ์š”?
ย 
ย 

2. Imagen Video, ์–ด๋–ป๊ฒŒ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ• ๊นŒ?


Imagen Video๋Š” Diffusion ๋ชจ๋ธ์„ ๋น„๋””์˜ค ์ƒ์„ฑ์— ๋งž๊ฒŒ ํ™•์žฅํ•œ Video Diffusion ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ๋น„๋””์˜ค ์ƒ์„ฑ์€ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํฌ๊ฒŒ ์„ธ ๋‹จ๊ณ„๋กœ ์ด๋ฃจ์–ด์ง‘๋‹ˆ๋‹ค.
๐Ÿ“
Imagen Video์˜ ๋น„๋””์˜ค ์ƒ์„ฑ ๊ณผ์ • 1. T5 ํ…์ŠคํŠธ ์ธ์ฝ”๋”๋ฅผ ํ†ตํ•œ ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ 2. Base Video Diffusion ๋ชจ๋ธ์„ ํ†ตํ•œ ์ €ํ•ด์ƒ๋„ ๋น„๋””์˜ค ์ƒ์„ฑ 3. Temporal/Spatial Super-Resolution ๋ชจ๋ธ์„ ํ†ตํ•ด ์—…์ƒ˜ํ”Œ๋ง๋œ ๊ณ ํ•ด์ƒ๋„ ๋น„๋””์˜ค ์ƒ์„ฑ
๋จผ์ €, ์‚ฌ์šฉ์ž๊ฐ€ ํ”„๋กฌํ”„ํŠธ์— ์ž…๋ ฅํ•œ ํ…์ŠคํŠธ๋ฅผ Frozen T5 ํ…์ŠคํŠธ ์ธ์ฝ”๋”๋ฅผ ํ†ตํ•ด Base Video Diffusion ๋ชจ๋ธ์— ๋„˜๊ฒจ์ค๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ Base ๋ชจ๋ธ์ด ์ƒ์„ฑํ•œ 3fps(์ดˆ๋‹น 3ํ”„๋ ˆ์ž„)์œผ๋กœ ๊ตฌ์„ฑ๋œ 16x40x24 ํ•ด์ƒ๋„์˜ ์ €ํ•ด์ƒ๋„ ๋น„๋””์˜ค๋ฅผ ์‹œ์ž‘์œผ๋กœ TSR(Temporal Super-Resolution)๊ณผ SSR(Spatial Super-Resolution) ๋ชจ๋ธ์„ ๋ฐ˜๋ณตํ•˜๋ฉฐ ๋น„๋””์˜ค์˜ ํ•ด์ƒ๋„๋ฅผ ์ ์ฐจ ๋†’์—ฌ๋‚˜๊ฐ€๋Š”๋ฐ, ์ด ๊ณผ์ •์„ ์—…์ƒ˜ํ”Œ๋ง(Upsampling)์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.
๋ชจ๋“  ๊ณผ์ •์„ ๊ฑฐ์น˜๋ฉด 24fps๋กœ ๊ตฌ์„ฑ๋œ 128ํ”„๋ ˆ์ž„์˜ 1280x768 ๊ณ ํ•ด์ƒ๋„ ๋น„๋””์˜ค๊ฐ€ ์ƒ์„ฑ๋˜๋Š”๋ฐ์š”. ์ด ๊ณผ์ •์„ ํ†ตํ‹€์–ด Cascaded Diffusion Models(๊ณ„๋‹จ์‹ ํ™•์‚ฐ ๋ชจ๋ธ)์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.
ย 

2.1 Cascaded Diffusion Models


notion image
Cascaded Diffusion Models๋Š” ์ด 7๊ฐœ์˜ ํ•˜์œ„ ๋ชจ๋ธ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค. 1๊ฐœ์˜ Base Video Diffusion ๋ชจ๋ธ, 3๊ฐœ์˜ SSR(Spatial Super-Resolution) ๋ชจ๋ธ, ๊ทธ๋ฆฌ๊ณ  3๊ฐœ์˜ TSR(Temporal Super-Resolution) ๋ชจ๋ธ์ด ํฌํ•จ๋˜๋ฉฐ, ์ด Diffusion ๋ชจ๋ธ๋“ค์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ์ด 1,160๋งŒ ๊ฐœ๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.
๊ฐ€์žฅ ๋จผ์ €, Diffusion ๋ชจ๋ธ์— ์•ž์„œ T5 ํ…์ŠคํŠธ ์ธ์ฝ”๋”๊ฐ€ Input ํ…์ŠคํŠธ๋ฅผ ์ž„๋ฒ ๋”ฉํ•ฉ๋‹ˆ๋‹ค. ์ด ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ์ด ๋น„๋””์˜ค์™€ ํ…์ŠคํŠธ ํ”„๋กฌํ”„ํŠธ๋ฅผ ์—ฐ๊ฒฐํ•ด ์ฃผ์–ด ์‚ฌ์šฉ์ž์˜ ์ž…๋ ฅ์„ ๋ฐ˜์˜ํ•œ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ํ…์ŠคํŠธ ์ž„๋ฒ ๋”ฉ์„ ์ „๋‹ฌ๋ฐ›์€ Base ๋ชจ๋ธ์ด Diffusion์„ ํ†ตํ•ด ์ €ํ•ด์ƒ๋„์˜ ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๋ฉด, SSR๊ณผ TSR ๋ชจ๋ธ์ด ์—…์ƒ˜ํ”Œ๋ง์„ ์‹œ์ž‘ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ“
Note ํ•˜๋‚˜์˜ ํ”„๋ ˆ์ž„์œผ๋กœ ์ด๋ฃจ์–ด์ง„ ์ด๋ฏธ์ง€์™€ ๋‹ฌ๋ฆฌ, ๋น„๋””์˜ค๋Š” ์—ฌ๋Ÿฌ ํ”„๋ ˆ์ž„๋“ค์ด ์—ฐ์†๋œ ์‹œ๊ฐ„ ์•ˆ์—์„œ ์ˆœ์„œ๋ฅผ ๊ฐ€์ง€๊ณ  ๋ฐฐ์น˜๋œ ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์— Temporal, ์ฆ‰ โ€˜์‹œ๊ฐ„โ€™์˜ ๊ฐœ๋…์ด ์ถ”๊ฐ€๋ฉ๋‹ˆ๋‹ค.
์—ฌ๊ธฐ์„œ TSR์ด ์‹œ๊ฐ„ ํ•ด์ƒ๋„๋ฅผ ๋†’์ด๋Š” ๋ชจ๋ธ๋กœ, Input ํ”„๋ ˆ์ž„ ์‚ฌ์ด์‚ฌ์ด์— ํ”„๋ ˆ์ž„์„ ์ฑ„์›Œ ๋„ฃ์–ด ๋น„๋””์˜ค์˜ ํ๋ฆ„์„ ์กฐ๊ธˆ ๋” ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ๋งŒ๋“œ๋Š” ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด SSR์€ ๊ณต๊ฐ„ ํ•ด์ƒ๋„๋ฅผ ๋†’์ด๋Š” ๋ชจ๋ธ๋กœ, ๊ฐ Input ํ”„๋ ˆ์ž„ ๋‚ด์˜ ํ”ฝ์…€ ์ˆ˜๋ฅผ ๋Š˜๋ ค ํ•ด์ƒ๋„๋ฅผ ๋†’์ž…๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์ธ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ์™€ ๊ฐ™์ฃ .
ย 

2.2 Video U-Net


notion image
์ด์ œ ์•ž์„œ ์‚ดํŽด๋ณธ ๊ฐ๊ฐ์˜ Diffusion ๋ชจ๋ธ ๋‚ด๋ถ€์—์„œ ํ•˜๋‚˜์˜ ๋น„๋””์˜ค๋ฅผ ์ด๋ฃจ๋Š” ํ”„๋ ˆ์ž„๋“ค์ด ์–ด๋–ป๊ฒŒ ์ฒ˜๋ฆฌ๋˜๋Š”์ง€ ์‚ดํŽด๋ณผ๊นŒ์š”?
Video U-Net์€ Space-Time Separable Block์œผ๋กœ, ๊ณต๊ฐ„์ (Spatial) ์—ฐ์‚ฐ๊ณผ ์‹œ๊ฐ„์ (Temporal) ์—ฐ์‚ฐ์ด ๋ถ„๋ฆฌ๋˜์–ด ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค. ์—ฐ์‚ฐ์€ Convolution๊ณผ Self-Attention, ๋‘ ์ข…๋ฅ˜๋กœ ๊ตฌ์„ฑ๋˜๋Š”๋ฐ์š”. Base ๋ชจ๋ธ์—์„œ๋Š” Spatial Convolution, Spatial Self-Attention ๊ทธ๋ฆฌ๊ณ  Temporal Self-Attention์„ ์‚ฌ์šฉํ•˜๊ณ , SSR ๋ฐ TSR์—์„œ๋Š” Spatial Convolution, Spatial Self-Attention ๊ทธ๋ฆฌ๊ณ  Temporal Convolution์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. SSR ๋ฐ TSR์—์„œ๋Š” ๋ฉ”๋ชจ๋ฆฌ ํšจ์œจ์„ฑ์„ ๋†’์ด๊ณ ์ž Temporal Attention ๋Œ€์‹  Convolution ์—ฐ์‚ฐ์„ ํ•œ๋‹ค๋Š” ๊ฒƒ์ด ํŠน์ง•์ž…๋‹ˆ๋‹ค.
์œ„์˜ ๊ทธ๋ฆผ์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด ๊ณต๊ฐ„์  ์—ฐ์‚ฐ์€ ๊ฐ ํ”„๋ ˆ์ž„ ๋ณ„๋กœ ๋…๋ฆฝ์ ์œผ๋กœ ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค. ๊ฐœ๋ณ„ ํ”„๋ ˆ์ž„์˜ ํ•ด์ƒ๋„๋ฅผ ๋†’์ด๋Š” ์ž‘์—…์ด๊ธฐ ๋•Œ๋ฌธ์ด์ฃ . ๋‹จ, ๋ชจ๋“  ํ”„๋ ˆ์ž„์˜ ํ•ด์ƒ๋„๊ฐ€ ๊ฐ™์•„์•ผ ํ•˜๋ฏ€๋กœ ์ด๋•Œ ์—ฐ์‚ฐ์— ์‚ฌ์šฉ๋˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ๋ชจ๋“  ํ”„๋ ˆ์ž„์ด ๊ณต์œ ํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์‹œ๊ฐ„์  ์—ฐ์‚ฐ์€ ๋ชจ๋“  ํ”„๋ ˆ์ž„์ด ํ˜ผํ•ฉ๋˜์–ด ์ˆ˜ํ–‰๋ฉ๋‹ˆ๋‹ค. ๊ธฐ์กด ํ”„๋ ˆ์ž„ ์‚ฌ์ด์— ์ƒˆ ํ”„๋ ˆ์ž„์„ ๋ผ์›Œ ๋„ฃ์–ด ์‹œ๊ฐ„์  ํ•ด์ƒ๋„๋ฅผ ๋†’์ด๋Š” ์ž‘์—…์ด๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค.
Video U-Net์€ ๊ธฐ์กด ์ด๋ฏธ์ง€ ์ƒ์„ฑ์— ์‚ฌ์šฉ๋˜์—ˆ๋˜ 2D U-Net์„ 3D๋กœ ์ผ๋ฐ˜ํ™”ํ•ด ๋น„๋””์˜ค ์ƒ์„ฑ์— ์ ์šฉํ•œ ๊ฒƒ์ธ๋ฐ์š”. ์ด ๊ณผ์ •์„ ํ†ตํ•ด ์ƒ์„ฑ๋œ ๋น„๋””์˜ค์˜ Spatial Fidelity์™€ ํ•จ๊ป˜ Temporal Dynamics๋ฅผ ํ™•๋ณดํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
ย 
ย 

3. ์•ž์œผ๋กœ์˜ Text-to-Video ๋ชจ๋ธ


์ƒ์ƒ๋ ฅ์ด ํ•œ๊ป ๋‹ด๊ธด ๋น„๋””์˜ค๋ฅผ ์ƒ์„ฑํ•˜๋Š” Text-to-Video ๋ชจ๋ธ๋“ค, ์ฐจ์„ธ๋Œ€ ์ƒ์„ฑ ๋ถ„์•ผ๋กœ ์ฃผ๋ชฉ๋ฐ›๊ณ  ์žˆ๊ธด ํ•˜์ง€๋งŒ ์•„์ง์€ ๋‚˜์•„๊ฐ€์•ผ ํ•  ๊ธธ์ด ๋งŽ์ด ๋‚จ์•˜์Šต๋‹ˆ๋‹ค.
์•„์ง ์ด๋ฏธ์ง€ ์ƒ์„ฑ ๋ชจ๋ธ์— ๋Œ€ํ•œ ์œค๋ฆฌ์  ์ด์Šˆ๋„ ํ•ด๊ฒฐ๋˜์ง€ ์•Š์€ ์ƒํƒœ์ด๊ณ , ์ƒ์„ฑ AI์˜ ํŠน์„ฑ์ƒ ๋ถ€์ ์ ˆํ•˜๊ฑฐ๋‚˜ ์•…์˜์ ์ธ ์‚ฌ์šฉ์œผ๋กœ ์ด์–ด์งˆ ์†Œ์ง€๊ฐ€ ๋‹ค๋ถ„ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํŠนํžˆ๋‚˜ ์‹ ์ค‘์„ ๊ธฐํ•  ์ˆ˜๋ฐ–์— ์—†์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ํ•„ํ„ฐ๋ง ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ด์šฉํ•˜์—ฌ ํ•™์Šตํ–ˆ๋”๋ผ๋„, ์‚ฌ์šฉ์ž ์˜๋„์™€ ์ƒ๊ด€์—†์ด ํญ๋ ฅ์ ์ด๊ณ  ์ฐจ๋ณ„์ ์ธ ์œ ํ•ด ์ฝ˜ํ…์ธ ๋ฅผ ์ƒ์„ฑํ•  ์ˆ˜๋„ ์žˆ์ฃ .
๋•Œ๋ฌธ์— Imagen Video๋ฅผ ๋น„๋กฏํ•˜์—ฌ ์•ž์„œ ์–ธ๊ธ‰ํ–ˆ๋˜ Phenaki์™€ Make-A-Video ๋ชจ๋‘ ์•„์ง ์ •์‹์œผ๋กœ ๊ณต๊ฐœ๋˜์ง€ ์•Š์•˜์œผ๋ฉฐ, ๋…ผ๋ฌธ๊ณผ ์ƒ˜ํ”Œ๋งŒ ์—ด๋žŒํ•  ์ˆ˜ ์žˆ๋Š” ์—ฐ๊ตฌ ๋‹จ๊ณ„์— ์žˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ“ข
โ€œWhile our internal testing suggests much of explicit and violent content can be filtered out, there still exists social biases and stereotypes which are challenging to detect and filter. We have decided not to release the Imagen Video model or its source code until these concerns are mitigated.โ€ - Imagen Video ๋…ผ๋ฌธ ์ธ์šฉ
์ด์— ๊ตฌ๊ธ€์€ โ€œ์šฐ๋ ค๊ฐ€ ์™„ํ™”๋  ๋•Œ๊นŒ์ง€ Imagen Video์˜ ๋ชจ๋ธ ๋ฐ ์†Œ์Šค์ฝ”๋“œ๋ฅผ ๊ณต๊ฐœํ•˜์ง€ ์•Š๊ธฐ๋กœ ํ–ˆ๋‹คโ€๋ผ๋ฉฐ ์ •์‹ ๊ณต๊ฐœ ์‹œ์ ์„ ๋ฏธ๋ฃฌ ์ƒํ™ฉ์ž…๋‹ˆ๋‹ค. ๋น„๋””์˜ค ์ƒ์„ฑ ๋ชจ๋ธ์ด ์ถฉ๋ถ„ํžˆ ์ •์ œ๋˜์–ด ์ƒ์šฉํ™”๋˜๋ฉด ๋˜ ์–ด๋–ค ์„œ๋น„์Šค๊ฐ€ ํƒ„์ƒํ•ด ์–ด๋–ป๊ฒŒ ์„ธ์ƒ์„ ๋ฐ”๊ฟ€์ง€ ๊ธฐ๋Œ€๊ฐ€ ๋˜๋Š” ํ•œ ํŽธ, ์ ์  ๋ฐœ์ „ํ•˜๋Š” AI ๊ธฐ์ˆ ์ด ์•…์šฉ๋˜์ง€ ์•Š๋„๋ก ์ถฉ๋ถ„ํ•œ ์ฃผ์˜์™€ ์กฐ์น˜๊ฐ€ ํ•„์š”ํ•  ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค.
ย 
ย 

OUTRO


Generative AI ์‹œ๋ฆฌ์ฆˆ, ๊ทธ ๋„ค ๋ฒˆ์งธ ์ด์•ผ๊ธฐ์ธ Text-to-Video ๋ชจ๋ธ Imagen Video๋ฅผ ๋์œผ๋กœ ์—ฌ๊ธฐ์„œ ๋งˆ๋ฌด๋ฆฌ๋ฉ๋‹ˆ๋‹ค๐Ÿค—ย ์‹œ๋ฆฌ์ฆˆ๋ฅผ ํ†ตํ•ด GAN๋ถ€ํ„ฐ GPT-3, Stable Diffusion ๊ทธ๋ฆฌ๊ณ  Imagen Video๊นŒ์ง€, AI ์ƒ์„ฑ ๋ชจ๋ธ์˜ ํ๋ฆ„ ๊ฐ€์šด๋ฐ ๋ช‡ ๊ฐ€์ง€ ์ฃผ์š”ํ•œ ๋ชจ๋ธ์„ ์‚ดํŽด๋ณด์•˜๋Š”๋ฐ์š”. ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€๋Š” ๋ฌผ๋ก ์ด๊ณ  ์ด์ œ๋Š” ์˜์ƒ๊นŒ์ง€! AI๊ฐ€ ๋ฌด์—‡์ด๋“ ์ง€ ๋š๋”ฑ ๋งŒ๋“ค์–ด๋‚ด๋Š” ์„ธ์ƒ์ด ์˜ค๊ณ  ์žˆ์Œ์ด ์™€๋‹ฟ์Šต๋‹ˆ๋‹ค.
์ƒ์„ฑ AI์˜ ๋ˆˆ๋ถ€์‹  ๋ฐœ์ „, ํ•œ ํŽธ์œผ๋กœ๋Š” โ€œ์ด๋Ÿฌ๋‹ค AI๊ฐ€ ์ธ๊ฐ„์„ ๋Œ€์ฒดํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ƒโ€ ์šฐ๋ ค ์„ž์ธ ๋ชฉ์†Œ๋ฆฌ๋„ ์ƒˆ์–ด ๋‚˜์˜ค๋Š”๋ฐ์š”. ์‹ค์€, AI๋Š” ์•„์ง ์™„์ „ํ•˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿด๋“ฏํ•˜๊ฒŒ ํฌ์žฅ๋œ AI์˜ ์ƒ์„ฑ๋ฌผ ๊ทธ ์ด๋ฉด์—๋Š” ์‚ฌ์‹ค ๊ฐ–์€ ์˜ค๋ฅ˜์™€ ํŽธํ–ฅ์ด ์ˆจ์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹จ์ง€ AI๋Š” ์ง€๊ธˆ๋„ ๋ฌด์„œ์šด ์†๋„๋กœ ์„ธ์ƒ์„ ๋ฐฐ์›Œ๋‚˜๊ฐ€๋ฉฐ ์Šค์Šค๋กœ ๊ฐœ์„ ๋˜๊ณ  ์žˆ์„ ๋ฟ์ด์ฃ .
๋ฌด์„œ์šด ์†๋„๋กœ ๋ฐœ์ „ํ•˜๊ณ  ์žˆ๋Š” AI, ์ด์ œ๋Š” ์ด๋“ค์ด ๊ฐ€์ ธ์˜ฌ ๋ณ€ํ™”์— ๋ฐœ๋งž์ถ”์–ด ํ•จ๊ป˜ ๋‚˜์•„๊ฐ€๊ธฐ ์œ„ํ•œ ์šฐ๋ฆฌ ์ธ์‹์˜ ์ „ํ™˜์ด ํ•„์š”ํ•œ ์‹œ์ ์ž…๋‹ˆ๋‹ค.
ย 
ย 
ย 
notion image
์—๋””ํ„ฐ ์œ ํ˜„ ์‹ 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 
ย 

์ฐธ๊ณ ๋ฌธํ—Œ ๋ฐ ์ถœ์ฒ˜


[1] Imagen Video ๋…ผ๋ฌธ: https://arxiv.org/abs/2210.02303
[2] Imagen Video ๊ณต์‹ ๋ธ”๋กœ๊ทธ: https://imagen.research.google/video/
[3] ๋™์˜์ƒ ์ƒ์„ฑ AI ๊ด€๋ จ ๊ธฐ์‚ฌ: https://newstheai.com/site/data/html_dir/2022/10/19/2022101980137.html
ย 
ย 
๐Ÿ“จ
๋ฌธ์˜์‚ฌํ•ญ manager@deepdaiv.com
ย 
ย 
ย