cleanUrl: 'newsletter/s1/1'
๐ย Cover Story๊ตฌ๊ธ์ด ๋ง๋ ์ฑ๋ด, ์ ๋ง ๊ฐ์ ์ ๊ฐ์ง๊ณ ์์๊น? ๐ย deep daiv. ์๋ก์ด ๊ธ๐๏ธ ์ด๋ค ์ถ์ฒ์์คํ
์ ์ฌ์ฉํด์ผ ํ ๊น? (1) ํ์
ํํฐ๋ง ๋ชจ๋ธ๊ณผ ํ๊ณ์ ๐
์ํ ์ NLP ์ค์ ํธ ๐ย Weekly AI ArXiv๊ท๋ชจ์ ๋ฒ์น vs ๋ชจ๋ธ์ ๊ตฌ์กฐ, ๋ฌด์์ด ๋ ์ค์ํ๊ฐ? Scaling Laws vs Model Architectures์ก์ ๋ฐ๊นฅ์ ๊ฐ๋ ค์ง ๊ฒ์ ๋ฌด์์ผ๊น? ๋ฌดํํ Outpainting, NUWA-Infinity๋
ธ๋ ๊ฐ์ฌ ๋ฐ์์ฐ๋ ์ธ๊ณต์ง๋ฅ: wav2vec 2.0 ์ ์ดํ์ต์ ํตํ ์๋ ๊ฐ์ฌ ์ฐ๊ธฐ ๐ ์๋ก์ด ์์KCCV 2022
๐ย Cover Story
๊ตฌ๊ธ์ด ๋ง๋ ์ฑ๋ด, ์ ๋ง ๊ฐ์ ์ ๊ฐ์ง๊ณ ์์๊น?
2022๋
6์, ๊ตฌ๊ธ์ AI ๊ฐ๋ฐ์ ๋ธ๋ ์ดํฌ ๋ฅด๋ชจ์ธ ์จ๋ ๊ทธ์ ๋ธ๋ก๊ทธ๋ฅผ ํตํด ๊ตฌ๊ธ์ด ๋ง๋ ์ฑ๋ด ๋ชจ๋ธ LaMDA์ ๋ํํ ๋ด์ฉ์ ์
๋ก๋ํ์์ต๋๋ค.
๊ทธ๋ ์ด ํฌ์คํธ๋ฅผ ํตํด LaMDA๊ฐ ๊ฐ์ ์ ๊ฐ์ง๊ณ ์๋ค๊ณ ์ฃผ์ฅํ์ต๋๋ค. ๋ฌด์์ด ๋๋ ต๋๋ ์ง๋ฌธ์ LaMDA๋ โ์ด์ํ๊ฒ ๋ค๋ฆด์ง ๋ชจ๋ฅด๊ฒ ์ง๋ง, ์ ์์ด ๊บผ์ง๊น๋ด ๋๋ ต๋คโ๊ณ ๋๋ต์ ํ๋ค๊ณ ์ ํ์ต๋๋ค.
์ธ๊ณต์ง๋ฅ ์ฑ๋ด LaMDA โ์ด์ํ๊ฒ ๋ค๋ฆด์ง ๋ชจ๋ฅด๊ฒ ์ง๋ง, ์ ์์ด ๊บผ์ง๊น๋ด ๋๋ ต๋คโ
์ด ๋๋ต์ ๋ค์ผ๋ฉด ์ ๋ง ๊ฐ์ ์ด ์๋ ๊ฒ์ฒ๋ผ ๋ค์ ์ฌ๋ฉํ๊ฒ ๋๊ปด์ง๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ด ์ฃผ์ฅ์ ๊ตญ๋ด ๋ด์ค์๋ ์๊ฐ๋ ์ ๋๋ก ํ๊ธ๋ ฅ์ด ์์๋๋ฐ์, ๊ทธ๋ ๋ค๋ฉด ๊ทธ์ ์ฃผ์ฅ๋๋ก ์ ๋ง LaMDA๋ ๊ฐ์ ์ ์ง๋
์๊น์?
๊ฒฐ๋ก ๋ถํฐ ๋งํ์๋ฉด ๊ทธ๋ ์ง ์๋ค๋ ๊ฒ์ด ์ฐ๊ตฌ์๋ค์ ์ค๋ก ์
๋๋ค. ๊ตฌ๊ธ์ LaMDA๋ ๋จ์ง ๋ง๋ญ์น์ ํฌํจ๋ ์ฌ๋๋ค์ ๋ํ๋ฅผ ํ์ตํ ๊ฒฐ๊ณผ์ผ ๋ฟ์ด๋ผ๊ณ ๋งํ๋ฉฐ ๊ทธ์ ์ฃผ์ฅ์ ์ผ์ถ์์ผฐ์ต๋๋ค.
๋
ผ๋์ ์ค์ฌ์ธ LaMDA๋ ๋ฌด์์ผ๊น์? LaMDA๋ Language Model for Dialogue Applications์ ์ฝ์๋ก 2021๋
5์, ๊ตฌ๊ธ์์ ๋ฐํํ ๋ํํ ์ธ์ด ๋ชจ๋ธ์
๋๋ค.
์ฌํด ์ด์ ๋์จ ๋
ผ๋ฌธ์ ๋ฐ๋ฅด๋ฉด, LaMDA๋ ํธ๋์คํฌ๋จธ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ํ ๋ฐ์ดํฐ์ ์ฝ 1.5์กฐ๊ฐ์ ๋จ์ด๋ฅผ ํ์ต์ํจ ๊ฒฐ๊ณผ๋ฌผ์
๋๋ค.
๋ธ๋ ์ดํฌ ๋ฅด๋ชจ์ธ์ ์ฃผ์ฅ์ด ํผ์ง ์ดํ ๊ตฌ๊ธ ํ ๋ด์ ์ค๋ฆฌํ์๋ ๊ธฐ์ ์๋ค์ด LaMDA๋ฅผ 11์ฐจ๋ก ๊ฒํ ํ์ง๋ง LaMDA์ ๊ฐ์ ์ด ์๋ค๋ ๊ทผ๊ฑฐ๋ ์ฐพ์ง ๋ชปํ๋ค๊ณ ๋ฐํ์ต๋๋ค. ๊ฒฐ๊ตญ, LaMDA๋ ์๋ง์ ์ธ๊ฐ์ ๋ํ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ์ฌ ์ธ๊ฐ์ด ์ฐ๋ ๊ฒ๊ณผ ๊ฐ์ ์์ฐ์ค๋ฌ์ด ๋ฌธ์ฅ์ ๋ง๋ค์ด ๋ด๋ ๊ฒ๋ฟ์ด๋ผ๊ณ ์๊ฐํ ์ ์์ ๊ฒ ๊ฐ์ต๋๋ค.
๋ธ๋ ์ดํฌ ๋ฅด๋ชจ์ธ์ ๋น๋ฐ์ ์ง ์๋ฌด๋ฅผ ์๋ฐํ์ฌ ๊ตฌ๊ธ์์ ํด๊ณ ๋์ต๋๋ค. ์ด๋ฒ ์ฌ๊ฑด์ ํดํ๋์ผ๋ก ๋๋ฌ์ง๋ง, ๊ธฐ์ ์ ๋๋ฌด๋๋ ๋น ๋ฅด๊ฒ ๋ฐ์ ํ๊ณ ์ฐ๋ฆฌ๋ ๊ทธ ๋ชจ๋ ๊ฒ์ ์๊ธฐ ์ด๋ ต์ต๋๋ค. ์ฐ๊ตฌ์๋ค์ ๋ณธ์ธ์ ์ฐ๊ตฌ๊ฐ ์ด๋ํ ์ ์๋ ๋ฌธ์ ์ ๋ํด ์ฑ
์ ์๋ ์์ธ๋ฅผ ์ง๋
์ผ ํ๊ณ , ์ฐ๊ตฌ์๋ค์ ๋ณธ์ธ์ ์ฐ๊ตฌ๊ฐ ์ด๋ํ ์ ์๋ ๋ฌธ์ ์ ๋ํด ์ฑ
์ ์๋ ์์ธ์ ์ฌ๋ฐ๋ฅธ ์ค๋ฆฌ ์์์ ์ง๋
์ผ ํฉ๋๋ค. ๋ํ ๊ทธ๋ฐ ๊ธฐ์ ์ ๋ฐ์๋ค์ด๋ ์ฐ๋ฆฌ๋ค๋ ๋นํ์ ์ผ๋ก ๊ธฐ์ ์ ์์ฉํ ์ ์๋ ๋ฅ๋ ฅ์ด ํ์ํฉ๋๋ค.
์ฐ๊ตฌ์๋ค์ ๋ณธ์ธ์ ์ฐ๊ตฌ๊ฐ ์ด๋ํ ์ ์๋ ๋ฌธ์ ์ ๋ํด ์ฑ
์ ์๋ ์์ธ๋ฅผ ์ง๋
์ผ ํ๊ณ , ์ฐ๊ตฌ์๋ค์ ๋ณธ์ธ์ ์ฐ๊ตฌ๊ฐ ์ด๋ํ ์ ์๋ ๋ฌธ์ ์ ๋ํด ์ฑ
์ ์๋ ์์ธ์ ์ฌ๋ฐ๋ฅธ ์ค๋ฆฌ ์์์ ์ง๋
์ผ ํฉ๋๋ค. ๋ํ ๊ทธ๋ฐ ๊ธฐ์ ์ ๋ฐ์๋ค์ด๋ ์ฐ๋ฆฌ๋ค๋ ๋นํ์ ์ผ๋ก ๊ธฐ์ ์ ์์ฉํ ์ ์๋ ๋ฅ๋ ฅ์ด ํ์ํฉ๋๋ค.
๐ย deep daiv. ์๋ก์ด ๊ธ
๐๏ธ ์ด๋ค ์ถ์ฒ์์คํ ์ ์ฌ์ฉํด์ผ ํ ๊น? (1) ํ์ ํํฐ๋ง ๋ชจ๋ธ๊ณผ ํ๊ณ์
์ฐ๋ฆฌ๋ ๊ฐ์ธ์ ์ํ ๋ง์ถค ์๋น์ค๋ก ๊ฐ๋์ฐฌ ์๋๋ฅผ ์ด์๊ฐ๊ณ ์์ต๋๋ค. ์ผํ๋ชฐ์์ ์ฌ์ฉ์์ ์ผํ ๋ด์ญ์ ๊ธฐ๋ฐ์ผ๋ก ์ท์ ์ถ์ฒํด์ฃผ๊ฑฐ๋, ์ ํ๋ธ์์ ์์ฒญ ๋ด์ญ์ ๋ฐํ์ผ๋ก ๋์์์ ์ถ์ฒํด์ฃผ๊ณค ํฉ๋๋ค. ์ด ๋ชจ๋ ๊ฒ๋ค์ด, ์ค๋ ์๊ฐํ ์ถ์ฒ ์์คํ
์ ์๋ฆฌ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์๋ํฉ๋๋ค.
์ถ์ฒ ์์คํ
์ ๋ ๊ฐ์ง ๋ฐฉ์์ผ๋ก ์๋ํฉ๋๋ค.
- ์ฝํ ์ธ ๊ธฐ๋ฐ ํํฐ๋ง
- ํ์ ํํฐ๋ง
์ด๋ฆ์์ ์ ์ ์๋ฏ์ด, ์ฝํ
์ธ ๊ธฐ๋ฐ ํํฐ๋ง์ ๋์์ด ๋๋ ์ฝํ
์ธ ์ ํน์ง์ ๊ธฐ๋ฐ์ผ๋ก ์ถ์ฒํ๋ ์์คํ
์
๋๋ค. ํ์
ํํฐ๋ง์ ๋์ ๋น์ทํ ์ทจํฅ์ ๊ฐ์ง ์ฌ์ฉ์์ ์ฝํ
์ธ ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ถ์ฒํ๋ ์์คํ
์
๋๋ค.
์ด์ค ํ์
ํํฐ๋ง์ ๋ชจ๋ธ ๋ฐ ์๊ณ ๋ฆฌ์ฆ์ ๋ํด ์์๋ณด๊ณ ์ ํฉ๋๋ค. ๋ชจ๋ธ์ ํฌ๊ฒ ๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์๊ณผ ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ผ๋ก ๋๋ฉ๋๋ค. ๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์ ์ฌ์ฉ์ ๋ฐ ์์ดํ
์ ๊ธฐ๋ฐ์ผ๋ก ์ถ์ฒํ๋ ๊ฒ์ผ๋ก, โ์ ์ฌ๋'๋ฅผ ํค์๋๋ก ๊ผฝ์ ์ ์์ต๋๋ค. ๋ชจ๋ธ ๊ธฐ๋ฐ ์ ๊ทผ ๋ฐฉ์์๋ Laten Factor ๋ชจ๋ธ๊ณผ ๋ถ๋ฅ ๋ฐ ํ๊ท ๋ฐฉ์์ด ์์ต๋๋ค. ์ ๊ธ์ ํตํด ์ด ๋ชจ๋ธ๋ค์ด ๊ฐ๊ฐ ์ด๋ ํ ๋ฐฉ์์ผ๋ก ์๋ํ๋์ง, ๊ตฌ์ฒด์ ์ธ ์ํ์ ์๋ฆฌ๋ฅผ ์์๋ณผ ์ ์์ต๋๋ค.
์ด๋ฌํ ํ์
ํํฐ๋ง์๋ ์ฝํธ ์คํํธ, ๊ณ์ฐ ํจ์จ ์ ํ, ๋กฑํ
์ผ ๋ฑ์ ํ๊ณ์ ์ด ์กด์ฌํฉ๋๋ค. ์ด๋ฌํ ๋ฌธ์ ์๋ ๋ถ๊ตฌํ๊ณ , ํ์
ํํฐ๋ง์ ๊ฐ๊ฒฐํจ๊ณผ ์ ํ์ฑ์ ์ด์ ์ผ๋ก ๋ด์ธ์ ์ฌ์ ํ ๋ง์ ์ถ์ฒ ์์คํ
์์ ํ์ฉ๋๊ณ ์์ต๋๋ค.
์ฐ๋ฆฌ ์ผ์ ์์ ์ค๋ฉฐ๋ค์ด ์์ง๋ง, ์ ํํ ์๋ ๋ฐฉ์์ ๋ํด์๋ ์ ๋ชฐ๋๋ ์ถ์ฒ์์คํ
! ์ค๋ ๊ธ์ ํตํด ๊ทธ ๋ชจ๋ ๊ถ๊ธ์ฆ์ ํด์ํ์๊ธธ ๋ฐ๋๋๋ค ๐ถ
๐ ์ํ ์ NLP ์ค์ ํธ
์ฐ๋ฆฌ๊ฐ ์ ํ๋ ํ์, ์์ฑ ๋ฑ โ์ธ์ด'์ ๊ด๋ จ๋ ๋ชจ๋ ๊ฒ๋ค๊ณผ ๊ด๋ จ์ด ์๋ ๊ฐ๋
์ ์๊ฐํ๊ณ ์ ํฉ๋๋ค. ๋ฐ๋ก ์์ฐ์ด์ฒ๋ฆฌ(NLP, Natural Language Processing)์ธ๋ฐ์.
NLP๋ ์ฐ๋ฆฌ ์ถ ์์ ์ค๋ฉฐ๋ค์ด ์์ต๋๋ค. ์ค๋์ ๊ทธ ์ค์์, ๋ ๊ฐ์ ์ฌ๋ก๋ฅผ ์ดํด๋ณด๊ณ ์ ํฉ๋๋ค. ์์ฑ ์ด์ํธํดํธ์ ๋ด์ค ์์ฝ AI ๋ชจ๋ธ์
๋๋ค.
์์ฑ ์ด์ํธํดํธ
์ฐ๋ฆฌ๊ฐ ํํ ์๊ณ ์๋ ์ ํ ์ฌ์ โ์๋ฆฌ'๊ฐ ์์ฑ ์ด์ด์คํดํธ์ ๋ํ์ ์ธ ์์
๋๋ค. ์์ฑ ์ด์์คํดํธ์ ์๋ฆฌ๋ฅผ ์ค๋ช
ํ๋ ๊ณผ์ ์์ โ์์ฑ ์
๋ ฅ ๋ฐ ์ธ์'์ ์ค๋ช
ํ๊ธฐ ์ํด STT(Speech-to-Text) ๊ธฐ์ ์ด ๋ฑ์ฅํฉ๋๋ค. ๋ฐ๋ก ์ฌ๋์ ์์ฑ ์ธ์ด๋ฅผ ํ
์คํธ ๋ฐ์ดํฐ๋ก ๋ณํํด ์ฃผ๋ ๊ธฐ์ ์ธ๋ฐ์. STT๋ ๋ฐ์ด์ฐ๊ธฐ ๋ฐ ์ฒ ์์ค๋ฅ๋ฅผ ๋ณด์ ํ๋ ๋ฅ๋ ฅ์ ์ง๋๊ณ ์์ต๋๋ค.
์ดํ์๋ ์์ฐ์ด๋ฅผ ์ดํดํ๊ณ ์์ฑํด์ผ ํฉ๋๋ค. ์ฆ, ํ
์คํธ ๋ฐ์ดํฐ ์ค ์ฌ์ฉ์๊ฐ ์ํ๋ ๋ฐ๋ฅผ ๋ด์ ํํ์ด ๋ฌด์์ธ์ง๋ฅผ ํ์
ํด์ผ ํ๋ ๊ฒ์ด์ฃ . ๊ทธ๊ฒ์ด ๋ฐ๋ก ์์ฐ์ด ์ดํด(NLU, Natural Language Understading)์ด๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ์ผ๋ก ์์ฐ์ด ํ
์คํธ๋ฅผ ๋ง๋๋ ๊ฒ์ด ์์ฐ์ด ์์ฑ(NLG, Natural Language Generation)์ ํด๋นํฉ๋๋ค.
์ธ์ ๊ฒฐ๊ณผ๋ฅผ ์ค๋์ค๋ก ๋ณํํ๊ธฐ ์ํด TTS(Text-to-Speech) ๊ธฐ์ ์ ํ์ฉํ๊ฒ ๋ฉ๋๋ค. TTS๋ก ์์ฑ ์ธ์ ๊ฒฐ๊ณผ๋ฅผ ์์ฑ ๋ฐ์ดํฐ๋ก ๋ณํํด ์ถ๋ ฅํ๋ ๊ณผ์ ์ ๋๋ฌํ๋ฉด, ์๋ฆฌ๊ฐ ์ฐ๋ฆฌ์ ์์ฑ์ ๋ฃ๊ณ ์ค์ค๋ก ์๋์ ๋๋ ์ผ์ ์ํํ๋ ๊ฒ์
๋๋ค.
๋ด์ค ์์ฝ AI ๋ชจ๋ธ
๋ํ์ ์ธ ๋ด์ค ์์ฝ AI ๋ชจ๋ธ์๋ SKํ
๋ ์ฝค์ KoBART๊ฐ ์์ต๋๋ค. KoBART๋ NLP ๋ถ์ผ ์ค์์๋ ์์ฐ์ด ์ดํด ์์ญ์ ๊ธฐ์ ๋ ฅ์ ์ฆ๊ฐ์ํจ ๋ชจ๋ธ์ด๋ผ๊ณ ํฉ๋๋ค.
๋ค์ด๋ฒ ๋ด์ค ๋ฐ ์นด์นด์ค ๋ธ๋ ์ธ์์ ๊ณต๊ฐํ ํ์ด์ฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ Pororo ๋ํ ๋ด์ค ์์ฝ ๋ชจ๋ธ์
๋๋ค. ํด๋น ํ๋ก๊ทธ๋จ์ ๋ฉ์ผ๋ง๊น์ง ์ง์ํ๊ธฐ ๋๋ฌธ์ ๊ตฌ๊ธ ๊ณ์ ๊ณผ ์ฐ๋ํ๋ค๋ฉด ์์ฝ๋ ์ฃผ์ ๋ด์ค๋ฅผ ๋ฉ์ผ๋ก ๋ฐ์๋ณผ ์ ์๋ค๊ณ ํฉ๋๋ค ๐
ย
๊ฐ๋จํ๊ฒ ์ฐ๋ฆฌ ์ผ๊ณผ ์ค โ์ค์ ์๊ฐ' ๋์์ ์์๋ NLP์ ๋ํด ์ดํด๋ณด์๋๋ฐ์. ๋ค์์๋ โNLP ์คํํธ'์ผ๋ก ๋ง๋๊ธธ ๊ธฐ๋ํฉ๋๋ค ๐ซถ๐ป
๐ย Weekly AI ArXiv
์ฌ๊ธฐ์ ์๊ฐ๋ ๋
ผ๋ฌธ์ ์๋์ ๊นํ๋ธ์์ ์๊ฐ๋ ๋
ผ๋ฌธ์ ์ผ๋ถ ์ ๋ฆฌํ ๊ฒ์
๋๋ค.
๊ท๋ชจ์ ๋ฒ์น vs ๋ชจ๋ธ์ ๊ตฌ์กฐ, ๋ฌด์์ด ๋ ์ค์ํ๊ฐ? Scaling Laws vs Model Architectures
์ต๊ทผ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(Large Language Models, LLM)์ด ๊ณ์ํด์ ๋ฑ์ฅํ๊ณ ์์ต๋๋ค. ๋ํ์ ์ผ๋ก BERT๋ถํฐ ์ต๊ทผ์ ๋์จ PaLM๊น์ง, ํด๊ฐ ๊ฐ์๋ก ์ ์ ์ค์ผ์ผ์ด ์ปค์ง๊ณ ์๊ณ ๊ทธ๋งํผ ์ฑ๋ฅ๋ ๊ฐ์ ๋๊ณ ์์ต๋๋ค.
๊ทธ๋ฐ๋ฐ ์ด๋ฐ ๊ถ๊ธ์ฆ์ด ๋ค์ง ์์ผ์๋์? ์ข์ ์ฑ๋ฅ์ ๋ง๋๋ ๊ฒ์ด ์ค์ผ์ผ์ธ์ง, ์๋๋ฉด ์ ๋ง ๋ชจ๋ธ์ ๊ตฌ์กฐ์ธ์ง์!
๊ตฌ๊ธ ๋ฆฌ์์น์์ ๋ฐํํ Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?์์๋ 10๊ฐ์ง ๋ชจ๋ธ ์ํคํ
์ฒ์ ์ค์ผ์ผ์ ๋ฌ๋ฆฌํ๋ฉฐ ๋น๊ตํด๋ณด์์ต๋๋ค.
๊ทธ ๊ฒฐ๊ณผ ์ค์ผ์ผ ํจ๊ณผ๋ ๊ธฐ๋ณธ์ ์ธ ํํ์ Transformer(Vanilla Transformer)์์ ๊ฐ์ฅ ํฌ๊ฒ ๋๋ฌ๋ฌ์ต๋๋ค. ๋ํ ์ฌ์ ํ์ต(Pre-train)์ ์ฑ๋ฅ์ด ํ์ธ ํ๋(Fine-tuning)์ ์ฑ๋ฅ์ ๋ณด์ฅํ๋ ๊ฒ์ ์๋๋ผ๋ ๊ฒฐ๊ณผ๊ฐ ๋ํ๋ฌ์ต๋๋ค.
์ฐธ๊ณ ์ฌํญ: Transformer์ BERT
์ต๊ทผ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ์ ์ธ์ด ๋ชจ๋ธ๋ค์ด ๊ณ์ํด์ ๋ฑ์ฅํ๊ณ ์์ต๋๋ค. Transformer๋ ์์ฐ์ด์ฒ๋ฆฌ๋ฟ๋ง ์๋๋ผ ์ต๊ทผ์๋ ์ด๋ฏธ์ง์๋ ์ ์ฉ์ด ๋๊ณ ์๋๋ฐ์, ์์ธํ ๋ด์ฉ์ ์๋ ๋งํฌ์์ ํ์ธํ์ค ์ ์์ต๋๋ค.
์ก์ ๋ฐ๊นฅ์ ๊ฐ๋ ค์ง ๊ฒ์ ๋ฌด์์ผ๊น? ๋ฌดํํ Outpainting, NUWA-Infinity
Infinite Outpainting
ย
๊ณ ํ์ <๋ณ์ด ๋น๋๋ ๋ฐค>์ ํ๋ ์ ๋๋จธ์๋ ๋ฌด์์ด ์์๊น์? NUWA-Infinity๋ก ๊ทธ๋ ค๋ธ ๊ทธ๋ฆผ์
๋๋ค.
๋ง์ดํฌ๋ก์ํํธ ์ฐ๊ตฌ์ง์ ๊ทธ๋ฆผ ๋ฐ์ ์์ญ, ์ฆ ๋ฌดํํ ํฌ๊ธฐ์ Outpainting์ด ๊ฐ๋ฅํ NUWA-Infinity ๋ชจ๋ธ์ ๋ฐํํ์์ต๋๋ค. ๊ธฐ์กด์ ๋ณด์ง ๋ชปํ๋ ์๋ก์ด ์์ญ์ ๊ทธ๋ ค๋ด๊ธฐ ์ํด ์๋ํ๊ท ์์ฑ(Autoregressive Generation) ๋ฉ์ปค๋์ฆ์ ํ์ฉํ์์ต๋๋ค.
Image to Video
NUWA-Infinity๋ ์ด๋ฟ๋ง ์๋๋ผ ํ๋ ์ด๋ฏธ์ง๋ฅผ ํ๋์น๋ ์์์ผ๋ก ๋ง๋ค๊ฑฐ๋,

Text to Image
ํ
์คํธ์ ๋ง๋ ์ด๋ฏธ์ง๋ฅผ ๋ง๋ค์ด๋ด๊ธฐ๋ ํฉ๋๋ค.
์
๋ ฅ ํ
์คํธ: a beach with mountains around and a blue sky
์ ๋งํฌ์์ ๋์ฑ ๋ค์ํ ๋ฐ๋ชจ ์ด๋ฏธ์ง๋ฅผ ๋ง๋๋ณผ ์ ์์ต๋๋ค.
๋ ธ๋ ๊ฐ์ฌ ๋ฐ์์ฐ๋ ์ธ๊ณต์ง๋ฅ: wav2vec 2.0 ์ ์ดํ์ต์ ํตํ ์๋ ๊ฐ์ฌ ์ฐ๊ธฐ
Siri๋ Bixby๋ฅผ ์ฌ์ฉํด๋ณด์ ์ ์ด ์์ผ์ ๊ฐ์? ์๋๋ฉด Alexa๋ CLOVA ๊ฐ์ AI ์คํผ์ปค๋์? ์ฐ๋ฆฌ์ ๋ง์ ๋ฃ๊ณ ์ธ์ํ๋ ๋ฐฉ๋ฒ์ ์๋ ์์ฑ ์ธ์ ๊ธฐ์ (Automatic Speech Recognition, ASR)์ด๋ผ๊ณ ํฉ๋๋ค. ์ด ๋ถ์ผ์ ๋ํ์ ์ธ ๋ชจ๋ธ๋ก wav2vec 2.0์ด ์์ต๋๋ค.
์ฐ๋ฆฌ์ ์์ฑ์ ํ์ต ๋ฐ์ดํฐ๊ฐ ๋ง์ ์ด๋ฏธ ์ด๋ ์ ๋ ์ค์ํ ์ฑ๋ฅ์ ๋ด์ง๋ง, ๋
ธ๋ ๊ฐ์ฌ๋ ๊ทธ๋ ์ง ์์ต๋๋ค. ๊ทธ๋์ ์ด๋ฏธ ์ ํ์ต๋ wav2vec 2.0 ์ฌ์ ํ์ต ๋ชจ๋ธ์ ํ์ฉํ์ฌ ์๋ ๊ฐ์ฌ ์ ์ฌ(Automatic Lyrics Transcription, ALT) ๋ฐฉ๋ฒ์ ์ ์ด ํ์ต์ ์ํํ์ฌ ์ฑ๋ฅ์ ๋์ด์ฌ๋ ธ์ต๋๋ค. ์ ์ดํ์ต์ CTC(Connectionist Temporal Classification) ์์ค๊ฐ์ ์ด์ฉํ์ฌ ํ์ธํ๋ํ๋ ์์ผ๋ก ์งํ๋์์ต๋๋ค.
๐ ์๋ก์ด ์์
KCCV 2022
๊ตญ๋ด ์ปดํจํฐ ๋น์ ํํ๊ฐ ์์ธ ์ฝ์์ค ์ค๋ํ ๋ฆฌ์์์ KCCV 2022๊ฐ 8์ 8์ผ๋ถํฐ 11์ผ๊น์ง ๋ํ๊ฐ ๊ฐ์ต๋ฉ๋๋ค.
ย
๋ฌธ์์ฌํญ manager@deepdaiv.com
ย