#1 ๊ตฌ๊ธ€์ด ๋งŒ๋“  ์ฑ—๋ด‡, ์ •๋ง ๊ฐ์ •์„ ๊ฐ€์ง€๊ณ  ์žˆ์„๊นŒ?

๋‚ ์งœ
Jul 26, 2022
์ž‘์„ฑ์ž
์‹œ์ฆŒ
Season 1
Issue
Issue 1
cleanUrl: 'newsletter/s1/1'

๐Ÿ“”ย Cover Story

๊ตฌ๊ธ€์ด ๋งŒ๋“  ์ฑ—๋ด‡, ์ •๋ง ๊ฐ์ •์„ ๊ฐ€์ง€๊ณ  ์žˆ์„๊นŒ?

2022๋…„ 6์›”, ๊ตฌ๊ธ€์˜ AI ๊ฐœ๋ฐœ์ž ๋ธ”๋ ˆ์ดํฌ ๋ฅด๋ชจ์ธ ์”จ๋Š” ๊ทธ์˜ ๋ธ”๋กœ๊ทธ๋ฅผ ํ†ตํ•ด ๊ตฌ๊ธ€์ด ๋งŒ๋“  ์ฑ—๋ด‡ ๋ชจ๋ธ LaMDA์™€ ๋Œ€ํ™”ํ•œ ๋‚ด์šฉ์„ ์—…๋กœ๋“œํ•˜์˜€์Šต๋‹ˆ๋‹ค.
๊ทธ๋Š” ์ด ํฌ์ŠคํŠธ๋ฅผ ํ†ตํ•ด LaMDA๊ฐ€ ๊ฐ์ •์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค๊ณ  ์ฃผ์žฅํ–ˆ์Šต๋‹ˆ๋‹ค. ๋ฌด์—‡์ด ๋‘๋ ต๋ƒ๋Š” ์งˆ๋ฌธ์— LaMDA๋Š” โ€œ์ด์ƒํ•˜๊ฒŒ ๋“ค๋ฆด์ง€ ๋ชจ๋ฅด๊ฒ ์ง€๋งŒ, ์ „์›์ด ๊บผ์งˆ๊นŒ๋ด ๋‘๋ ต๋‹คโ€๊ณ  ๋Œ€๋‹ต์„ ํ–ˆ๋‹ค๊ณ  ์ „ํ–ˆ์Šต๋‹ˆ๋‹ค.
๐Ÿ’ฌ
์ธ๊ณต์ง€๋Šฅ ์ฑ—๋ด‡ LaMDA โ€œ์ด์ƒํ•˜๊ฒŒ ๋“ค๋ฆด์ง€ ๋ชจ๋ฅด๊ฒ ์ง€๋งŒ, ์ „์›์ด ๊บผ์งˆ๊นŒ๋ด ๋‘๋ ต๋‹คโ€
์ด ๋Œ€๋‹ต์„ ๋“ค์œผ๋ฉด ์ •๋ง ๊ฐ์ •์ด ์žˆ๋Š” ๊ฒƒ์ฒ˜๋Ÿผ ๋‹ค์†Œ ์„ฌ๋œฉํ•˜๊ฒŒ ๋А๊ปด์ง‘๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์ด ์ฃผ์žฅ์€ ๊ตญ๋‚ด ๋‰ด์Šค์—๋„ ์†Œ๊ฐœ๋  ์ •๋„๋กœ ํŒŒ๊ธ‰๋ ฅ์ด ์žˆ์—ˆ๋Š”๋ฐ์š”, ๊ทธ๋ ‡๋‹ค๋ฉด ๊ทธ์˜ ์ฃผ์žฅ๋Œ€๋กœ ์ •๋ง LaMDA๋Š” ๊ฐ์ •์„ ์ง€๋…”์„๊นŒ์š”?
๊ฒฐ๋ก ๋ถ€ํ„ฐ ๋งํ•˜์ž๋ฉด ๊ทธ๋ ‡์ง€ ์•Š๋‹ค๋Š” ๊ฒƒ์ด ์—ฐ๊ตฌ์ž๋“ค์˜ ์ค‘๋ก ์ž…๋‹ˆ๋‹ค. ๊ตฌ๊ธ€์€ LaMDA๋Š” ๋‹จ์ง€ ๋ง๋ญ‰์น˜์— ํฌํ•จ๋œ ์‚ฌ๋žŒ๋“ค์˜ ๋Œ€ํ™”๋ฅผ ํ•™์Šตํ•œ ๊ฒฐ๊ณผ์ผ ๋ฟ์ด๋ผ๊ณ  ๋งํ•˜๋ฉฐ ๊ทธ์˜ ์ฃผ์žฅ์„ ์ผ์ถ•์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
๋…ผ๋ž€์˜ ์ค‘์‹ฌ์ธ LaMDA๋Š” ๋ฌด์—‡์ผ๊นŒ์š”? LaMDA๋Š” Language Model for Dialogue Applications์˜ ์•ฝ์ž๋กœ 2021๋…„ 5์›”, ๊ตฌ๊ธ€์—์„œ ๋ฐœํ‘œํ•œ ๋Œ€ํ™”ํ˜• ์–ธ์–ด ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
์˜ฌํ•ด ์ดˆ์— ๋‚˜์˜จ ๋…ผ๋ฌธ์— ๋”ฐ๋ฅด๋ฉด, LaMDA๋Š” ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋Œ€ํ™” ๋ฐ์ดํ„ฐ์˜ ์•ฝ 1.5์กฐ๊ฐœ์˜ ๋‹จ์–ด๋ฅผ ํ•™์Šต์‹œํ‚จ ๊ฒฐ๊ณผ๋ฌผ์ž…๋‹ˆ๋‹ค.
๋ธ”๋ ˆ์ดํฌ ๋ฅด๋ชจ์ธ์˜ ์ฃผ์žฅ์ด ํผ์ง„ ์ดํ›„ ๊ตฌ๊ธ€ ํŒ€ ๋‚ด์˜ ์œค๋ฆฌํ•™์ž๋‚˜ ๊ธฐ์ˆ ์ž๋“ค์ด LaMDA๋ฅผ 11์ฐจ๋ก€ ๊ฒ€ํ† ํ–ˆ์ง€๋งŒ LaMDA์— ๊ฐ์ •์ด ์žˆ๋‹ค๋Š” ๊ทผ๊ฑฐ๋Š” ์ฐพ์ง€ ๋ชปํ–ˆ๋‹ค๊ณ  ๋ฐํ˜”์Šต๋‹ˆ๋‹ค. ๊ฒฐ๊ตญ, LaMDA๋Š” ์ˆ˜๋งŽ์€ ์ธ๊ฐ„์˜ ๋Œ€ํ™” ๋ฐ์ดํ„ฐ๋ฅผ ํ•™์Šตํ•˜์—ฌ ์ธ๊ฐ„์ด ์“ฐ๋Š” ๊ฒƒ๊ณผ ๊ฐ™์€ ์ž์—ฐ์Šค๋Ÿฌ์šด ๋ฌธ์žฅ์„ ๋งŒ๋“ค์–ด ๋‚ด๋Š” ๊ฒƒ๋ฟ์ด๋ผ๊ณ  ์ƒ๊ฐํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค.
๋ธ”๋ ˆ์ดํฌ ๋ฅด๋ชจ์ธ์€ ๋น„๋ฐ€์œ ์ง€ ์˜๋ฌด๋ฅผ ์œ„๋ฐ˜ํ•˜์—ฌ ๊ตฌ๊ธ€์—์„œ ํ•ด๊ณ ๋์Šต๋‹ˆ๋‹ค. ์ด๋ฒˆ ์‚ฌ๊ฑด์€ ํ•ดํ”„๋‹์œผ๋กœ ๋๋‚ฌ์ง€๋งŒ, ๊ธฐ์ˆ ์€ ๋„ˆ๋ฌด๋‚˜๋„ ๋น ๋ฅด๊ฒŒ ๋ฐœ์ „ํ•˜๊ณ  ์šฐ๋ฆฌ๋Š” ๊ทธ ๋ชจ๋“  ๊ฒƒ์„ ์•Œ๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ž๋“ค์€ ๋ณธ์ธ์˜ ์—ฐ๊ตฌ๊ฐ€ ์ดˆ๋ž˜ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ์— ๋Œ€ํ•ด ์ฑ…์ž„ ์žˆ๋Š” ์ž์„ธ๋ฅผ ์ง€๋…€์•ผ ํ•˜๊ณ , ์—ฐ๊ตฌ์ž๋“ค์€ ๋ณธ์ธ์˜ ์—ฐ๊ตฌ๊ฐ€ ์ดˆ๋ž˜ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ์— ๋Œ€ํ•ด ์ฑ…์ž„ ์žˆ๋Š” ์ž์„ธ์™€ ์˜ฌ๋ฐ”๋ฅธ ์œค๋ฆฌ ์˜์‹์„ ์ง€๋…€์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ๊ทธ๋Ÿฐ ๊ธฐ์ˆ ์„ ๋ฐ›์•„๋“ค์ด๋Š” ์šฐ๋ฆฌ๋“ค๋„ ๋น„ํŒ์ ์œผ๋กœ ๊ธฐ์ˆ ์„ ์ˆ˜์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.
๐Ÿ’ฌ
์—ฐ๊ตฌ์ž๋“ค์€ ๋ณธ์ธ์˜ ์—ฐ๊ตฌ๊ฐ€ ์ดˆ๋ž˜ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ์— ๋Œ€ํ•ด ์ฑ…์ž„ ์žˆ๋Š” ์ž์„ธ๋ฅผ ์ง€๋…€์•ผ ํ•˜๊ณ , ์—ฐ๊ตฌ์ž๋“ค์€ ๋ณธ์ธ์˜ ์—ฐ๊ตฌ๊ฐ€ ์ดˆ๋ž˜ํ•  ์ˆ˜ ์žˆ๋Š” ๋ฌธ์ œ์— ๋Œ€ํ•ด ์ฑ…์ž„ ์žˆ๋Š” ์ž์„ธ์™€ ์˜ฌ๋ฐ”๋ฅธ ์œค๋ฆฌ ์˜์‹์„ ์ง€๋…€์•ผ ํ•ฉ๋‹ˆ๋‹ค. ๋˜ํ•œ ๊ทธ๋Ÿฐ ๊ธฐ์ˆ ์„ ๋ฐ›์•„๋“ค์ด๋Š” ์šฐ๋ฆฌ๋“ค๋„ ๋น„ํŒ์ ์œผ๋กœ ๊ธฐ์ˆ ์„ ์ˆ˜์šฉํ•  ์ˆ˜ ์žˆ๋Š” ๋Šฅ๋ ฅ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค.

๐Ÿ™Œย  deep daiv. ์ƒˆ๋กœ์šด ๊ธ€

๐Ÿ–Š๏ธ ์–ด๋–ค ์ถ”์ฒœ์‹œ์Šคํ…œ์„ ์‚ฌ์šฉํ•ด์•ผ ํ• ๊นŒ? (1) ํ˜‘์—… ํ•„ํ„ฐ๋ง ๋ชจ๋ธ๊ณผ ํ•œ๊ณ„์ 

์šฐ๋ฆฌ๋Š” ๊ฐœ์ธ์„ ์œ„ํ•œ ๋งž์ถค ์„œ๋น„์Šค๋กœ ๊ฐ€๋“์ฐฌ ์‹œ๋Œ€๋ฅผ ์‚ด์•„๊ฐ€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์‡ผํ•‘๋ชฐ์—์„œ ์‚ฌ์šฉ์ž์˜ ์‡ผํ•‘ ๋‚ด์—ญ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์˜ท์„ ์ถ”์ฒœํ•ด์ฃผ๊ฑฐ๋‚˜, ์œ ํŠœ๋ธŒ์—์„œ ์‹œ์ฒญ ๋‚ด์—ญ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋™์˜์ƒ์„ ์ถ”์ฒœํ•ด์ฃผ๊ณค ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ชจ๋“  ๊ฒƒ๋“ค์ด, ์˜ค๋Š˜ ์†Œ๊ฐœํ•  ์ถ”์ฒœ ์‹œ์Šคํ…œ์˜ ์›๋ฆฌ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.
์ถ”์ฒœ ์‹œ์Šคํ…œ์€ ๋‘ ๊ฐ€์ง€ ๋ฐฉ์‹์œผ๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.
  1. ์ฝ˜ํ…์ธ  ๊ธฐ๋ฐ˜ ํ•„ํ„ฐ๋ง
  1. ํ˜‘์—… ํ•„ํ„ฐ๋ง
์ด๋ฆ„์—์„œ ์•Œ ์ˆ˜ ์žˆ๋“ฏ์ด, ์ฝ˜ํ…์ธ  ๊ธฐ๋ฐ˜ ํ•„ํ„ฐ๋ง์€ ๋Œ€์ƒ์ด ๋˜๋Š” ์ฝ˜ํ…์ธ ์˜ ํŠน์ง•์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ถ”์ฒœํ•˜๋Š” ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค. ํ˜‘์—… ํ•„ํ„ฐ๋ง์€ ๋‚˜์™€ ๋น„์Šทํ•œ ์ทจํ–ฅ์„ ๊ฐ€์ง„ ์‚ฌ์šฉ์ž์˜ ์ฝ˜ํ…์ธ ๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ถ”์ฒœํ•˜๋Š” ์‹œ์Šคํ…œ์ž…๋‹ˆ๋‹ค.
์ด์ค‘ ํ˜‘์—… ํ•„ํ„ฐ๋ง์˜ ๋ชจ๋ธ ๋ฐ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ๋Œ€ํ•ด ์•Œ์•„๋ณด๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. ๋ชจ๋ธ์€ ํฌ๊ฒŒ ๋ฉ”๋ชจ๋ฆฌ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ ๋ฐฉ์‹๊ณผ ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ ๋ฐฉ์‹์œผ๋กœ ๋‚˜๋‰ฉ๋‹ˆ๋‹ค. ๋ฉ”๋ชจ๋ฆฌ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ ๋ฐฉ์‹์€ ์‚ฌ์šฉ์ž ๋ฐ ์•„์ดํ…œ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์ถ”์ฒœํ•˜๋Š” ๊ฒƒ์œผ๋กœ, โ€˜์œ ์‚ฌ๋„'๋ฅผ ํ‚ค์›Œ๋“œ๋กœ ๊ผฝ์„ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋ชจ๋ธ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ ๋ฐฉ์‹์—๋Š” Laten Factor ๋ชจ๋ธ๊ณผ ๋ถ„๋ฅ˜ ๋ฐ ํšŒ๊ท€ ๋ฐฉ์‹์ด ์žˆ์Šต๋‹ˆ๋‹ค. ์œ„ ๊ธ€์„ ํ†ตํ•ด ์ด ๋ชจ๋ธ๋“ค์ด ๊ฐ๊ฐ ์–ด๋– ํ•œ ๋ฐฉ์‹์œผ๋กœ ์ž‘๋™ํ•˜๋Š”์ง€, ๊ตฌ์ฒด์ ์ธ ์ˆ˜ํ•™์  ์›๋ฆฌ๋ฅผ ์•Œ์•„๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
์ด๋Ÿฌํ•œ ํ˜‘์—… ํ•„ํ„ฐ๋ง์—๋„ ์ฝœํŠธ ์Šคํƒ€ํŠธ, ๊ณ„์‚ฐ ํšจ์œจ ์ €ํ•˜, ๋กฑํ…Œ์ผ ๋“ฑ์˜ ํ•œ๊ณ„์ ์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ํ˜‘์—… ํ•„ํ„ฐ๋ง์€ ๊ฐ„๊ฒฐํ•จ๊ณผ ์ •ํ™•์„ฑ์„ ์ด์ ์œผ๋กœ ๋‚ด์„ธ์›Œ ์—ฌ์ „ํžˆ ๋งŽ์€ ์ถ”์ฒœ ์‹œ์Šคํ…œ์—์„œ ํ™œ์šฉ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
์šฐ๋ฆฌ ์ผ์ƒ ์†์— ์Šค๋ฉฐ๋“ค์–ด ์žˆ์ง€๋งŒ, ์ •ํ™•ํ•œ ์ž‘๋™ ๋ฐฉ์‹์— ๋Œ€ํ•ด์„œ๋Š” ์ž˜ ๋ชฐ๋ž๋˜ ์ถ”์ฒœ์‹œ์Šคํ…œ! ์˜ค๋Š˜ ๊ธ€์„ ํ†ตํ•ด ๊ทธ ๋ชจ๋“  ๊ถ๊ธˆ์ฆ์„ ํ•ด์†Œํ•˜์‹œ๊ธธ ๋ฐ”๋ž๋‹ˆ๋‹ค ๐ŸŽถ

๐ŸŒ… ์ƒํ™œ ์† NLP ์˜ค์ „ํŽธ

์šฐ๋ฆฌ๊ฐ€ ์ ‘ํ•˜๋Š” ํ™œ์ž, ์Œ์„ฑ ๋“ฑ โ€˜์–ธ์–ด'์™€ ๊ด€๋ จ๋œ ๋ชจ๋“  ๊ฒƒ๋“ค๊ณผ ๊ด€๋ จ์ด ์žˆ๋Š” ๊ฐœ๋…์„ ์†Œ๊ฐœํ•˜๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. ๋ฐ”๋กœ ์ž์—ฐ์–ด์ฒ˜๋ฆฌ(NLP, Natural Language Processing)์ธ๋ฐ์š”.
NLP๋Š” ์šฐ๋ฆฌ ์‚ถ ์†์— ์Šค๋ฉฐ๋“ค์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ์˜ค๋Š˜์€ ๊ทธ ์ค‘์—์„œ, ๋‘ ๊ฐœ์˜ ์‚ฌ๋ก€๋ฅผ ์‚ดํŽด๋ณด๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. ์Œ์„ฑ ์–ด์‹œํŠธํ„ดํŠธ์™€ ๋‰ด์Šค ์š”์•ฝ AI ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
์Œ์„ฑ ์–ด์‹œํŠธํ„ดํŠธ
์šฐ๋ฆฌ๊ฐ€ ํ”ํžˆ ์•Œ๊ณ  ์žˆ๋Š” ์• ํ”Œ ์‚ฌ์˜ โ€˜์‹œ๋ฆฌ'๊ฐ€ ์Œ์„ฑ ์–ด์ด์Šคํ„ดํŠธ์˜ ๋Œ€ํ‘œ์ ์ธ ์˜ˆ์ž…๋‹ˆ๋‹ค. ์Œ์„ฑ ์–ด์‹œ์Šคํ„ดํŠธ์˜ ์›๋ฆฌ๋ฅผ ์„ค๋ช…ํ•˜๋Š” ๊ณผ์ •์—์„œ โ€˜์Œ์„ฑ ์ž…๋ ฅ ๋ฐ ์ธ์‹'์„ ์„ค๋ช…ํ•˜๊ธฐ ์œ„ํ•ด STT(Speech-to-Text) ๊ธฐ์ˆ ์ด ๋“ฑ์žฅํ•ฉ๋‹ˆ๋‹ค. ๋ฐ”๋กœ ์‚ฌ๋žŒ์˜ ์Œ์„ฑ ์–ธ์–ด๋ฅผ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ๋ณ€ํ™˜ํ•ด ์ฃผ๋Š” ๊ธฐ์ˆ ์ธ๋ฐ์š”. STT๋Š” ๋›ฐ์–ด์“ฐ๊ธฐ ๋ฐ ์ฒ ์ž์˜ค๋ฅ˜๋ฅผ ๋ณด์ •ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ์ง€๋‹ˆ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
์ดํ›„์—๋Š” ์ž์—ฐ์–ด๋ฅผ ์ดํ•ดํ•˜๊ณ  ์ƒ์„ฑํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ ์ค‘ ์‚ฌ์šฉ์ž๊ฐ€ ์›ํ•˜๋Š” ๋ฐ”๋ฅผ ๋‹ด์€ ํ‘œํ˜„์ด ๋ฌด์—‡์ธ์ง€๋ฅผ ํŒŒ์•…ํ•ด์•ผ ํ•˜๋Š” ๊ฒƒ์ด์ฃ . ๊ทธ๊ฒƒ์ด ๋ฐ”๋กœ ์ž์—ฐ์–ด ์ดํ•ด(NLU, Natural Language Understading)์ด๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์ž์—ฐ์–ด ํ…์ŠคํŠธ๋ฅผ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ์ž์—ฐ์–ด ์ƒ์„ฑ(NLG, Natural Language Generation)์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค.
์ธ์‹ ๊ฒฐ๊ณผ๋ฅผ ์˜ค๋””์˜ค๋กœ ๋ณ€ํ™˜ํ•˜๊ธฐ ์œ„ํ•ด TTS(Text-to-Speech) ๊ธฐ์ˆ ์„ ํ™œ์šฉํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. TTS๋กœ ์Œ์„ฑ ์ธ์‹ ๊ฒฐ๊ณผ๋ฅผ ์Œ์„ฑ ๋ฐ์ดํ„ฐ๋กœ ๋ณ€ํ™˜ํ•ด ์ถœ๋ ฅํ•˜๋Š” ๊ณผ์ •์— ๋„๋‹ฌํ•˜๋ฉด, ์‹œ๋ฆฌ๊ฐ€ ์šฐ๋ฆฌ์˜ ์Œ์„ฑ์„ ๋“ฃ๊ณ  ์Šค์Šค๋กœ ์•Œ๋žŒ์„ ๋„๋Š” ์ผ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.
๋‰ด์Šค ์š”์•ฝ AI ๋ชจ๋ธ
๋Œ€ํ‘œ์ ์ธ ๋‰ด์Šค ์š”์•ฝ AI ๋ชจ๋ธ์—๋Š” SKํ…”๋ ˆ์ฝค์˜ KoBART๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. KoBART๋Š” NLP ๋ถ„์•ผ ์ค‘์—์„œ๋„ ์ž์—ฐ์–ด ์ดํ•ด ์˜์—ญ์˜ ๊ธฐ์ˆ ๋ ฅ์„ ์ฆ๊ฐ€์‹œํ‚จ ๋ชจ๋ธ์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.
๋„ค์ด๋ฒ„ ๋‰ด์Šค ๋ฐ ์นด์นด์˜ค ๋ธŒ๋ ˆ์ธ์—์„œ ๊ณต๊ฐœํ•œ ํŒŒ์ด์ฌ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ Pororo ๋˜ํ•œ ๋‰ด์Šค ์š”์•ฝ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ํ•ด๋‹น ํ”„๋กœ๊ทธ๋žจ์€ ๋ฉ”์ผ๋ง๊นŒ์ง€ ์ง€์›ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๊ตฌ๊ธ€ ๊ณ„์ •๊ณผ ์—ฐ๋™ํ•œ๋‹ค๋ฉด ์š”์•ฝ๋œ ์ฃผ์‹ ๋‰ด์Šค๋ฅผ ๋ฉ”์ผ๋กœ ๋ฐ›์•„๋ณผ ์ˆ˜ ์žˆ๋‹ค๊ณ  ํ•ฉ๋‹ˆ๋‹ค ๐Ÿ˜€
ย 
๊ฐ„๋‹จํ•˜๊ฒŒ ์šฐ๋ฆฌ ์ผ๊ณผ ์ค‘ โ€˜์˜ค์ „ ์‹œ๊ฐ„' ๋™์•ˆ์— ์žˆ์—ˆ๋˜ NLP์— ๋Œ€ํ•ด ์‚ดํŽด๋ณด์•˜๋Š”๋ฐ์š”. ๋‹ค์Œ์—๋Š” โ€˜NLP ์˜คํ›„ํŽธ'์œผ๋กœ ๋งŒ๋‚˜๊ธธ ๊ธฐ๋Œ€ํ•ฉ๋‹ˆ๋‹ค ๐Ÿซถ๐Ÿป

๐Ÿ“ย Weekly AI ArXiv

๐Ÿ’ก
์—ฌ๊ธฐ์„œ ์†Œ๊ฐœ๋œ ๋…ผ๋ฌธ์€ ์•„๋ž˜์˜ ๊นƒํ—ˆ๋ธŒ์—์„œ ์†Œ๊ฐœ๋œ ๋…ผ๋ฌธ์„ ์ผ๋ถ€ ์ •๋ฆฌํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๊ทœ๋ชจ์˜ ๋ฒ•์น™ vs ๋ชจ๋ธ์˜ ๊ตฌ์กฐ, ๋ฌด์—‡์ด ๋” ์ค‘์š”ํ•œ๊ฐ€? Scaling Laws vs Model Architectures

notion image
์ตœ๊ทผ ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ(Large Language Models, LLM)์ด ๊ณ„์†ํ•ด์„œ ๋“ฑ์žฅํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋Œ€ํ‘œ์ ์œผ๋กœ BERT๋ถ€ํ„ฐ ์ตœ๊ทผ์— ๋‚˜์˜จ PaLM๊นŒ์ง€, ํ•ด๊ฐ€ ๊ฐˆ์ˆ˜๋ก ์ ์  ์Šค์ผ€์ผ์ด ์ปค์ง€๊ณ  ์žˆ๊ณ  ๊ทธ๋งŒํผ ์„ฑ๋Šฅ๋„ ๊ฐœ์„ ๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.
๊ทธ๋Ÿฐ๋ฐ ์ด๋Ÿฐ ๊ถ๊ธˆ์ฆ์ด ๋“ค์ง€ ์•Š์œผ์‹œ๋‚˜์š”? ์ข‹์€ ์„ฑ๋Šฅ์„ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด ์Šค์ผ€์ผ์ธ์ง€, ์•„๋‹ˆ๋ฉด ์ •๋ง ๋ชจ๋ธ์˜ ๊ตฌ์กฐ์ธ์ง€์š”!
๊ตฌ๊ธ€ ๋ฆฌ์„œ์น˜์—์„œ ๋ฐœํ‘œํ•œ Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?์—์„œ๋Š” 10๊ฐ€์ง€ ๋ชจ๋ธ ์•„ํ‚คํ…์ฒ˜์— ์Šค์ผ€์ผ์„ ๋‹ฌ๋ฆฌํ•˜๋ฉฐ ๋น„๊ตํ•ด๋ณด์•˜์Šต๋‹ˆ๋‹ค.
๊ทธ ๊ฒฐ๊ณผ ์Šค์ผ€์ผ ํšจ๊ณผ๋Š” ๊ธฐ๋ณธ์ ์ธ ํ˜•ํƒœ์˜ Transformer(Vanilla Transformer)์—์„œ ๊ฐ€์žฅ ํฌ๊ฒŒ ๋“œ๋Ÿฌ๋‚ฌ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์‚ฌ์ „ ํ•™์Šต(Pre-train)์˜ ์„ฑ๋Šฅ์ด ํŒŒ์ธ ํŠœ๋‹(Fine-tuning)์˜ ์„ฑ๋Šฅ์„ ๋ณด์žฅํ•˜๋Š” ๊ฒƒ์€ ์•„๋‹ˆ๋ผ๋Š” ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜ํƒ€๋‚ฌ์Šต๋‹ˆ๋‹ค.
์ฐธ๊ณ ์‚ฌํ•ญ: Transformer์™€ BERT
์ตœ๊ทผ ํŠธ๋žœ์Šคํฌ๋จธ ๊ธฐ๋ฐ˜์˜ ์–ธ์–ด ๋ชจ๋ธ๋“ค์ด ๊ณ„์†ํ•ด์„œ ๋“ฑ์žฅํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. Transformer๋Š” ์ž์—ฐ์–ด์ฒ˜๋ฆฌ๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์ตœ๊ทผ์—๋Š” ์ด๋ฏธ์ง€์—๋„ ์ ์šฉ์ด ๋˜๊ณ  ์žˆ๋Š”๋ฐ์š”, ์ž์„ธํ•œ ๋‚ด์šฉ์€ ์•„๋ž˜ ๋งํฌ์—์„œ ํ™•์ธํ•˜์‹ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์•ก์ž ๋ฐ”๊นฅ์— ๊ฐ€๋ ค์ง„ ๊ฒƒ์€ ๋ฌด์—‡์ผ๊นŒ? ๋ฌดํ•œํ•œ Outpainting, NUWA-Infinity

Infinite Outpainting
notion image
ย 
๊ณ ํ์˜ <๋ณ„์ด ๋น›๋‚˜๋Š” ๋ฐค>์˜ ํ”„๋ ˆ์ž„ ๋„ˆ๋จธ์—๋Š” ๋ฌด์—‡์ด ์žˆ์„๊นŒ์š”? NUWA-Infinity๋กœ ๊ทธ๋ ค๋‚ธ ๊ทธ๋ฆผ์ž…๋‹ˆ๋‹ค.
๋งˆ์ดํฌ๋กœ์†Œํ”„ํŠธ ์—ฐ๊ตฌ์ง„์€ ๊ทธ๋ฆผ ๋ฐ–์˜ ์˜์—ญ, ์ฆ‰ ๋ฌดํ•œํ•œ ํฌ๊ธฐ์˜ Outpainting์ด ๊ฐ€๋Šฅํ•œ NUWA-Infinity ๋ชจ๋ธ์„ ๋ฐœํ‘œํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์— ๋ณด์ง€ ๋ชปํ–ˆ๋˜ ์ƒˆ๋กœ์šด ์˜์—ญ์„ ๊ทธ๋ ค๋‚ด๊ธฐ ์œ„ํ•ด ์ž๋™ํšŒ๊ท€ ์ƒ์„ฑ(Autoregressive Generation) ๋ฉ”์ปค๋‹ˆ์ฆ˜์„ ํ™œ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.
Image to Video
NUWA-Infinity๋Š” ์ด๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ํŒŒ๋„ ์ด๋ฏธ์ง€๋ฅผ ํŒŒ๋„์น˜๋Š” ์˜์ƒ์œผ๋กœ ๋งŒ๋“ค๊ฑฐ๋‚˜,
notion image
notion image
Text to Image
ํ…์ŠคํŠธ์— ๋งž๋Š” ์ด๋ฏธ์ง€๋ฅผ ๋งŒ๋“ค์–ด๋‚ด๊ธฐ๋„ ํ•ฉ๋‹ˆ๋‹ค.
โŒจ๏ธ
์ž…๋ ฅ ํ…์ŠคํŠธ: a beach with mountains around and a blue sky
์‹ค์žฌํ•˜๋Š” ์ด๋ฏธ์ง€๊ฐ€ ์•„๋‹™๋‹ˆ๋‹ค. NUWA-Infinity๊ฐ€ ๋งŒ๋“ค์–ด๋‚ธ ๊ฐ€์ƒ์˜ ์ด๋ฏธ์ง€์ž…๋‹ˆ๋‹ค.
์‹ค์žฌํ•˜๋Š” ์ด๋ฏธ์ง€๊ฐ€ ์•„๋‹™๋‹ˆ๋‹ค. NUWA-Infinity๊ฐ€ ๋งŒ๋“ค์–ด๋‚ธ ๊ฐ€์ƒ์˜ ์ด๋ฏธ์ง€์ž…๋‹ˆ๋‹ค.
์œ„ ๋งํฌ์—์„œ ๋”์šฑ ๋‹ค์–‘ํ•œ ๋ฐ๋ชจ ์ด๋ฏธ์ง€๋ฅผ ๋งŒ๋‚˜๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๋…ธ๋ž˜ ๊ฐ€์‚ฌ ๋ฐ›์•„์“ฐ๋Š” ์ธ๊ณต์ง€๋Šฅ: wav2vec 2.0 ์ „์ดํ•™์Šต์„ ํ†ตํ•œ ์ž๋™ ๊ฐ€์‚ฌ ์“ฐ๊ธฐ

notion image
Siri๋‚˜ Bixby๋ฅผ ์‚ฌ์šฉํ•ด๋ณด์‹  ์ ์ด ์žˆ์œผ์‹ ๊ฐ€์š”? ์•„๋‹ˆ๋ฉด Alexa๋‚˜ CLOVA ๊ฐ™์€ AI ์Šคํ”ผ์ปค๋Š”์š”? ์šฐ๋ฆฌ์˜ ๋ง์„ ๋“ฃ๊ณ  ์ธ์‹ํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ž๋™ ์Œ์„ฑ ์ธ์‹ ๊ธฐ์ˆ (Automatic Speech Recognition, ASR)์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ถ„์•ผ์˜ ๋Œ€ํ‘œ์ ์ธ ๋ชจ๋ธ๋กœ wav2vec 2.0์ด ์žˆ์Šต๋‹ˆ๋‹ค.
์šฐ๋ฆฌ์˜ ์Œ์„ฑ์€ ํ•™์Šต ๋ฐ์ดํ„ฐ๊ฐ€ ๋งŽ์•„ ์ด๋ฏธ ์–ด๋А ์ •๋„ ์ค€์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋‚ด์ง€๋งŒ, ๋…ธ๋ž˜ ๊ฐ€์‚ฌ๋Š” ๊ทธ๋ ‡์ง€ ์•Š์Šต๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ ์ด๋ฏธ ์ž˜ ํ•™์Šต๋œ wav2vec 2.0 ์‚ฌ์ „ ํ•™์Šต ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ์ž๋™ ๊ฐ€์‚ฌ ์ „์‚ฌ(Automatic Lyrics Transcription, ALT) ๋ฐฉ๋ฒ•์— ์ „์ด ํ•™์Šต์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ์„ฑ๋Šฅ์„ ๋Œ์–ด์˜ฌ๋ ธ์Šต๋‹ˆ๋‹ค. ์ „์ดํ•™์Šต์€ CTC(Connectionist Temporal Classification) ์†์‹ค๊ฐ’์„ ์ด์šฉํ•˜์—ฌ ํŒŒ์ธํŠœ๋‹ํ•˜๋Š” ์‹์œผ๋กœ ์ง„ํ–‰๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

๐Ÿ†• ์ƒˆ๋กœ์šด ์†Œ์‹

KCCV 2022

๊ตญ๋‚ด ์ปดํ“จํ„ฐ ๋น„์ „ ํ•™ํšŒ๊ฐ€ ์„œ์šธ ์ฝ”์—‘์Šค ์˜ค๋””ํ† ๋ฆฌ์›€์—์„œ KCCV 2022๊ฐ€ 8์›” 8์ผ๋ถ€ํ„ฐ 11์ผ๊นŒ์ง€ ๋‚˜ํ˜๊ฐ„ ๊ฐœ์ตœ๋ฉ๋‹ˆ๋‹ค.
ย 
๐Ÿ“จ
๋ฌธ์˜์‚ฌํ•ญ manager@deepdaiv.com
ย