cleanUrl: 'newsletter/s2/2'
๐ย Cover StoryLLaMA๊ฐ ์ฃผ๋ชฉ ๋ฐ๋ ์ด์ LLaMA ์ด์ ์ ๊ฒฝ๋ํ ์ฐ๊ตฌ๋คLLaMA์ 3๊ฐ์ง ํน์ง ๐ย deep daiv. ์๋ก์ด ๊ธHumans of daiv. #2 ๊ฐ๋ํ
๐ย Cover Story
LLaMA๊ฐ ์ฃผ๋ชฉ ๋ฐ๋ ์ด์
์ด๋ฐ ๋ด์ฉ์ด ๋ด๊ฒจ ์์ด์!
- LLaMA ์ด์ ์ธ์ด ๋ชจ๋ธ ๊ฒฝ๋ํ / ์ต์ ํ์ ์ฐ๊ตฌ ํ๋ฆ์ ์ง์ด๋ดค์ด์.
- LLaMA๊ฐ ์ฃผ๋ชฉ ๋ฐ๋ 3๊ฐ์ง ํน์ง(1.์ถ๋ก ๋น์ฉ ์ ๊ฐ 2.์คํ ์์ค 3. LLaMA 2-Chat)์ ์ ๋ฆฌํ์ด์.
- ChatGPT์ ์ฐจ๋ณํ๋ LLaMA๊ฐ ํ์ฉ์ฑ์ ๋ถ์ํ์ด์.
์์ฆ ์์ฐ์ด ์ฒ๋ฆฌ ๋ถ์ผ์์ ๊ฐ์ฅ ํซํ ๋ชจ๋ธ์ ๋ฐ๋กย LLaMA(๋ผ๋ง)์
๋๋ค. LLaMA๋ฅผ ์ฒ์ ๋ค์ด๋ณด์
จ๋ค๊ณ ์? LLaMA๋ Meta๊ฐ ์ง๋ 2์ ์ ๋ณด์ธ ์ธ์ด ๋ชจ๋ธ์
๋๋ค. LLaMA๋ ์ ์ ํ๋ผ๋ฏธํฐ(70B)๋ก๋ GPT-3(175B)์ ๋ฐ์ด ๋๋ ์ฑ๋ฅ์ ๋ณด์๋๋ฐ์. ๊ฒ๋ค๊ฐ ์ด๋ฅผ ๋๊ตฌ๋ ํ์ฉํ ์ ์๋ ์คํ ์์ค๋ก ๊ณต๊ฐํ๋ฉด์ ๊ธฐ์
๊ณผ ์ฐ๊ตฌ์๋ค ์ฌ์ด์์ ํ์ ๊ฐ ๋์ต๋๋ค.
์ด์ ๊น์ง๋ย ๋ ๋ง์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง ๋ชจ๋ธ์ด ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ ํ์ด ์ง๋ฐฐ์ ์ด์๋๋ฐ LLaMA๋ย ์์ ๋ชจ๋ธ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ผ ์ ์๋ค๋ ๊ฒ์ ๋ณด์ฌ์คฌ์ต๋๋ค. ๊ทธ๋ ๋ค๋ฉด LLaMA๋ ์ด๋ป๊ฒ ๋ ์ ์ ํ๋ผ๋ฏธํฐ๋ก๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ผ ์ ์์์๊น์? LLaMA์ LLaMA 2 ๋
ผ๋ฌธ ๋ด์ฉ์ ๊ธฐ๋ฐ์ผ๋ก LLaMA ์๋ฆฌ์ฆ์ ํน์ง์ ์์๋ณด๊ฒ ์ต๋๋ค.
์ ๊น! ํ๋ผ๋ฏธํฐ? ๊ทธ๊ฒ ๋ญ๋ฐ?
ํ๋ผ๋ฏธํฐ(Parameter)๋ ๋ณดํตย ๋งค๊ฐ๋ณ์๋ก ๋ฒ์ญํ๋๋ฐ์. ์ฌ๊ธฐ์๋ AI ๋ชจ๋ธ์ ํ์ต ๊ฐ์ค์น๋ฅผ ์๋ฏธํฉ๋๋ค. AI ๋ชจ๋ธ์ ์ฌ์ค ์์ฒญ๋๊ฒ ๋ง์ ์์ ์ซ์๋ค๋ก ์ด๋ค์ ธ ์์ต๋๋ค. ์ด ์ซ์๋ค(๊ฐ์ค์น)์ ์กฐ๊ธ์ฉ ์กฐ์ ํ๋ฉด์ ์ฐ๋ฆฌ๊ฐ ์ํ๋ ๊ฐ์ด ๋์ค๋๋ก ์์ธกํ๋ ๊ณผ์ ์ด ๋ฐ๋ก AI์ ํ์ต์
๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ๊ฐ ๋ง์์๋ก ๋ฐ์ดํฐ์ ํน์ฑ์ ๋ ์ ํ์ตํ ์ ์์ต๋๋ค.
๋ฌผ๋ก , ํ๋ผ๋ฏธํฐ๊ฐ ๋ง๋ค๊ณ ํญ์ ์ข์ ๊ฒ์ ์๋๋๋ค. ๋๋ฌด ๋ง์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ๋ ๊ฒฝ์ฐ ๊ฐ์ค์น๊ฐ ์ด๋ฏธ ํ์ตํ ๋ฐ์ดํฐ์ ํน์ฑ์ ๊ณผ๋ํ๊ฒ ๋ง์ถฐ์ ธ ์์ด, ์คํ๋ ค ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํด์๋ ์ ๋งํ์ง ๋ชปํ ์ ์์ด์. ์ด๋ฅผ ๊ณผ์ ํฉ(Overfitting) ๋ฌธ์ ๋ผ๊ณ ํฉ๋๋ค. ๋ฐ์ดํฐ์ ๋ฐ๋ผ ์ ์ ํ ํ๋ผ๋ฏธํฐ ์๋ฅผ ์ค์ ํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค.
LLaMA ์ด์ ์ ๊ฒฝ๋ํ ์ฐ๊ตฌ๋ค
ย
LLaMA ์ด์ ๋ถํฐ ๋ชจ๋ธ ๊ฒฝ๋ํ๋ฅผ ์ํ ๋
ธ๋ ฅ์ ์ด์ด์ ธ์์ต๋๋ค. ๊ทธ ๋ถ๊ธฐ์ ์๋ DeepMind์ ์ฐ๊ตฌ๊ฐ ์์ต๋๋ค. ๋น์ ์ฐ๊ตฌ ํ๋ฆ์ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ํค์ ์ฑ๋ฅ์ ๋์ด์๋ ๋ฐ ๊ฐ๊น์ ์ต๋๋ค. DeepMind๋ 2021๋
๋งย Gopher๋ฅผ ๊ณต๊ฐํ๋ฉด์ ๋ชจ๋ธ์ ํฌ๊ธฐ(ํ๋ผ๋ฏธํฐ ์)์ ๋ฐ๋ผ ์ฑ๋ฅ์ ๋น๊ตํ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ฝ๊ฒ ์์ํ ์ ์๋ฏ, ๋ง์ ์์ญ์์ ๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ ๊ฒ์ด ์ฑ๋ฅ ํฅ์์ ๋์์ด ๋๋ค๋ ์ฌ์ค์ ๋ฐํ๋์ต๋๋ค.
์ดํ 2022๋
3์์ ์ด์ด์ง ์ฐ๊ตฌ์์๋ Gopher ๋ชจ๋ธ์ ๋์ฑ ์ต์ ํํ์ฌย Chinchilla๋ฅผ ๊ณต๊ฐํ์ต๋๋ค. DeepMind ์ฐ๊ตฌ์ง๋ค์ Gopher(280B) ๋ชจ๋ธ์ด ์ถฉ๋ถํ ํ์ต๋์ง ์์๋ค๊ณ ํ๋จํ ๊ฒ์ธ๋ฐ์. ๊ฐ์ ์ฐ์ฐ๋์ผ๋ก ๋ ๊ฐ๋ณ๊ณ ๋ ์ข์ ์ฑ๋ฅ์ ๋ผ ์ ์๋ค๊ณ ์๊ฐํ ๊ฒ์ด์ฃ .
๊ทธ๋์ ์ฐ๊ตฌ์ง์ ์ฌ๋ฌ ์คํ์ ํตํด ํ๋ผ๋ฏธํฐ ํฌ๊ธฐ์ ํ์ต ๋ฐ์ดํฐ ์๋ฅผ ์ ์ ํ ์กฐ์ ํ๋ฉฐ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ฐํํ๋ ๊ด๊ณ๋ฅผ ์ฐพ์์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ Chinchilla ๋ชจ๋ธ์ Gopher์ ๋์ผํ ์ปดํจํ
์์์ ํ์ฉํ๋ฉด์๋, 4๋ฐฐ ์ ์ 70B์ ํ๋ผ๋ฏธํฐ์ 4๋ฐฐ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํ์ฌ Gopher๋ณด๋ค ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ๋ ๊ฐ๋ณ๊ณ ๋ ๋๋ํ ๋ชจ๋ธ์ ๊ฐ๋ฐํ ๊ฒ์
๋๋ค.
LLaMA์ 3๊ฐ์ง ํน์ง
1) ๋ ์ ๋ ดํ ์ถ๋ก ๋น์ฉ
LLaMA๋ ์ฌ๊ธฐ์ ํ ๋ฐ ๋ ๋์๊ฐ์ต๋๋ค. ํ์ต ๋น์ฉ๋ฟ๋ง ์๋๋ผ ์ถ๋ก ๋น์ฉ๊น์ง ๊ณ ๋ คํ ๊ฒ์ธ๋ฐ์. ํ์ต์์ ๊ทธ๋ฌํ ๊ฒ์ฒ๋ผ ์ผ๋ง๋ ๋น ๋ฅด๊ฒ, ์ ๋ ดํ๊ฒ ์ถ๋ก ํ ์ ์๋์ง๋ ์ค์ํ๋ค๋ ๊ฒ์
๋๋ค. ์ด๋ย ์ถ๋ก (Inference)์ด๋, ์ฌ์ ํ์ต ์ดํ์ย ์๋ก์ด ๋ฐ์ดํฐ์ ๋ํด ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๋ ๊ณผ์ ์ ๋งํฉ๋๋ค. ์ฌ์ฉ์๋ค์ ๋ชจ๋ธ์ ์์ฒญํ๋ฉด ์ฌ์ ํ์ต๋ ์ ๋ณด์ ๋ฐ๋ผ ์ถ๋ก ํ ๊ฒฐ๊ณผ๋ฅผ ๋ด๋๋ ๊ฒ์
๋๋ค.
LLaMA๋ Chinchilla ์ฐ๊ตฌ ๊ฒฐ๊ณผ์ ๋ค๋ฅด๊ฒ ๋ ์ ์ ํ๋ผ๋ฏธํฐ(7B)๋ก ๋ ๋ง์ ๋ฐ์ดํฐ(1T; 1 Trillion)๋ฅผ ํ์ตํ์ฌ ์ฑ๋ฅ์ ๋์ด์ฌ๋ ธ์ต๋๋ค. ๋น์ฅ ํ์ต ์๊ฐ์ ์กฐ๊ธ ๊ฑธ๋ฆฌ๋๋ผ๋ ์ฅ๊ธฐ์ ์ผ๋ก๋ ํ๋ผ๋ฏธํฐ๊ฐ ๋ ์์ ๋ชจ๋ธ์ ๊ฐ๋ฐํ๋ ๊ฒ์ด ์ ์ง ๋ฐ ์ถ๋ก ๋น์ฉ์ ์ ๊ฐํ๋ ๋ฐ ๋์์ด ๋๋ค๊ณ ๋ณธ ๊ฒ์
๋๋ค.
Meta์ ์ด๋ฐ ์๊ฐ์ ์ฐ์ฐ์ด ์๋๋๋ค. ChatGPT์ ๋ฑ์ฅ ์ดํ,ย AI ์๋น์ค ์ด์ฉ๋ฅ ์ด ๋งค์ฐ ๋์์ง๋ฉด์ ์ถ๋ก ๋น์ฉ์ ์ ๊ฐํ๋ ค๋ ์๋๊ฐ ์ด์ด์ก๋๋ฐ์. AI ์๋น์ค๊ฐ ์ ์ฐจ ๋ณดํธํ๋๋ฉด์ ์ฐ๊ตฌ ๊ด์ ๋ ๋ฌ๋ผ์ง ๊ฒ์
๋๋ค.
2) ๋๊ตฌ๋ ์ฌ์ฉํ ์ ์๋ ์คํ ์์ค
Meta๋ LLaMA ์ด์ ๋ถํฐ AI ๋ฏผ์ฃผํ์ ๊ด์ฌ์ด ๋ง์์ต๋๋ค.ย ์์ ์ธ์ด ์ฌ์ฉ์๋ฅผ ์ํ ๋ฒ์ญ ๋ชจ๋ธ์ ๊ฐ๋ฐํ๊ฑฐ๋,ย ์์ฒด์ ์ผ๋ก ๊ฐ๋ฐํ ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ ์คํ ์์ค๋ก ๊ณต๊ฐํ๋ ์ ๋ ์์ต๋๋ค. (๋ฌผ๋ก , ์ฑ๋ฅ์ ์์ฝ๋ค๋ ํ์ด ์ง๋ฐฐ์ ์ด์์ต๋๋ค.)
LLaMA๋ฅผ ์คํ ์์ค๋ก ๊ณต๊ฐํ๊ธฐ ์ํด์๋ ํ์ต ๋ฐ์ดํฐ์ ์ ์๊ถ ๋ฌธ์ ๋ ํด๊ฒฐํด์ผ ํ์ต๋๋ค. Meta์ ์ฐ๊ตฌ์ง์ LLaMA์ ์ฌ์ ํ์ต์ ์ํด ๋๊ตฌ๋ ์ ๊ทผ์ด ๊ฐ๋ฅํ ์คํ ์์ค ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ์ต๋๋ค. ํฌ๋กค๋ง์ด ํ์ฉ๋ ๋ฐ์ดํฐ, arXiv์ ๊ฒ์ฌ๋ ๋
ผ๋ฌธ, GitHub์ ๊ณต์ ๋ ์ฝ๋ ๊ฐ์ ๋ฐ์ดํฐ๊ฐ ์ฌ๊ธฐ์ ํด๋นํฉ๋๋ค.
์คํ ์์ค ๋ฐ์ดํฐ๋ก๋ง ํ์ตํ๊ธฐ ๋๋ฌธ์ ์คํ ์์ค ๋ชจ๋ธ๋ก ๋ฐฐํฌํ๋ ๊ฒ์ด ๊ฐ๋ฅํ์ต๋๋ค. ๊ฒ๋ค๊ฐ LLaMA 2๋ ์์
์ ์ด์ฉ๊น์ง ๊ฐ๋ฅํ๋๋ก ํ์ต๋๋ค. ๋๊ตฌ๋ LLaMA ๋ชจ๋ธ์ ์์ ํด์ ๋ฐฐํฌํ๊ณ , ๋๋ ๋ฒ ์ ์๊ฒ ๋ ๊ฒ์
๋๋ค.
3) ChatGPT๋ฅผ ์ํํ๋ LLaMA 2-Chat
์ง๋ 7์์ ๊ณต๊ฐ๋ LLaMA 2๋ ๋ง์ฐฌ๊ฐ์ง์
๋๋ค. LLaMA 2์์๋ ์ฑํ
๋ชจ๋ธ(LLaMA 2-Chat)๋ ๊ฐ์ด ๊ณต๊ฐํ๋๋ฐ์. ๊ฐ์ธ ์ ๋ณด๊ฐ ๋ด๊ธด Meta์ ๋ฐ์ดํฐ๋ ํ์ฉํ์ง ์์๊ณ ๋ฐ์ดํฐ์ ๊ฐ์ธ์ ๋ํ ์ ๋ณด๋ ์ ๊ฑฐํ๋ ค๊ณ ๋
ธ๋ ฅํ๋ค๊ณ ๋ฐํ์ต๋๋ค.
LLaMA ๋ชจ๋ธ์ Transformer ๊ธฐ๋ฐ์ ์ํคํ
์ฒ๋ฅผ ์ฝ๊ฐ ์์ ํ ์ ๋์ ๋ถ๊ณผํฉ๋๋ค. LLaMA 2๋ ๋ชจ๋ธ์ ๊ตฌ์กฐ์๋ ํฐ ์ฐจ์ด๋ ์์ผ๋ ํ์ต ๋ฐฉ์์ ์กฐ๊ธ ๋ ๊ฐ์ ํ์ต๋๋ค.
- LLaMA๋ณด๋ค ๋ 40% ๋ ๋ง์ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ๊ณ
- ์ ๋ ฅ ๋ฐ๋ Context์ ๊ธธ์ด๋ฅผ 2๋ฐฐ ๊ธธ๊ฒ ํ์ผ๋ฉฐ
- Grouped-Query Attention(GQA)๋ฅผ ํ์ฉํ์ฌ ์ถ๋ก ์ฑ๋ฅ์ ๊ฐ์ ํ์ต๋๋ค.
LLaMA 2-Chat์ ๊ณต๊ฐํ๋ฉด์ ๋ต๋ณ ์์ฑ ๋ฐฉ์๋ ์ ์ํ๋๋ฐ์. SFT(Supervised Fine-tuning), RLHF, GhostAttention ๋ฑ ์ด์ ๊ด๋ จ๋ ์์ธํ ์ ๋ณด๋ ๋ฅ ๋ค์ด๋ธ ๋ธ๋ก๊ทธ์์ ํ์ธํด์ฃผ์ธ์!
LLaMA 2-Chat์ ์ฑ๋ฅ์ด ๋ฐ์ด๋๋ค๊ณ ํ์ง๋ง ์์ง ChatGPT๋ฅผ ๋ฐ์ด๋๊ธฐ๋ ์ด๋ ค์ ๋ณด์
๋๋ค. ๊ทธ๋ฌ๋ ๋์ ๊ฐ์ ์ ์์ ๋๊ณ ๋น๊ตํ๋ ๊ฒ์ ๋ฌด๋ฆฌ์
๋๋ค. ๋ฒ์ฉ์ ์ธ ๋ชฉ์ ์ผ๋ก ํ์ต๋ ChatGPT์ ๋ค๋ฅด๊ฒ LLaMA๋ ์ฑ๋ฅ์ ์ด๋ ์ ๋๋ก ์ ์งํ๋ฉด์ ๊ฐ ์ฌ์ฉ์์ ๋ชฉ์ ์ ๋ง๊ฒ ํ์ฉํ ์ ์๋๋ก ๋ฐฐํฌํ ๊ฒ์
๋๋ค. ์ฆ, ๊ธฐ์
์ด๋ ์ฐ๊ตฌ์๋ค์ ๊ณต๊ฐ๋ LLaMA๋ฅผ ๊ทธ๋๋ก ํ์ฉํ๊ธฐ๋ณด๋ค๋ ํ์ธ ํ๋(Fine-tuning)์ ๊ฑฐ์ณ ๊ทธ๋ค๋ง์ ์ฑ๋ด์ ๊ตฌ์ถํ๋๋ก ํ ๊ฒ์
๋๋ค. ๊ทธ๋ ๋ค๋ฉด ChatGPT์ ๋นํด LLaMA๊ฐ ๊ฐ๋ ์ฅ์ ์ ๋ฌด์์ผ๊น์? ์ ์ฑ๋ฅ์ด ๋ฐ์ด๋ ChatGPT๋ฅผ ๋๊ณ LLaMA์ ์ฃผ๋ชฉํ๋ ๊ฒ์ผ๊น์?
์์ ์ค๋ช
ํ ๊ฒ์ฒ๋ผ LLaMA์ ๊ฐ์ด ํ๋ผ๋ฏธํฐ๊ฐ ์ ์ ๋ชจ๋ธ์ ํ์ต๊ณผ ์ถ๋ก (Inference) ๋น์ฉ์ ๋ฎ์ถ ์ ์๋ค๋ ํฐ ์ฅ์ ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. ๊ฒ๋ค๊ฐ ์คํ ์์ค๋ก ๊ณต๊ฐ๋์ด ์์ด ๊ธฐ์
์ด ์์ฒด์ ์ธ ์ฑ๋ด ๋ชจ๋ธ์ ๋ณด์ ํ ์ ์์ต๋๋ค. ์ถ๊ฐ์ ์ธ ํ์ต์ ์งํํ๋๋ผ๋ ๋ค๋ฅธ ์๋ฒ์ ๋ฏผ๊ฐํ ์ ๋ณด๋ฅผ ๋๊ธธ ํ์๊ฐ ์์ต๋๋ค.
์์ผ๋ก ํ์ต ๋ฐฉ๋ฒ์ด ๊ฐ๋จํด์ง๊ณ ์ผ๋ถ ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ธ๋ค๋ฉด ๋๊ตฌ๋ ์ฝ๊ฒ ์์ ๋ง์ ์ฑ๋ด์ ๋ง๋ค ์ ์์ ๊ฒ์
๋๋ค. ์๋ฅผ ๋ค๋ฉด, ๋ณธ์ธ์ ์นด์นด์คํก ๋ฐ์ดํฐ๋ฅผ ํ์ต์์ผ์ ์๊ธฐ์ฒ๋ผ ๋ํํ๋ ์ฑ๋ด์ด๋ผ๋ ๊ฐ, ํ์ต์๋ฃ๋ฅผ ํ์ต์์ผ ๊ณต๋ถ๋ฅผ ๋์์ฃผ๋ ์ฑ๋ด์ฒ๋ผ์. LLaMA๋ ๊ทธ ์ฒซ๊ฑธ์์
๋๋ค.
๐ย deep daiv. ์๋ก์ด ๊ธ
Humans of daiv. #2 ๊ฐ๋ํ
์ฌ๋ฌ๋ถ์ ์ธ์์ ํฐ๋ ํฌ์ธํธ๋ฅผ ๋ง์ดํ ์ ์ด ์๋์? ์ถ์ ๋งค ์๊ฐ์ ๋์ ์ด์ง๋ง ๋์ด์ผ๋ณด๋ฉด ์ ๋
๊ธฐ์ต์ ๋จ๋ ์๊ฐ๋ค์ด ์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ๊ทธ๋ฐ ์๊ฐ๋ค์ด ๋ชจ์ฌ ์๋ก์ด ํ๋ฃจ๋ฅผ ๋ง๋ค์ด ๋ธ๋ค๊ณ ์๊ฐํด์. ๋ฅ ๋ค์ด๋ธ ํ๋์ ์ธ์์ ํฐ๋ ํฌ์ธํธ๋ก ๋ง์, AI ์ธ๊ณ์ ๋ฅ ๋ค์ด๋ธํ๊ณ ์๋ ๊ฐ๋ํ์ ๋ง๋ ๊ทผํฉ์ ๋ฌผ์ด๋ดค์ต๋๋ค.
๋ฌธ์์ฌํญ manager@deepdaiv.com