cleanUrl: 'newsletter/s2/4'
πΒ Cover Storyν둬ννΈ μμ§λμ΄λ§ μνλ λ²: Chain of ThoughtChain of Thoughtμ΄λ 무μμΌκΉ?Chain of Thoughtμ νΉμ§μ μμ보μλλ ν둬ννΈλ₯Ό λ§λ€ μ μμκΉ? πΒ deep daiv. μλ‘μ΄ κΈHumans of daiv. #4 κΉμ κ΅
πΒ Cover Story
ν둬ννΈ μμ§λμ΄λ§ μνλ λ²: Chain of Thought
μ΅κ·Όμ μμ μ κ°λ³΄μ μ μ΄ μλμ? μμ¦ μμ μλ ChatGPTμ κ΄λ ¨λ μ±
λ€μ΄ κ°μ₯ μ 보μ΄λ μμΉμ λμ¬ μμ΅λλ€. μ±
λ€μ μ΄ν΄λ³΄λ©΄ μ£Όλ‘ ChatGPTλ₯Ό μ΄λ»κ² μ§λ¬Έν΄μΌ νλμ§ μ€λͺ
νκ³ μμ΅λλ€. μ΄μ λ λκ° AIλ₯Ό λ μ λ§λλ보λ€λ, λκ° λ μ νμ©νλλκ° μ€μν΄μ§κ³ μμ΅λλ€.
κ·Έ κΈ°μ μ€ νλκ° βν둬ννΈ μμ§λμ΄λ§βμ
λλ€. ν둬ννΈ(Prompt)λ, μ½κ² λ§ν΄μ κΈ°κ³μκ² λ΄λ¦¬λ λͺ
λ Ήμ΄μ
λλ€. μ¦, ν둬ννΈ μμ§λμ΄λ§μ μ±λ΄μκ² μ΄λ»κ² μ§λ¬Έν΄μΌ μ°λ¦¬κ° μνλ κ²°κ³Όλ₯Ό μ»μ μ μμμ§ μ°κ΅¬νκ³ μ€κ³νλ κ³Όμ μ΄λΌκ³ λ³Ό μ μμ΅λλ€.
λ΄μ€λ₯Ό 보μ λΆλ€μ΄λΌλ©΄ ν둬ννΈ μμ§λμ΄λΌλ μλ‘μ΄ μ§μ
μ΄ λ¨κ³ μλ€λ λ§μ λ€μ΄λ³΄μ
¨μ μλ μλλ°μ. μ μ‘°μ΄κ° μλκ° μΆμ§λ§, μ¬μ€ μ°κ΅¬μλ€μ μ΄λ―Έ λκ·λͺ¨ μΈμ΄ λͺ¨λΈ(LLM)μ μ°κ΅¬νλ κ³Όμ μμ μΈμ΄ μΆλ‘ λ₯λ ₯μ κ·Ήλνν μ μλ λ°©λ²μ νμν΄μμ΅λλ€. κ·Έλ¦¬κ³ κ°μ₯ λ리 μλ €μ§ λ°©λ² μ€μ νλκ° λ°λ‘ βChain of Thought(μ°μ μ¬κ³ )βμ
λλ€. μ΄λ²μ£Ό λ΄μ€λ ν°μμλ μ΄ Chain of Thought λ
Όλ¬Έκ³Ό ν¨κ» νΉμ§μ μμ보λλ‘ νκ² μ΅λλ€.
Chain of Thoughtμ΄λ 무μμΌκΉ?
Chain of Thoughtμ Google Brain νμμ 2022λ
1μ 곡κ°ν μ°κ΅¬μ
λλ€. (μ¬κΈ°μμ Google AI Blog μλ¬Έμ μ΄ν΄λ³΄μ€ μ μμ΅λλ€.) λΉμμλ GPT-3 λ°©μμμ νμ©ν ν둬νν
μ΄ κ°μ₯ μΌλ°μ μ΄μλλ°μ. μ§λ¬Έμ ν΄λΉνλ μμ, μ¦ μ
λ ₯-μΆλ ₯ μ(μ§λ¬Έκ³Ό λ΅λ³)μ κ°μ΄ μ 곡νμ¬ μΆλ‘ νλλ‘ μμ²νλ κ²μ
λλ€. νμ§λ§ Chain of Thought λ°©μμ κ·Έ μ΄λ¦μμ μ μ μλ―μ΄ μ°μμ μΈ μ¬κ³ κ³Όμ μ μ μν©λλ€. λ
Όλ¬Έμμ μ μν μμλ₯Ό ν΅ν΄ λΉκ΅ν΄λ³΄λλ‘ νκ² μ΅λλ€.
κΈ°μ‘΄ Few-shot ν둬νν
Q: λ‘μ λ ν
λμ€κ³΅μ 5κ° κ°μ§κ³ μμ΅λλ€. κ·Έλ 2κ°μ ν
λμ€κ³΅ μΊμ λ μ½λλ€. κ° μΊλ§λ€ 3κ°μ ν
λμ€ κ³΅μ΄ λ€μ΄ μμ΅λλ€. μ΄μ κ·Έλ λͺ κ°μ ν
λμ€κ³΅μ κ°μ§κ³ μλμ?
A: μ λ΅μ 11μ
λλ€.
Q: μλΉμλ 23κ°μ μ¬κ³Όκ° μμμ΅λλ€. μ μ¬μ λ§λ€κΈ° μν΄ 20κ°λ₯Ό μ¬μ©νκ³ 6κ°λ₯Ό λ μμ΅λλ€. κ·Έλ€μ μ΄μ μΌλ§λ λ§μ μ¬κ³Όκ° μλμ?
μ λ΅μ 27μ
λλ€. (X)
Chain-of-Thought ν둬νν
Q: λ‘μ λ ν
λμ€κ³΅μ 5κ° κ°μ§κ³ μμ΅λλ€. κ·Έλ 2κ°μ ν
λμ€κ³΅ μΊμ λ μ½λλ€. κ° μΊλ§λ€ 3κ°μ ν
λμ€ κ³΅μ΄ λ€μ΄ μμ΅λλ€. μ΄μ κ·Έλ λͺ κ°μ ν
λμ€κ³΅μ κ°μ§κ³ μλμ?
A: λ‘μ λ 5κ°μ ν
λμ€κ³΅μΌλ‘ μμν©λλ€. 3κ°μ ν
λμ€κ³΅μ΄ λ€μ΄μλ 2κ°μ μΊμ 6κ°μ ν
λμ€κ³΅μ
λλ€. 5 + 6 = 11. λ΅μ 11μ
λλ€.
Q: μλΉμλ 23κ°μ μ¬κ³Όκ° μμ΅λλ€. μ μ¬μ λ§λ€κΈ° μν΄ 20κ°λ₯Ό μ¬μ©νκ³ 6κ°λ₯Ό λ ꡬμ
νλ€λ©΄, κ·Έλ€μ μ§κΈ λͺ κ°μ μ¬κ³Όλ₯Ό κ°μ§κ³ μμ΅λκΉ?
μλΉμλ κΈ°λ³Έμ μΌλ‘ 23κ°μ μ¬κ³Όλ₯Ό κ°μ§κ³ μμ΅λλ€. κ·Έλ€μ 20κ°λ₯Ό μ μ¬μ λ§λλ λ° μ¬μ©νμ΅λλ€. κ·Έλμ κ·Έλ€μ 23 - 20 = 3κ°λ₯Ό κ°μ‘μ΅λλ€. κ·Έλ€μ 6κ°μ μ¬κ³Όλ₯Ό λ μκ³ , κ·Έλμ κ·Έλ€μ 3 + 6 = 9κ°λ₯Ό κ°μ§κ³ μμ΅λλ€. μ λ΅μ 9μ
λλ€.
μ λ§ μ¬μν μ°¨μ΄μΈ κ² κ°μλ°, μ¬κ³ κ³Όμ μ μ μν΄μ£Όλ ν¨μ¬ λ μμΈνκ³ μ ννκ² μλ €μ€λλ€. λλ¬Έμ μ£Όλ‘ λ
Όλ¦¬μ μΈ μΆλ‘ μ΄ νμν μ°μ μΆλ‘ , μμ μΆλ‘ , κΈ°νΈ μΆλ‘ λ±μμ ν° ν¨κ³Όλ₯Ό 보μ
λλ€. μ΄λ° λ¬Έμ μ νΉμ§μ μ΄λ»κ² κ·Έλ¬ν κ²°κ³Όκ° λμΆλμλμ§ μ€λͺ
ν΄μ£Όλ μ κ° κ³Όμ μ΄ μ€μνλ€λ κ²μ
λλ€.
μ°κ΅¬μ§μ λ°λ₯΄λ©΄, μ¬κ³ κ³Όμ μ μ€λͺ
νλ κ²μ μ¬μ νλ ¨(Pre-trained) μ€ νλν μ§μμ νμ±ννκ³ μΆλ‘ μ νμν κ΄λ ¨ μ§μμ μ κ·Όν μ μλ κ°λ₯μ±μ λμ
λλ€. μ¦, μΆλ‘ μ νμν μ λ³΄κ° λ μ£Όμ΄μ§κΈ° λλ¬Έμ μ¬μ νλ ¨ μ€ κ΄λ ¨λ λΆλΆμ μ°Έκ³ ν μ μλ νμ΄ λμ΄μ§λ€λ κ²μ
λλ€.
Chain of Thoughtμ νΉμ§μ μμ보μ
μ°κ΅¬μ§μ΄ μ μν Chain of Thoughtμ μ₯μ μ μ΄ν΄λ΄
μλ€.
- Chain of Thoughtμ ν΅ν΄ λ¬Έμ λ₯Ό μΈλΆνλ μ€κ° λ¨κ³λ‘ λΆν΄ν μ μμ΅λλ€. μ°λ¦¬κ° μνλ λ§νΌ μΆλ‘ κ³Όμ μ λ μμΈνκ² κΈ°μ ν μλ‘, λ μ κ΅ν μΆλ‘ κ³Όμ μ μΆλ ₯ν κ²μ λλ€.
- λͺ¨λΈμ κ²°κ³Όκ° μ΄λ»κ² μΆλ‘ λλμ§ ν΄μμ΄ κ°λ₯ν©λλ€. λ§μ½ μ¬λ°λ₯΄μ§ μμ μΆλ‘ κ²°κ³Όλ₯Ό λλ€λ©΄, μ΄λ λ¨κ³μμ μλͺ»λ μΆλ‘ μ νλμ§ μ΄ν΄λ³Ό μ μμ΅λλ€.
- μΈμ΄λ₯Ό ν΅ν΄ ν μ μλ λͺ¨λ μΆλ‘ (μν, μμ μΆλ‘ λ±) μμ μ νλ μ μ©μ΄ κ°λ₯ν©λλ€.
- μ΄λ―Έ λ§λ€μ΄μ§ μΈμ΄ λͺ¨λΈμ μλ‘μ΄ νμ΅ κ³Όμ μμ΄λ, ν둬ννΈμ Chain of Thoughtμ μΆκ°νλ κ²λ§μΌλ‘ μ±λ₯μ ν₯μμν¬ μ μμ΅λλ€.
κ·Έλ λ€λ©΄ μΌλ§λ μ±λ₯μ΄ κ°μ λ κΉμ? μ°μ μΆλ‘ (Arithmetic Reasoning) λ°μ΄ν°μ
(GSM8K)μ λν΄μ κ°μ₯ ν° PaLM λͺ¨λΈμ Chain of Thought ν둬νν
λ°©λ²μ μ μ©νμ¬ λ¬΄λ € 17.9%μμ 58.6%κΉμ§ μ±λ₯μ λμ΄μ¬λ Έμ΅λλ€. GPT-3μμλ 15.6%μμ 49.6%λ‘ μ½ 3λ°° κ°κΉμ΄ κ°μ λμμ΅λλ€. μ°μ μΆλ‘ λ°μ΄ν°λ λ€λ₯Έ μ’
λ₯μ λ¬Έμ μ λΉν΄ μ‘°κΈ λ 볡μ‘ν ꡬ쑰λ₯Ό κ°μ§κ³ μμ΄ λμ± ν¨κ³Όμ μΌλ‘ λνλ κ²μ
λλ€. ννΈ, λ¨μν μ¬κ³ λ¨κ³λ§μΌλ‘λ μΆλ‘ μ΄ κ°λ₯ν κ²½μ°μλ μ±λ₯ κ°μ ν¨κ³Όκ° ν¬μ§ μμμ΅λλ€.
ν₯λ―Έλ‘μ΄ κ²μ Chain of Thought ν둬νν
λ°©μμ μ μ©ν κ²μ΄ GPT-3μ λ―ΈμΈ μ‘°μ νμ΅(Fine-tuning)λ³΄λ€ μ’μ μ±λ₯μ 보μλ€λ κ²μ
λλ€. μκ°κ³Ό λΉμ©μ λ€μ¬ μΆκ°μ μΈ νμ΅μ μ§ννλ κ²λ³΄λ€, μ§λ¬Έμ λμ± μ κ΅νκ² νλ κ²μ΄ ν¨κ³Όμ μΌ μ μλ€λ κ²μ μλ―Έν©λλ€.
νμ§λ§ μ λ§λ‘ μΈμ΄ λͺ¨λΈμ΄ βμΆλ‘ βμ νλμ§μ λν΄μλ μ¬μ ν μ μ μμ΅λλ€. λ¨μν νμμ λ² λΌκ³ μμ λ§ν κ²μ²λΌ μ 보μ λ λ§μ΄ μ κ·Όν΄μ κ²°κ³Όκ° λ μλμ€λ κ²μΌ μλ μκ³ μ.
μνκΉκ²λ μμ§ κ·λͺ¨κ° μμ μΈμ΄ λͺ¨λΈμμλ κ²°κ³Όκ° μ λμ€μ§ μλλ€λ νκ³λ μ‘΄μ¬ν©λλ€. μ°κ΅¬μ§μ 62Bμ 540Bμ PaLM λͺ¨λΈμ κΈ°λ°μΌλ‘ μ±λ₯μ νκ°νλλ°μ. 62B λͺ¨λΈμ΄ ν리λ λ¬Έμ λ₯Ό 540B λͺ¨λΈμ λ§νλ κ²μ λ°κ²¬νμ΅λλ€. κ·Έλ¦¬κ³ μ΄μ λν΄μ 540Bμ μΈμ΄ λͺ¨λΈμ΄ μΈμ΄λ₯Ό λ μ μ΄ν΄νκΈ° λλ¬Έμ ν둬ννΈ μμ§λμ΄λ§μ ν¨κ³Όκ° μ λνλ κ²μΌλ‘ λ³Έλ€κ³ λ§νμ΅λλ€.
λλ ν둬ννΈλ₯Ό λ§λ€ μ μμκΉ?
μ§κΈκΉμ§ Chain of Thoughtμ νΉμ§μ λν΄ μμ보μλλ°μ. κ·Έλ¬λ©΄ μ λ§ λꡬλ Chain of Thought λ°©μμΌλ‘ ν둬ννΈλ₯Ό λ§λ€μ΄λ ν¨κ³Όκ° μμκΉμ? μ°κ΅¬μλ€μ΄λ μ λ¬Έκ°λ€λ§ν μ μλ κ²μ μλκΉμ?
λ€ννλ Chain of Thought ν둬ννΈ λ°©μμ μμ±μμ λ―Όκ°νμ§ μμ΅λλ€. μ°κ΅¬μ§λ€μ μμ±μλ€μκ² λ³λ€λ₯Έ κ°μ΄λλ₯Ό μ μνμ§ μμ λ€ ν둬ννΈλ₯Ό μμ±ν΄λ³΄λΌκ³ ν΄λ³΄μλλ°μ. κ·Έμ€μλ λ¨Έμ λ¬λμ λν΄ μ λͺ¨λ₯΄λ μ¬μ©μλ€λ μμμ΅λλ€. κ·Έλ¬λ μμ±μ νΉμ±μ μκ΄ μμ΄ λͺ¨λμκ²μ μ±λ₯ κ°μ μ ν¨κ³Όκ° λνλ¬λ€κ³ λ°νμ΅λλ€.
μ΄λ μ¬λ¬λΆλ€λ μ§μ ν둬ννΈλ₯Ό λ§λ€ μ μλ€λ μλ―Έμ
λλ€. μ΄λ° νΉμ± λλΆμ ν둬ννΈλ₯Ό κ±°λνλ μμ₯μ΄ νμ±λκΈ°λ νμ΅λλ€.
κ°μΈμ μΌλ‘ Chain of Thought λ°©μμ΄ μμ¬νλ λ°κ° ν¬λ€κ³ μκ°ν©λλ€. μ¬μ€, μ¬λκ³Ό λνλ₯Ό ν λλ μλλ°©μ΄ λΉμ°ν μ κ²μ΄λΌκ³ κ°μ νλ©΄ μλͺ»λ λνκ° μ€κ°κΈ°λ ν©λλ€. λκ°μ μλ―ΈλΌλ βλλ μ΄λ° κ²½νμ΄ μκ³ , κ·Έλμ μ΄λ κ² μκ°νλ€.βμ²λΌ μΉμ ν λ¬Έμ₯ νλλ₯Ό λ μΆκ°νλ©΄ μλλ°©λ κ·Έ λ§₯λ½μ μ½κ² μ΄ν΄ν μ μκ³ λ μ’μ λνκ° μ€κ° μ μμ΅λλ€. λ³ΈμΈμ μκ°λ λμ± μ κ΅νν μ μκ³ μ. μ λ§ κ°λ λ§μ΄ κ³ μ°λ©΄, μ€λ λ§λ κ³±λ€λ 격μΈμ λ± λ§μ λ¨μ΄μ§μ§ μλ μΆμ΅λλ€.
πΒ deep daiv. μλ‘μ΄ κΈ
Humans of daiv. #4 κΉμ κ΅
λΆμΌλ₯Ό λ§λ‘ νκ³ βμ μλ€βλΌλ λλμ΄ λ€κΈ°λ μ½μ§ μμ΅λλ€. μ΄ μ λλ©΄ λλ€ μΆλ€κ°λ, λ΄κ° μλ μΈκ³κ° μ λΆκ° μλλΌλ μκ°μ νμΌμμ΄ κ²Έμν΄μ§κΈ°λ ν©λλ€. βλ°°μμλ λμ΄ μλ€βλ λͺ
μ λ₯Ό μ¬νμΈν μ μμ£ .
μΈκ³΅μ§λ₯μ 곡λΆνλ μ¬λμ΄λΌλ©΄ ν λ²μ―€ μ λ¬Έμ±μ λν΄ κ³ λ―Όν΄ λ³Έ μ μ΄ μμ κ²μ
λλ€. κ·Έλ¦¬κ³ κ½€λ λ§μ μ¬λμ΄ λ λμ λ°λ€λ‘ κ°κΈ° μν΄ λνμμ΄λΌλ κ΄λ¬Έμ κ±°μΉλ€. deep daiv.μμ μΈκ³΅μ§λ₯ 곡λΆλ₯Ό μμν΄ λ°μ΄ν°μ¬μ΄μΈμ€ λνμκΉμ§ μ§νν κΉμ κ΅μ μ΄μΌκΈ°λ₯Ό μκ°ν©λλ€.
λ¬Έμμ¬ν manager@deepdaiv.com