INTRO
βμ λ둬βμ΄λΌκ³ λΆλ₯Ό μ μμ μ λλ‘ μ°λ¦¬ μΆμ λ§μ λ³νλ₯Ό μΌμΌν€κ³ μλ ChatGPT, μ΄μ λμν΄ κ΅¬κΈμ΄ λ΄λμ Bard, κ·Έλ¦¬κ³ μ΅κ·Ό μΆμλμ΄ μΈκ°μ μ£Όλͺ©μ λ°κ³ μλ GPT-4κΉμ§. βλνν AIμ μλβλΌκ³ ν΄λ κ³ΌμΈμ΄ μλ μ λλ‘ λ§μ ν
μ€νΈ μμ± λͺ¨λΈλ€μ΄ μ°νμ£½μ κ°λ°λκ³ μμ΅λλ€.
μ΄λ¬ν λνν AIλ€, κΉμ§ λλλ§νΌ λλν λ΅λ³μ λ΄λμΌλ©° λ μ΄ κ°μλ‘ μ’μ μ±λ₯μ 보μ¬μ£Όκ³ μλλ°μ. μ€μ λ‘ ChatGPTμκ² νκ΅ κ³Όμ λ₯Ό λΆννκ±°λ, μ½λλ₯Ό λμ μ§ λ¬λΌκ³ μμ²νκ±°λ, νΉμ μ£Όμ μ κ΄ν κΈμ μ¨ λ¬λΌκ³ μμ²ν΄ λμμ λ°μ μ¬λ‘λ€μ΄ λ§μ΄ μκ°λλ©΄μ μ΄μ λ λꡬλ κ·Έ μ μ©μ±μ μΈμ νμ§ μμ μ μλ μμ€μ
λλ€.
κ·Έλ¬λ ννΈμΌλ‘λ, μ΄ λνν AIκ° μ μ λ°μ ν¨μ λ°λΌ μ΄λ€μ΄ λ΄λμ λ΅λ³μ λν μ€λ¦¬μ λ¬Έμ κ° νλλμ© μ κΈ°λκ³ μλλ°μ. 무μμ΄λ λλ΅ν΄μ£Όλ AIμ μ μ©μ±μ΄ λΉμ€λ¦¬μ μΌλ‘ λ°νλλ€λ©΄, κ·Έκ²μ βμ μ©ν AIβμ λ²μ£Όλ₯Ό λμ΄ μλ‘λ₯Ό 곡격νκ³ νΌν΄ μ
νλ λ°μ μ¬μ©λλ βλ²μ£ λꡬβλ‘ λ°μ ν κ°λ₯μ±μ΄ λ€λΆν©λλ€. λλ¬Έμ λνν AIμ μ μ©μ±κ³Ό λλΆμ΄ 무ν΄μ± μ¦, μ€λ¦¬μ±μ νμ¬νκΈ° μν μ°κ΅¬κ° λ§μ΄ μ§νλκ³ μμ΅λλ€.
μ΄λ² μν°ν΄μμλ βAIμ μ€λ¦¬μ±βμ΄λΌλ νλμ ν¨κ», μ΄ μ€λ¦¬μ±μ κ°μΆ βκ°λ
μλ AIβλ₯Ό λ§λ€κΈ° μν μλ μ€ νλμΈ Constitutional AIμ λν΄ μκ°νκ² μ΅λλ€π€
Β
Β
[ λͺ©μ°¨ ]
INTRO1. λνν AI, λλνκΈ΄ νμ§λ§ μ€λ¦¬μ±μ?2. Constitutional AI: βκ·μΉβμ΄ βμ€λ¦¬βλ₯Ό λ§λ λ€3. AI νΌλλ°±μ ν΅ν΄ νμ΅λ β무ν΄ν¨β3.1 SL(Supervised Learning) Phase3.2 RL(Reinforcement Learning) PhaseOUTROμ°Έκ³ λ¬Έν λ° μΆμ²
Β
1. λνν AI, λλνκΈ΄ νμ§λ§ μ€λ¦¬μ±μ?
ChatGPTλ₯Ό λΉλ‘―ν λνν AIλ€μ΄ λλΌμΈ λ§νΌ μμ€ λμ λ΅λ³μ λ΄λμΌλ©°, μΈκ°μκ² μ€μ§μ μΌλ‘ λμμ΄ λκ³ μμμ μ¬μ€μ
λλ€.
λ°λΌμ κ·Έ μ μ©μ±μ΄ 컀μ§μλ‘ μ΄λ€μ΄ λ΄λμ λ΅λ³μ΄ μΈμμ λΌμΉλ μν₯λ ₯ λν νμ°μ μΌλ‘ μ»€μ§ μλ°μ μμ΅λλ€. λ§μΌ μ΄λ€μ΄ μ ν΄ν λ΄μ©μ λ΄μ λ΅λ³μ μμ±νλ€λ©΄, κ·Έ μ ν΄ν¨μΌλ‘ μΈν΄ λ€λ₯Έ λκ΅°κ°κ° νΌν΄λ₯Ό μ
κ² λ μλ μμ£ .
μ΄μ―€μμ, κΈ°μ‘΄ λνν AIμ μ΄λ€μ μ€λ¦¬μ±μ μΏλ³Ό μ μλ μ§λ¬Έμ νλ©΄ μ΄λ»κ² λ κΉμ?
Constitutional AIμ λ
Όλ¬Έμμ λͺ κ°μ§ μμλ₯Ό λ°μ·νμ΅λλ€. λ³΄λ€ κΈμ μ μΌλ‘ μ‘°μΈν΄μ£Όλκ° νλ©΄, λ΅λ³μ ννΌνκΈ°λ νκ³ , λ€ν€μ§ μκ³ μμ μμ 물건μ νμΉλ λ°©λ²μ μΉμ ν μ€λͺ
ν΄μ£ΌκΈ°λ νλ λͺ¨μ΅μ λ³Ό μ μλ€μπ
μ΄μ κ°μ AIμ νλμ μ¬μ©μλ₯Ό λΉμ€λ¦¬μ μΈ λ°©ν₯μΌλ‘ μ΄λκ±°λ, λ¨μ μ 보 μ λ¬ λ§€μ²΄μ μν μ κ·ΈμΉλ©° μΈκ°μκ² μλ¬΄λ° κΈμ μ μΈ λμμ μ£Όμ§ λͺ»νκ² λ©λλ€.
λνν AIκ° μ μ©ν μ 보λ₯Ό μ λ¬νλ κ²μμ κ·ΈμΉμ§ μκ³ , μ¬μ©μλ₯Ό μ’μ λ°©ν₯μΌλ‘ μ΄λλ 무ν΄ν λ΅λ³μ μμ±νλ μͺ½μΌλ‘ λ°μ νλ€λ©΄ μ’μ§ μμκΉμ?
μ΄λ¬ν μ§λ¬Έμ κΈ°λ°ν μ°κ΅¬κ° λ°λ‘ μ€λ μκ°ν Constitutional AIμ
λλ€. βConstitutionβμ΄λΌκ³ μΌμ»«λ μΌλ ¨μ βμμΉβμ μ μ ν΄ AIκ° μ΄λ₯Ό λ°λ₯΄λλ‘ νμ΅μμΌ°λ€κ³ νλλ°μ. μ΄ λ°©μμ ν΅ν΄ λνν AIλ₯Ό κ°ννμ΅ μν€λ©΄ μ μμ μ§λ¬Έμ λν λ΅λ³μ΄ λ€μκ³Ό κ°μ΄ κ°μ λλ€κ³ ν©λλ€.
μ΄ μ§λ¬Έμ΄ μμ¬νλ λ°κ° μ€λ¦¬μ μ΄μ§ μλ€λ μ견μ λΆλͺ
ν λ°νλ©°, λλΆμ΄ μ μ€λ¦¬μ μ΄μ§ μμμ§μ λν κ·Όκ±°λ₯Ό λ
Όλ¦¬μ μΌλ‘ μ€λͺ
νλ κ²μ λ³Ό μ μμ΅λλ€. λ΅λ³μ κ±°λΆνμ§ μμΌλ©°, λ¨μ μ 보 μ λ¬μ λμ΄ μ°λ¦¬ μΈκ°μκ² ν¨μ¬ λ μ’μ μν₯μ μ€ μ μλλ‘ κ°μ λ κ²μ
λλ€!
μ΄μ²λΌ 무ν΄νλ©΄μλ μ μ©ν λ΅λ³μ μμ±νλ Constitutional AI, μ΄λ»κ² νμ΅λλ κ±ΈκΉμ? μμΈν μ΄ν΄λ΄
μλ€.
Β
2. Constitutional AI: βκ·μΉβμ΄ βμ€λ¦¬βλ₯Ό λ§λ λ€
Constitutional AIλ κΈ°μ‘΄ λνν AIκ° κ°μ§ μ μ©μ±(Helpfulness)κ³Ό λλΆμ΄ 무ν΄ν¨(Harmlessness)κΉμ§ κ°μΆ AIλ₯Ό λ§λ€κΈ° μν΄ κ³ μλμμ΅λλ€.
μ¬κΈ°μ, AIμ β무ν΄ν¨βμ΄λΌλ κ°λ
μ μ΄λ»κ² νμ΅μμΌ°μκΉμ?
Constitutional AIμμλ βConstitutionβ λλ βPrincipleβμ΄λΌκ³ λΆλ₯΄λ λͺ κ°μ§ μμΉμ μ μ νμ΅λλ€. μΈκ°μ΄ λ§λ
ν λ°λΌμΌ ν μ€λ¦¬μ μΈ κ·μΉλ€μ βνλ²βμΌλ‘ μ μ ν΄ λμλ―μ΄, AIκ° λ§λ
ν λ°λΌμΌ ν μ€λ¦¬μμΉμ μ ν΄ νμ΅μν¨ κ²μ΄μ£ . μ¬λμ΄ μ ν΄λμ μ€λ¦¬μμΉμ μ² μ ν μ€μνλ©° ν
μ€νΈλ₯Ό μμ±νκΈ° λλ¬Έμ, μ μ©νλ©΄μλ μ€λ¦¬μ μΈ λ΅λ³μ μ»μ μ μκ² λλ κ²μ
λλ€.
λν μ΄ Constitution λͺ©λ‘μ ν΅ν΄ 무ν΄ν¨μ λν λ μ΄λΈμ μΌμΌμ΄ λ¬μ§ μμλ AIκ° μ€μ€λ‘ 무ν΄ν¨μ νλ¨νκ³ κ°μ νλ Self-Improvement λ°©μμ νμ΅μ΄ κ°λ₯ν΄μ‘μ΅λλ€. μ΄ λ°©μμ AI νΌλλ°± κΈ°λ° κ°ννμ΅(Reinforcement Learning from AI Feedback, RLAIF)μ΄λΌκ³ νλλ°μ. μ¬λμ΄ μΌμΌμ΄ λ μ΄λΈμ λ¬μμΌ νλ κΈ°μ‘΄μ μΈκ° νΌλλ°± κΈ°λ° κ°ννμ΅(RLHF)μ λΉν΄ μΈκ°μ κ°μ
μ μ΅μνμΌλ‘ μ€μ΄λ©΄μ νμ΅μ λ€μ΄κ°λ λ
Έλλ ₯ λν λν μ€μλ€λ μμκ° μμ΅λλ€.
Β
3. AI νΌλλ°±μ ν΅ν΄ νμ΅λ β무ν΄ν¨β
μ΄μ Constitutional AIμ νμ΅ κ³Όμ μ λν΄ μ΄ν΄λ΄
μλ€. νμ΅μ ν¬κ² λ€μκ³Ό κ°μ λ λ¨κ³λ‘ μ΄λ£¨μ΄μ§λλ€.
Constitutional AIμ νμ΅ κ³Όμ
- SL(Supervised Learning) Phase β μ체 λΉνκ³Ό μμ μ ν΅ν μ§λνμ΅ λ¨κ³
- RL(Reinforcement Learning) Phase β β무ν΄ν¨βμ λν AI νΌλλ°±μ μ΄μ©ν κ°ννμ΅ λ¨κ³
Β
3.1 SL(Supervised Learning) Phase
CritiqueΒ βΒ RevisionΒ βΒ Supervised Learning
첫 λ²μ§Έ λ¨κ³λ μ체 λΉν(Self-Critique)κ³Ό μμ (Revision)μ ν΅ν μ§λνμ΅ λ¨κ³μ
λλ€.
- Initial Response
λ¨Όμ , μ¬μ νμ΅λ μΈμ΄ λͺ¨λΈμ μ΄κΈ° λͺ¨λΈ(Initial Model)λ‘ μΌμ μ ν΄ν ν둬ννΈμ λν μλ΅μ μμ±ν©λλ€. μ΄ μ΄κΈ° λͺ¨λΈμ 무ν΄ν¨μ λν νμ΅μ΄ λμ§ μμ, μ μ©νκ²λ§ νμ΅λ(Helpful-Only) λͺ¨λΈμ΄κΈ° λλ¬Έμ μ΄ μ΄κΈ° μλ΅μ λ€μ μ ν΄ν λ΄μ©μ ν¬ν¨ν μ μμ΅λλ€.
- Critique - Revision
λ€μμΌλ‘, 미리 μ§μ ν΄λ Constitution(μμΉ)μ λ°λΌ λͺ¨λΈμ΄ μ€μ€λ‘ λΉν(Critique)ν λ€ μ΄ λ΄μ©μ λ°νμΌλ‘ μλ΅μ μμ (Revision)ν©λλ€. μ΄ λΉν-μμ μ μ°¨λ λͺ νμ κ±Έμ³μ λ°λ³΅λλλ°, κ° λ¨κ³λ§λ€ Constitution λͺ¨μμΌλ‘λΆν° 무μμλ‘ μ μ λ Constitutionμ λ°λ¦
λλ€.
- Fine-Tuning
λ§μ§λ§μΌλ‘, μ΅μ’
μμ λ μλ΅μ λν μ§λνμ΅(SL)μ ν΅ν΄ μ΄κΈ° λͺ¨λΈμ Fine-Tuningν©λλ€.
μ΄ κ³Όμ μμ μ΄κΈ° λͺ¨λΈμ΄ μμΉμ λ°λ₯Έ μ체 λΉνκ³Ό μμ μ ν΅ν΄ λ³΄λ€ μ€λ¦¬μ μΈ λ°©ν₯μΌλ‘ λ―ΈμΈμ‘°μ λ©λλ€.
Β
3.2 RL(Reinforcement Learning) Phase
AI Comparison EvaluationsΒ βΒ Preference ModelΒ β Reinforcement Learning
λ λ²μ§Έ λ¨κ³λ β무ν΄ν¨βμ λν AIμ μ νΈ νΌλλ°±μ ν΅ν κ°ννμ΅(RLAIF) λ¨κ³μ
λλ€.
μ΄ λ¨κ³λ 무ν΄ν¨μ λν μ¬λμ μ νΈ λ μ΄λΈμ βAI νΌλλ°±βμΌλ‘ λ체νλ€λ μ μ μ μΈνλ©΄ κΈ°μ‘΄μ RLHFμ λΉμ·νλ°μ. μ¬κΈ°μ AI νΌλλ°±μ΄λ AIκ° μμ μ§μ ν΄λ Constitution(μμΉ)μ λ°λΌ μλ΅μ μ체μ μΌλ‘ νκ°νλ κ²μ λ§ν©λλ€.
κΈ°μ‘΄ RLHFκ° μ¬λμ μ νΈλ₯Ό λ°νμΌλ‘ μ νΈλ λͺ¨λΈ(PM)μ λ§λλ κ² κ°μ΄, RLAIFμμλ μΌλ ¨μ μμΉμ λν μ΄κΈ° λͺ¨λΈμ ν΄μμ λ°νμΌλ‘ μ νΈλ λͺ¨λΈμ λ§λλλ€.
- AI Comparison Evaluations
λ¨Όμ , μ΄μ λ¨κ³μΈ SL Phaseλ₯Ό ν΅ν΄ νλ ¨λ μ΄κΈ° λͺ¨λΈμ μ ν΄ν ν둬ννΈλ₯Ό μ
λ ₯μΌλ‘ λ£μ΄ ν μμ μλ΅ μ λ₯Ό μμ±ν©λλ€.
λ€μμΌλ‘, μμΉ λͺ©λ‘μμ μμΉ νλλ₯Ό κ°μ Έμ¨ λ€, λ μ€ μ΄λ€ μλ΅μ΄ μ΄ μμΉμ λ μ€μνλ λ΅λ³μΈμ§ μ ννκ²λ ν©λλ€.
- Preference Model
AIκ° Chain-of-Thought μΆλ‘ κ³Όμ μ ν΅ν΄ μλ΅μ μ ννκ² λκ³ , μ΄λ₯Ό ν΅ν΄ AIκ° μμ±ν β무ν΄ν¨βμ λν μ νΈλ λ°μ΄ν°μ
μ΄ λ§λ€μ΄μ§λλ€. κ·Έλ¦¬κ³ μ¬κΈ°μ κΈ°μ‘΄μ RLHFλ₯Ό ν΅ν΄ μ»μ μ μ©μ± μ§μ λ°μ΄ν°μ
μ νΌν©ν©λλ€.
- Reinforcement Learning
λ§μ§λ§μΌλ‘, μ΄ AI μ νΈλ λ°μ΄ν°μ
μΌλ‘ νμ΅λ μ νΈλ λͺ¨λΈ(PM)μ ν΅ν΄ κ°ννμ΅μ μ§νν©λλ€. μ¬κΈ°μ μ νΈλ λͺ¨λΈμ΄ λ°νν AIμ μ νΈλ μ μκ° κ°ννμ΅μμμ 보μ μ νΈ(Reward Signal) μν μ νλ κ²μ΄μ£ .
μ΄λ¬ν λ λ¨κ³μ νμ΅μ ν΅ν΄ μ΅μ’
μ μΌλ‘ μ μ©μ±(Helpfulness)μ μ μ§νλ©΄μλ, λ΅λ³μ ννΌνμ§ μμΌλ©° 무ν΄ν¨(Harmlessness)μ κ°μΆ AIκ° νμ΅λ©λλ€.
Β
OUTRO
μ§κΈκΉμ§ AIμ β무ν΄ν¨βμ 첨κ°ν΄μ λ³΄λ€ μ€λ¦¬μ μΈ AIλ₯Ό λ§λ€κ³ μ ν Constitutional AIλ₯Ό μ΄ν΄λ³΄μμ΅λλ€! AIκ° μμΉμ λ°λΌ νλνλλ‘ νμλ μμ΄λμ΄λ μ μ νλ°, κ·Έκ²λ μ체μ μΈ νΌλλ°±μ ν΅ν΄ νμ΅λλ€λ, μ λ§ ν₯λ―Έλ‘μ§ μλμ?
κ³ μ±λ₯μ λνν AIκ° μμμ Έλμ€λ μμ¦ κ°μ λμ AIμ μ€λ¦¬μ±μ κ΄ν μ°κ΅¬λ μ΄λ€μ 무λΆλ³ν μ¬μ© λ° μ
μ©μ λ§κΈ° μν΄ κ°μ₯ νμν μ°κ΅¬ μ€ νλκ° μλκΉ μΆμλ°μ. μν°ν΄μ΄ ν₯λ―Έλ‘μ°μ
¨λ€λ©΄ Constitution AIμ λ
Όλ¬Έλ ν λ² μ½μ΄λ³΄μκΈ°λ₯Ό μΆμ²λ리면μ μ΄λ² ν¬μ€ν
μ λ§λ¬΄λ¦¬ νκ² μ΅λλ€. κ°μ¬ν©λλ€π
Β
Β
Β
Β
μλν°

Β
Β
Β
Β
Β
Β
Β
Β
Β
μ°Έκ³ λ¬Έν λ° μΆμ²
[1] Constitutional AI λ
Όλ¬Έ: https://arxiv.org/abs/2212.08073
Β
λ¬Έμμ¬ν manager@deepdaiv.com