ย
0. ReviewModel free Control ExamplesOn-policy learningOff-policy learning1. Generalized Policy IterationPolicy UpdateIteration2. Importance of ExplorationEpsilon greedyGLIE3. Monte Carlo ControlPseudo code4. Temporal Difference Methods for ControlSARSA AlgorithmQ-Learning5. Maximization BiasDouble Q- Learning
0. Review
Model free Control Examples
- MDP ๋ก ๋ชจ๋ธ๋ง ๋ ๋ง์ ์์ฉ๋ถ์ผ๊ฐ ์์.
- game, robots, helicopter flight, Go, ๋ฑ๋ฑ
- But, ์๋ฎฌ๋ ์ด์ ๊ณ์ฐ ๋น์ฉ ๋งค์ฐ ๋น์ (์ค์๊ฐ์ผ๋ก ๊ณ์ฐ๋์ด์ผ ํ๋ ๋ถ๋ถ์ด ์๊ธฐ ๋๋ฌธ)
On-policy learning
- ์ง์ ๊ฒฝํ
- ์ถ์ ์น๋ฅผ ํ์ตํ๊ณ ๊ทธ policy๋ก ๋ถํฐ ์ป์ด์ง ๊ฒฝํ์ผ๋ก policy ํ๊ฐ
Off-policy learning
- ์ถ์ ์น๋ฅผ ํ์ตํ๊ณ ๋ค๋ฅธ policy๋ก ๋ถํฐ ์ป์ด์ง ๊ฒฝํ์ ์ฌ์ฉํด ๊ทธ policy ํ๊ฐ
1. Generalized Policy Iteration
Policy Update
Notation
: State Value Function
: State-Action Value Function
ย
- ์ฒ์์ ์ ์ฑ (Policy)๋ฅผ ๋ผ ํ๊ณ , ์ ์ฑ ํ๊ฐ๋ฅผ ์ํ ๊ฐ์ ๋ผ๊ณ ํ๋ฉด, ์ ๋ฐ์ดํธ ๋๋ ์ ์ฑ ์ ๋ผ ํ ๋, ์ ๋ฐ์ดํธ ์์ ๋ค์๊ณผ ๊ฐ์ด ์ฑ๋ฆฝํ๋ค.
- ๊ฒฐ๊ตญ, ์ ์ฑ ์ ์ ๋ฐ์ดํธ ํ๋ ๊ฒ์ State-Action value function(Q)์ ์ต๋ํ ํ๋ action์ ์ฐพ๋๊ฒ.
Iteration
- ์ด๊ธฐ๊ฐ ์ค์ : N(s,a) =0, G(s,a)=0,
- under ,
2. Importance of Exploration
Epsilon greedy
- ํน์ ํด๋์ค์ ์ ์ฑ ์ ๋ชจ๋ (s,a) ์์ด true value๋ก ๊ทผ์ฌ์ ์ผ๋ก ์๋ ดํ๋์ง ํ์ธํ๊ธฐ ์ํด ์ํ.โ ์ฆ, ํ์ฌ์ ์ ์ฑ ์ด ์ถฉ๋ถํ ์ข์์ง ๋ฅผ ํ์ธํ๊ธฐ ์ํจ.
- |A|๊ฐ ํ๋์ ๊ฐ์๋ผ๊ณ ํ๋ฉด, -greedy ์ ์ฑ ์ ๋ค์๊ณผ ๊ฐ์ด ์ ์
- ์ฆ, 1-epsilon์ ํ๋ฅ ๋ก ์ฃผ์ด์ง ์์ ์ต๋ํ ํ๋ ์ ์ฑ ์ ์ฐพ๊ณ , epsilon/|A| ์ ํ๋ฅ ๋ก๋ ๋๋คํ a๋ฅผ ์ ํํ๋ค.
ย
GLIE
- Greedy in the Limit of Infinite Exploration
- ๋ชจ๋ State-Action ์์ด ๋ฌดํํ visit ๋๋ค๋ฉด, ํ๋ ์ ์ฑ ํจ์๋ ํ๋ฅ 1์ ๊ฐ๋ greedy policy๋ก ์๋ ดํ๋ค. ์ฆ, epsilon=0์ผ๋ก ์ค์ด๊ฒ ๋๋ค.
3. Monte Carlo Control
Pseudo code
4. Temporal Difference Methods for Control
SARSA Algorithm
ย
- Convergence
- ์ ํ๊ฐ์ ์ํ์ ํ๋์ ๊ฐ๋ MDP์ SARSA๋ Q(s,a)๊ฐ ์ต์ ์ action-value function์ธ Q*(s,a)๋ก ์๋ ดํ๋ค. ๋จ, ๋ค์์ ์กฐ๊ฑด๋ค์ ๊ฐ์ ํ์ ๋ ์ฑ๋ฆฝ
- ๊ฐ GLIE ์กฐ๊ฑด์ ๋ง์กฑ
- step-size ์ ๋ํด, ๋ค์๊ณผ ๊ฐ์ ์กฐ๊ฑด ๋ง์กฑ
ย
Q-Learning
- State-Action Function Q์ ์ถ์ ์น๋ฅผ ์ ์งํ๊ณ , bootstrap์ ์ฌ์ฉํ๋ค. โ ๊ฐ์ฅ ์ข์ ๋ฏธ๋ ํ๋์ value๋ฅผ ์ฌ์ฉ
- SARSA์ ๋น๊ต
- ์ฆ, ๋ค์ ํ๋๋ง์ ์ฌ์ฉํด state-Action function์ ๊ณ์ฐํ๋ SARSA์ ๋ฌ๋ฆฌ, Q-learning์ ๋ถํธ์คํธ๋ฉ(์ฌํ๋ณธ์ถ์ถ๊ธฐ๋ฒ)์ ์ฌ์ฉํด ๋ค์ํ action์ ํ๊ณ , ๊ทธ ์ค Q๋ฅผ ์ต๋ํ ํ๋ Action์ ์ฌ์ฉํ๋ค.
- Q-learning with epsilon greedy Exploration
5. Maximization Bias
- ์ถ์ ์น ์ value ๋ bias ๋ฅผ ๊ฐ์ง ์ ์๋ค.
Double Q- Learning
- unbiased estimator์ธ Q ํจ์๋ฅผ 2๊ฐ๋ก ๋ถํ ํด ํ๋๋ action์ ์ ํํ๊ณ (Q1), ํ๋๋ ์ด๋ฅผ ํ๊ฐํ๋ ํจ์(Q2)๊ฐ ์กด์ฌํ๋ค. โ bias ๋ฎ์ถค
ย
- ํธ์ฐจ๋ฅผ ์ต๋ํ ํ๊ธฐ ๋๋ฌธ์ Q-learing ์ double Q-learning๋ณด๋ค ํจ์ฌ ๋ ๋ง์ ์๊ฐ์ suboptimal ์ ์ฐพ๋๋ฐ ์๊ฐ์ ์ฌ์ฉํ๋ค.