ย
ย
Value Function
- ์ฆ๊ฐ์ ์ธ ๋ณด์๊ณผ ์ง์ฐ๋ ๋ณด์ ์ค ์ด๋ ๊ฒ์ ๋ ๋น์ค์ ๋ ๊ฒ์ธ๊ฐ๋ฅผ ๋ํ๋ด๋ ํจ์
- policy๋ฅผ ์ ํ๋ ๊ธฐ์ค์ด ๋จ
ย
ย
Value Function Approximation (VFA)
- Value Function์ state์ action์ parameter๋ก ๊ฐ๋ funtion์ผ๋ก ๋ง๋๋ ๊ฒ
- ์ค์ ์ํฉ์์๋ ๋ชจ๋ state๋ฅผ ์ ์ ์๊ธฐ ๋๋ฌธ์, ๋ชจ๋ state๋ฅผ ์ ์ฒด์ ์ผ๋ก ์์ฐ๋ฅด๋ ์ผ๋ฐํญ์ ๋ง๋ค๊ธฐ ์ํจ (โ Lecture1์์ ์ธ๊ธํ๋ ๊ฐํํ์ต์ key aspect ์ค ์ผ๋ฐํ)
- + ์ผ๋ฐํ๋ฅผ ํ๋ฉด ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๊ณผ ์ฐ์ฐ ์๊ฐ, ์ข์ policy๋ฅผ ์ฐพ๊ธฐ๊น์ง ํ์ํ ๋ฐ์ดํฐ๋ฅผ ์ค์ผ ์ ์์
- - ๋ฐ์ดํฐ๋ฅผ ๋น๊ต์ ์ ๊ฒ ์ฌ์ฉํ์ฌ ํ์ตํ๊ธฐ ๋๋ฌธ์, ์ผ๋ฐํํ ๋ชจ๋ธ์ ์ค์ ๋ก ์ ์ํ์ ๋ ์ ์๋ ฅ์ด ๋ฎ์ ์ ์์
ย
ย
Model Free VFA Policy Evaluation
- ์ค์ Value๊ฐ์ ์ ์ ์์ โ model์ ์์กดํ์ง ์๋ VFA๋ฅผ ๋ง๋ค์ด์ผ ํจ (๋ชจ๋ธ๋ก๋ถํฐ VFA๋ฅผ ์ ์ถํ ์ ์๋ค)
Monte Carlo Value Function Approximation
- Monte Carlo๋ ์ด๋ค state๋ฅผ ๊ฒฝํํ๊ณ ์ค์ Value ๊ฐ์ ์ถ๋ ฅํจ
- Monte Carlo ๋ฐฉ์์ VFA์ ์ ์ฉ
ย
Batch Monte Carlo Value Function Approximation
- policy์ ๋ํด ์ผ๋ จ์ state๋ค์ ๊ฒฝํํ ๋ฐ์ดํฐ๊ฐ ์๋ค๋ฉด, ํ ๋ฐ์ดํฐ ๋น ํ ๋ฒ์ update๋ฅผ ๊ฑฐ์น์ง ์๊ณ ์ผ๋ จ์ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ์ฌ์ฉํ์ฌ ํ ๋ฒ์ update ํ ์ ์์
- ์ด ๋ํ Markov assumption์ ๋ง์กฑํ์ง ์์
ย
ย
Temporal Difference Learning with Value Function Approximation
- TD(0) Learning with Value Function Approximation : J(w)์ ๊ฐ์ ์ต์ํ์ํค๋ w๊ฐ์ ์ฐพ์๊ฐ๋ ๋ฐฉ๋ฒ
- TD(0) Learning with Value Function Approximation ๋ํ w๊ฐ ํน์ ๊ฐ์ ์๋ ด
- Monte Carlo๋ณด๋ค ์ฑ๋ฅ์ด ์กฐ๊ธ ๋ ์ข์
ย