5๊ฐ•_Value Function Approximation

ย 
ย 

Value Function

  • ์ฆ‰๊ฐ์ ์ธ ๋ณด์ƒ๊ณผ ์ง€์—ฐ๋œ ๋ณด์ƒ ์ค‘ ์–ด๋А ๊ฒƒ์— ๋” ๋น„์ค‘์„ ๋‘˜ ๊ฒƒ์ธ๊ฐ€๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ํ•จ์ˆ˜
  • policy๋ฅผ ์ •ํ•˜๋Š” ๊ธฐ์ค€์ด ๋จ
ย 
ย 

Value Function Approximation (VFA)

  • Value Function์„ state์™€ action์„ parameter๋กœ ๊ฐ–๋Š” funtion์œผ๋กœ ๋งŒ๋“œ๋Š” ๊ฒƒ
  • ์‹ค์ œ ์ƒํ™ฉ์—์„œ๋Š” ๋ชจ๋“  state๋ฅผ ์•Œ ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์—, ๋ชจ๋“  state๋ฅผ ์ „์ฒด์ ์œผ๋กœ ์•„์šฐ๋ฅด๋Š” ์ผ๋ฐ˜ํ•ญ์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•จ (โ†’ Lecture1์—์„œ ์–ธ๊ธ‰ํ–ˆ๋˜ ๊ฐ•ํ™”ํ•™์Šต์˜ key aspect ์ค‘ ์ผ๋ฐ˜ํ™”)
  • + ์ผ๋ฐ˜ํ™”๋ฅผ ํ•˜๋ฉด ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๊ณผ ์—ฐ์‚ฐ ์‹œ๊ฐ„, ์ข‹์€ policy๋ฅผ ์ฐพ๊ธฐ๊นŒ์ง€ ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ๋ฅผ ์ค„์ผ ์ˆ˜ ์žˆ์Œ
  • - ๋ฐ์ดํ„ฐ๋ฅผ ๋น„๊ต์  ์ ๊ฒŒ ์‚ฌ์šฉํ•˜์—ฌ ํ•™์Šตํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์ผ๋ฐ˜ํ™”ํ•œ ๋ชจ๋ธ์„ ์‹ค์ œ๋กœ ์ ์‘ํ–ˆ์„ ๋•Œ ์ ์‘๋ ฅ์ด ๋‚ฎ์„ ์ˆ˜ ์žˆ์Œ
ย 
ย 

Model Free VFA Policy Evaluation

  • ์‹ค์ œ Value๊ฐ’์„ ์•Œ ์ˆ˜ ์—†์Œ โ†’ model์— ์˜์กดํ•˜์ง€ ์•Š๋Š” VFA๋ฅผ ๋งŒ๋“ค์–ด์•ผ ํ•จ (๋ชจ๋ธ๋กœ๋ถ€ํ„ฐ VFA๋ฅผ ์œ ์ถ”ํ•  ์ˆ˜ ์—†๋‹ค)

Monte Carlo Value Function Approximation

  • Monte Carlo๋Š” ์–ด๋–ค state๋ฅผ ๊ฒฝํ—˜ํ•˜๊ณ  ์‹ค์ œ Value ๊ฐ’์„ ์ถœ๋ ฅํ•จ
  • Monte Carlo ๋ฐฉ์‹์„ VFA์— ์ ์šฉ
notion image
ย 

Batch Monte Carlo Value Function Approximation

  • policy์— ๋Œ€ํ•ด ์ผ๋ จ์˜ state๋“ค์„ ๊ฒฝํ—˜ํ•œ ๋ฐ์ดํ„ฐ๊ฐ€ ์žˆ๋‹ค๋ฉด, ํ•œ ๋ฐ์ดํ„ฐ ๋‹น ํ•œ ๋ฒˆ์˜ update๋ฅผ ๊ฑฐ์น˜์ง€ ์•Š๊ณ  ์ผ๋ จ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ๋ชจ๋‘ ์‚ฌ์šฉํ•˜์—ฌ ํ•œ ๋ฒˆ์— update ํ•  ์ˆ˜ ์žˆ์Œ
  • ์ด ๋˜ํ•œ Markov assumption์„ ๋งŒ์กฑํ•˜์ง€ ์•Š์Œ
ย 
ย 

Temporal Difference Learning with Value Function Approximation

notion image
  • TD(0) Learning with Value Function Approximation : J(w)์˜ ๊ฐ’์„ ์ตœ์†Œํ™”์‹œํ‚ค๋Š” w๊ฐ’์„ ์ฐพ์•„๊ฐ€๋Š” ๋ฐฉ๋ฒ•
notion image
  • TD(0) Learning with Value Function Approximation ๋˜ํ•œ w๊ฐ€ ํŠน์ • ๊ฐ’์— ์ˆ˜๋ ด
  • Monte Carlo๋ณด๋‹ค ์„ฑ๋Šฅ์ด ์กฐ๊ธˆ ๋” ์ข‹์Œ
ย