Lecture 1 _ Introduction
ย
ย
ย
Reinforcement Learning
: how can an intelligent agent learn to make a good sequence of decisions under uncertainty? \
๋ถํ์ค์ฑ ํ์์, ์ธ๊ณต์ง๋ฅ์ด ์ด๋ป๊ฒ ์ผ๋ จ์ ๊ฒฐ์ ๋ค์ ๋ํ์ฌ ์ข์ ๊ฒฐ์ ์ ๋ด๋ฆฌ๋๋ก ํ์ต์ํฌ ๊ฒ์ธ๊ฐ?
key issues of reinforcement learning
- Sequence of Decisions : ํ๋๋ง ๋์ค๊ณ ๋๋๋ ๊ฒฐ์ ์ด ์๋ ๊ณ์ ์ด์ด์ง๋ ์ผ๋ จ์ ๊ฒฐ์ ๋ค
- Good Decisions : ์ ํ๋, ์ต๋ํ์ ๋ณด์์ ๋ฐ์ ์ ์๋ ์ต์ ์ ๊ฒฐ์
- the learning : ์ข์ ๊ฒฐ์ ์ ๋ด๋ฆฌ๊ธฐ ์ํด agent๋ฅผ ํ์ต์ํด
ย
key aspects of reinforcement learning
๋ค๋ฅธ ์ธ๊ณต์ง๋ฅ๋ค๊ณผ ๋น๊ตํ์ ๋ ๊ฐํ ํ์ต๋ง์ ์ฐจ์ด์
- ์ต์ ํ
- ์ต์ ํ๋ ๋ชจ๋ ๋ชจ๋ธ์์ ํ์
- ์ง์ฐ๋ ๊ฒฐ๊ณผ
- ํ์ฌ์ ๊ฒฐ์ ์ด ๋ฏธ๋์๋ ์ํฅ์ ๋ฏธ์น ์ ์์ (ex> ๊ฒ์์์ ์ง๊ธ ํ ์ ํ์ด ๋์ค์ ์นํจ๋ฅผ ๊ฒฐ์ ํจ)
- challenges : ์ง๊ธ ํ ๊ฒฐ์ ์ ๋ํด ์ฆ๊ฐ์ ์ธ ํผ๋๋ฐฑ์ด ๋ณด์ฅ๋์ง ์์ โ ๊ณผ๊ฑฐ์ ๋ด๋ฆฐ ๊ฒฐ์ ๊ณผ ๋ฏธ๋์ ๋ฐ์ ๋ณด์์ ๋ํ ๊ด๊ณ๋ฅผ ์ผ๋ฐํํ๊ธฐ ํ๋ค๋ค (โ ํนํ ๋จธ์ ๋ฌ๋๊ณผ ๋ค๋ฅธ ์ )
- ํ์
- ์ด๋ฏธ ์ ๋ ฅ-๊ฒฐ๊ณผ๊ฐ ๋์จ ๋ฐ์ดํฐ๋ก ํ์ตํ๋ ๊ฒ์ด ์๋๋ผ, agent๊ฐ ํ์ํ ๋ฐ์ดํฐ๋ก๋ง ํ์ต
- agent๊ฐ ํ๋ ๊ฒฐ์ ๋ค์ ๋ฐ๋ผ ํ์ตํ๋ ๋ด์ฉ์ด ๋ฌ๋ผ์ง
- ์ผ๋ฐํ
- ์ด์ ์ ํ์ตํ์ง ์์ ์ํฉ์ ๋ํด์๋ ์ง๊ธ๊น์ง ํ์ตํ ๊ฒ์ ๋ฐํ์ผ๋ก ๋ฌธ์ ๋ฅผ ํ์ด๊ฐ ์ ์๋ ๋ฅ๋ ฅ
- ๋ชจ๋ action์ ํ๋ก๊ทธ๋๋ฐ ํ๊ธฐ์ ์์ด ๋๋ฌด ๋ฐฉ๋ํจ โ ์ผ๋ฐํํ๋ฉด ์ฒ์ ๋ณด๋ ์ํฉ์์๋ agent๋ ๋ฌธ์ ๋ฅผ ํ์ด๊ฐ ์ ์๋ค
ย
differences from RL
RL : ๋ชจ๋ธ์ด ์ง์ ๊ฒฝํํ๋ฉฐ ํ์ต
- AI planning : ๊ท์น์ด ์ด๋ฏธ ์ ์ฉ๋ ๋ชจ๋ธ
- ์ต์ ํ, ์ง์ฐ๋ ๊ฒฐ๊ณผ, ์ผ๋ฐํ๋ ํด๋นํ์ง๋ง ํ์์ ํด๋นํ์ง ์์
- ์ผ๋ จ์ ๊ฒฐ์ ๋ค์ ๊ฒฐ์ ํ๋ ๋ชจ๋ธ์ด์ง๋ง, ๊ท์น์ด ์ด๋ฏธ ์ ์ฉ๋์ด ์์ด ํ์ฌ์ ๊ฒฐ์ ์ด ๋ฏธ๋์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์ง ์๊ณ ์๋ค
- Supervised Machine Learning : ์ฃผ์ด์ง ๊ฒฝํ์ ํตํด ํ์ตํ๋๋ฐ result O์ธ data ์ด์ฉ
- ์ต์ ํ, ์ผ๋ฐํ๋ ํด๋นํ์ง๋ง ์ง์ฐ๋ ๊ฒฐ๊ณผ, ํ์์ ํด๋นํ์ง ์์
- ์ ๋ ฅ-๊ฒฐ๊ณผ๊ฐ ์ด๋ฏธ ๋์จ ๊ฒฝํ ๋ฐ์ดํฐ๋ฅผ ํตํด ํ์ต
- agent๊ฐ ์ค์ค๋ก ๊ฒฝํํ๋ฉฐ ํ์ตํ๋ ๊ฒ์ด ์๋, ์ด๋ฏธ ๊ฒฝํํ ๋ฐ์ดํฐ๋ฅผ ํตํด ํ์ต
- Unsupervised Machine Learning : ์ฃผ์ด์ง ๊ฒฝํ์ ํตํด ํ์ตํ๋๋ฐ result X์ธ data ์ด์ฉ
- ์ต์ ํ, ์ผ๋ฐํ๋ ํด๋นํ์ง๋ง ์ง์ฐ๋ ๊ฒฐ๊ณผ, ํ์์ ํด๋นํ์ง ์์
- agent๊ฐ ์ค์ค๋ก ๊ฒฝํํ๋ฉฐ ํ์ตํ๋ ๊ฒ์ด ์๋, ์ด๋ฏธ ๊ฒฝํํ ๋ฐ์ดํฐ๋ฅผ ํตํด ํ์ตํ๋ ํ๋์ ๋ํ ๊ฒฐ๊ณผ๊ฐ ์๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉ
- Imitation Learning
- ์ต์ ํ, ์ง์ฐ๋ ๊ฒฐ๊ณผ, ์ผ๋ฐํ๋ ํด๋นํ์ง๋ง ํ์์ ํด๋นํ์ง ์์
- agent๊ฐ ์ค์ค๋ก ๊ฒฝํํ๋ฉฐ ํ์ตํ๋ ๊ฒ์ด ์๋, ์ด๋ฏธ ๊ฒฝํํ ๋ฐ์ดํฐ๋ฅผ ํตํด ํ์ต
- ๋ค๋ฅธ ๊ฐ์ฒด์ ๋ํ ํ๋์ ๋ฐ๋ผ ํ์ตํ๊ธฐ ๋๋ฌธ์, ๋ชจ๋ฐฉํด๋ณด์ง ์์ ์๋ก์ด ์ํฉ์ ๋ง์ฃผ์น๋ฉด ํด๊ฒฐ์ด ๋ถ๊ฐ๋ฅํ๋ค
ย
ย
Sequential Decision Making (under uncertainty)
- world์ agent๊ฐ ์๋ก ์ํฅ์ ์ฃผ๋ฉฐ ์ฐ์์ ์ธ ๊ฒฐ์ ์ ๋ง๋ ๋ค
- ์ด ์ํธ์์ฉํ๋ ํ์ ๋ฃจํ์ ๋ชฉํ๋ ๋ฏธ๋์ ๋ณด์์ด ์ต๋๊ฐ ๋ ์ ์๋ ๊ฒฐ์ ์ ํ๋ ๊ฒ
- key challenges
- ์ฆ๊ฐ์ ์ธ ๋ณด์๊ณผ ๋ฏธ๋์ ๋ณด์ ์ฌ์ด์ ๊ท ํ์ ์ ์ ํ๊ฒ ๋ง์ถฐ์ผ ํ๋ค
- ๋ฏธ๋์ ๋ณด์์ ์ํด ์ฆ๊ฐ์ ์ธ ๋ณด์์ ํฌ๊ธฐํด์ผ ํ ๋๋ ์๋ค
(e.g. ๊ณต๋ถํ ๋ ์ฌ์ด ๋ฌธ์ ๋ง ํผ๋ค๋ฉด ์ง๊ธ ๋ง๋ ๋ฌธ์ (์ฆ๊ฐ์ ์ธ ๋ณด์)๋ ๋ง๊ฒ ์ง๋ง, ์ํ์์๋ ๋ง์ ๋ฌธ์ ์ ๊ฐ์(๋ฏธ๋์ ๋ณด์)๊ฐ ์ ์ ๊ฒ์ด๋ค. ์ํ์์ ๋ง๋ ๋ฌธ์ (๋ฏธ๋์ ๋ณด์)์ ์ต๋ํํ๊ธฐ ์ํด ๊ณต๋ถํ๋ฉฐ ๋ง๋ ๋ฌธ์ ์ ๊ฐ์(์ฆ๊ฐ์ ์ธ ๋ณด์)์ ํฌ๊ธฐํด์ผ ํ๋ ์ฌ๋ก)
- ์ฆ๊ฐ์ ์ธ ๋ณด์๊ณผ ๋ฏธ๋์ ๋ณด์์ ๋น์จ์ ์ค์ ํ๋ ํจ์๋ฅผ reward function์ด๋ผ ํ๋๋ฐ, ์ด reward function์ ์ด๋ป๊ฒ ์ง์ ํ๋๋์ ๋ฐ๋ผ agent๊ฐ ํ์ตํ๋ ๊ฒ์ด ๋ฌ๋ผ์ง๋ค
ย
์ฉ์ด ์ ๋ฆฌ
1) agent & world
๋งค ์ค์ ๋ ํ์ ์คํญ(time step, t)๋ง๋ค agent๋ ํ๋(action, a)์, world๋ ํ๋์ ๋ํ ๋ฐ์(observation, o)์ ๋ณด์(reward,r)์ ๋ฐํํ๋ค
(์ฌ๊ธฐ์ action์ ์ทจํ์ ๋ ๋ฐ๋ก ๋ฐ๋ reward๋ ์ฆ๊ฐ์ ์ธ ๋ณด์์ด๊ณ , ํ์ฌ์ ๋จ์ด์ง time step์์์ reward๊ฐ ๋ฏธ๋์ ๋ณด์์ด๋ค.)
2) history
๊ณผ๊ฑฐ agent์ action๊ณผ world๊ฐ ๊ทธ์ ๋ํด ๋ฐํํ observation๊ณผ reward ์ ์งํฉ
3) state
agent๊ฐ ๊ฒฐ์ ์ ๋ด๋ฆด ๋ ์ฌ์ฉํ๋ ์ํฉ ์ ์ฒด
ย
The Markov assumption
- ๋ฏธ๋๊ณผ ๊ณผ๊ฑฐ๋ก๋ถํฐ ๋ ๋ฆฝ์ ์ด๊ณ ํ์ฌ์ state๊ฐ ๊ณผ๊ฑฐ์ ๋ชจ๋ history๋ฅผ ์ถฉ๋ถํ ๋ฐ์ํ๋ค๋ฉด, ๊ทธ state๋ง์ผ๋ก ๋ฏธ๋๋ฅผ ์์ธกํ๊ณ ๊ฒฐ์ ์ ๋ด๋ฆด ์ ์๋ค.
- state ์ค์ ์ ๋ฐ๋ผ Markov assumption์ ํญ์ ์ฑ๋ฆฝ์ด ๊ฐ๋ฅํ๋ฏ๋ก state๋ฅผ ์ ์ค์ ํ๋ ๊ฒ์ด ์ค์ํ๋ค.
ย
Full Observability
- MDP(Markov Decision Process)
- agent์ state(agent๊ฐ ํ์ธ ๋ฐ ์ฌ์ฉํ ์ ์๋ state)์ real world์ state(์ค์ ๋ชจ๋ world์ state)๊ฐ ์ผ์นํ๋ค๋ฉด, state๋ agent๊ฐ ๊ด์ฐฐํ ์ ์๋ ๋ชจ๋ ๋ถ๋ถ์ด๋ค.
- POMDP(Partially Observable Markov Decision Process)
- agent์ state์ real world์ state๊ฐ ์ผ์นํ์ง ์์ ๋ ์ฌ์ฉ
- agent๊ฐ ๊ด์ฐฐํ ์ ์๋ ๋ถ๋ถ์ด ์กด์ฌํ๋ฏ๋ก, state๋ฅผ agent๊ฐ ๊ด์ฐฐํ ์ ์๋ ๋ถ๋ถ์ผ๋ก๋ง ์ค์ ํ๋ฉด state์ ์ ๋ณด๊ฐ ๋ถ์กฑํ๋ค.
- MDP๋ณด๋ค ๋ง์ ์ ๋ณด๋ฅผ ํฌํจ
ย
Type of Sequential Decision Processes
- Bandits
- ํ์ฌ agent๊ฐ ๊ด์ฐฐ ๊ฐ๋ฅํ ๋ชจ๋ ๋ถ๋ถ ๋ง์ผ๋ก๋ ์ถฉ๋ถํ state๊ฐ ๊ตฌ์ฑ๋ ์ ์๋ค
- ๊ณผ๊ฑฐ์ ๊ฒฐ์ ์ ํ์ฌ์ state์ ๊ด๋ จ์ด ์๋ค
- MDPs and POMDPs
- actions์ด ๋ฏธ๋์ state์ ์ํฅ์ ๋ฏธ์น๋ค๋ ๊ฒ์ ๊ฐ์ํ๋ค
- ๋ณด์ฅ๋ ๋ถ๋ถ๊ณผ ์๋ ๋ถ๋ถ์ ์ค์ ํ๋ ๊ฒ์ด ์ค์
- How the World Changes
- Deterministic
- ์ด๋ค action์ ์ทจํ์ ๋ ๋ฐํ๋ ๊ฒฐ๊ณผ๊ฐ ์ ํด์ ธ์์
- Stochastic
- ์ด๋ค action์ ์ทจํ์ ๋ ๋ฐํ๋ ๊ฒฐ๊ณผ๊ฐ ํ๋ฅ ์
ย
RL Algorithm Components
RL Algorithm Components often include one or more of
Model : representation of how the world changes in response to agentโs action
Policy : function mapping agentโs states to action
Value Function : future rewards from being in a state and/or action when following a particular policy
ย
Model
- agent๊ฐ ์ด๋ค action์ ์ทจํ๋๋์ ๋ฐ๋ผ world๊ฐ ์ด๋ป๊ฒ ๋ฐ๋์ง์ ๋ํ ์์ธก ๊ฒฐ๊ณผ๋ฅผ ์ถ๋ ฅํ๋ ํจ์
- Transaction / Dynamics model : agent์ ๋ค์ state๋ฅผ ์์ธก
Reward model : ์ฆ๊ฐ์ ์ธ ๋ณด์์ ์์ธก
ย
Policy
- state๋ฅผ ์ ๋ ฅ๋ฐ์์ ๋ agent๊ฐ action์ ์ด๋ป๊ฒ ์ ํํ ์ง ๊ฒฐ์ ํ๋ ํจ์
- Deterministic Policy : ์ ๋ ฅ๋ state์ ๋ฐ๋ฅธ action ์ถ๋ ฅ๊ฐ์ด ํ๋
Stochastic Policy : ์
๋ ฅ๋ state์ ๋ฐ๋ฅธ ๊ฐ๋ฅํ action ๋ณ ํ๋ฅ ์ ์ถ๋ ฅ
ย
Value Function
- ํน์ policy์ ๋ฐ๋ฅธ ๋ฏธ๋์ ๋ณด์์ ์ดํฉ์ ์์ํ๋ ํจ์
- ์ฆ๊ฐ์ ์ธ ๋ณด์๊ณผ ๋ฏธ๋์ ๋ณด์ ๊ฐ๊ฐ์ ์ผ๋ง๋ ๋น์ค์ ๋ ๊ฒ์ธ์ง ๊ฒฐ์ ํ๋ ํจ์
- value๊ฐ ๋์์๋ก ๋ ํฐ ๋ณด์์ ์ป์ ์ ์์ผ๋ฉฐ, ์ด๋ฅผ ์ข์ policy๋ผ ํ๋ค
ย
Types of RL Agents
- Model Based Agent
- model์ด ์กด์ฌ
- ์ด model์ด policy function์ด๋ value function์ ๊ฐ๊ณ ์์ ์๋, ์๋ ์๋ ์์
- ์ฆ ๋ช ์๋ policy function์ด๋ value function์ด ์์
- Model - free Agent
- model์ด ์์
- ๋ช ์๋ policy function์ด๋ value function์ด ์กด์ฌ
ย
Key Challenged in learning to Make Sequences of Good Decisions
Planning (Agentโs internal computation)
- world์ ๋์์ ๋ํ model ์กด์ฌ
- Dynamic/Reward model
- ํ์ต ๊ณผ์ ์์ world์ ๋ํ ํ์์ ๋ถํ์ํ๊ธฐ ๋๋ฌธ์, world์์ ์ํธ์์ฉ ๋ถํ์
- ์ฌ๋ฌ ์ ํ์ง ์ค high reward๋ฅผ ๋ณด์ฅํ๋ action์ผ๋ก ๊ฒฐ์
ย
Reinforcement Learning
- world์ ๋์์ ๋ํ model์ด ์กด์ฌํ์ง ์์
- ํ์ต ๊ณผ์ ์์ world์ ๋ํ ํ์์ด ํ์ํ๊ธฐ ๋๋ฌธ์, ์ด๋ฐ์ ๋ง์ ์ํ์ฐฉ์ค ํ์
- ํ์ต ์ high reward๋ฅผ ๋ฐ์ ์ ์๋ ๋ฐฉ๋ฒ๊ณผ world์ ๋ํ ์ ๋ณด๋ฅผ ์ป์ ์ ์๋ ๋ฐฉ๋ฒ ๋ชจ๋๋ฅผ ๊ณ ๋ คํด์ผ ํจ
ย
ย
Exploration vs Exploitation
- agent๊ฐ ์๋ํ๋ action๋ง ์ํ๋จ
- RL agent ๊ฐ action์ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ
- Exploration : trying new things that might enable the agent to make better decisions in the future ์๋ก์ด ์๋!
- Exploitation : choosing actions that are expected to yield good reward given past experience ์ฌํ๊น์ง ํ ๊ฒ ์ค์ ์ข์๊ฒ ๋ค์
- Exploration-Exploitation ์ฌ์ด tradeoff๊ฐ ์ด๋ค์ง๊ธฐ๋ ํจ
- sacrifice reward in order to explore & learn about potentially better policy
ย
ย
Evaluation & Control
Evaluation
- ํ๊ฐ์ ์์ธก์ ํตํ ๋ณด์ ์์ธก
Control
- Optimization : ๊ฐ์ฅ ์ข์ policy๋ฅผ ์ฐพ์ ์ต์ ํ