ย
ย
ย
Why IL(Imitation Learning)?
- ์์ ๋ฐฐ์ด ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ ์ค, DQN์ ๋ค์๊ณผ ๊ฐ์ ๋ฌธ์ ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
- ํ ํฝ์ ์ด ์ฌ๋ฌ๋ฒ ๋ฐ๋๋ (๊ฒ์ ์์์ ๊ณต๊ฐ์ด ๊ณ์ ๋ณํํ๋) Mobtezuma ๊ฒ์๊ฐ์ ๊ฒฝ์ฐ๋ ๊ธฐ์กด DQN์์์ ํ์์ด ์ด๋ ต์ต๋๋ค.
- Result
์ผ์ชฝ์ DQN์ผ๋ก๋ 2๊ฐ์ ๊ณต๊ฐ๋ง์ ํ์ํ๊ณ , ์ค๋ฅธ์ชฝ์ ํฅ์๋ DQN์ผ๋ก๋ ๋ชจ๋ ์๋๋ฆฌ์ค๋ฅผ ์ป์ง ๋ชปํ์ต๋๋ค.
- Mobtezumaโs Revenge ๊ฒ์
- https://www.youtube.com/watch?v=JR6wmLaYuu4
- 8์ด ์ ๋๋ฅผ ๋ณด๋ฉด, ๋ชจ๋ ํฝ์ ์ด ๋ฐ๋๋ฉฐ ์บ๋ฆญํฐ๊ฐ ์๋ ๊ณต๊ฐ์ด ๋ณํํ๊ฒ ๋ฉ๋๋ค.
- ์ฆ, ๊ฐํํ์ต์ ์์ ์ผ๋ก ๋ณผ ๋, ์ด๋ ํ Action์ ํ๋ฉด ๊ทธ ์ดํ ๋ชจ๋ State๊ฐ ๋ณํํ๋ ์ํฉ

ย
- ํด๊ฒฐ๋ฐฉ์
- ์ ๋ฌธ๊ฐ๊ฐ ๊ฒช์ ๊ฒฝํ์ ํตํด ํ์ตํ์! (Imitation Learning)
- ๋ณด์์ ๋ฐ๋ ์๊ฐ์ด ๊ธธ๊ฑฐ๋, ๋ณด์์ด ๋ชจํธํ ๊ฒฝ์ฐ, ์ํ๋ ์ ์ฑ ์ ์ง์ ์ฝ๋ฉํ๊ธฐ ์ด๋ ค์ธ ๊ฒฝ์ฐ ์ ์ฉํฉ๋๋ค.
ย
- ๊ทธ๋์ Imitation Learning์ ์ด๋ป๊ฒ ํ๋๋ฐ?
- reward๋ฅผ demonstrationํ๋ ๋ฐฉ๋ฒ์ผ๋ก ์ค์ ๋ก ์ด๋ป๊ฒ ํ๋์ง ๋ณด์ฌ์ฃผ๋ฉด์ reward๋ฅผ implicitํ๊ฒ ์ฃผ๊ฒ ๋ฉ๋๋ค.
- ์๋ฅผ ๋ค์ด, ์์จ์ฃผํ ์๋์ฐจ๋ฅผ ๋ง๋ค๊ธฐ ์ํด์๋ ์๋ จ๋ ์ด์ ์๊ฐ ์ง์ ์ด์ ์ ํ๋ฉด์ State์ Action์ ์ํ์ค๋ค์ ์ ๋ฌํ๊ณ , Agent๋ ์ด๋ฅผ ๋ฐํ์ผ๋ก ํ์ตํฉ๋๋ค.
- ํ์ง๋ง, ์ด๋ฌํ ๋ฐฉ์์ reward๋ฅผ ํ๋ ํ๋ ๋ถ์ฌํ๊ฑฐ๋, ํน์ ํ policy๋ฅผ ๋ฐ๋ฅด๋๋ก ํ๊ฒ ํ๋ ๊ฒฝ์ฐ์ ๋นํจ์จ์ ์ ๋๋ค.
ย
- DQN๊ณผ ๋ง์ฐฌ๊ฐ์ง๋ก State์ Action, Transition model์ด ์ฃผ์ด์ง์ง๋ง, reward function R์ ์ฃผ์ด์ง์ง ์์ต๋๋ค. ๋์ (s0,a0,s1,a1,โฆ)๊ณผ ๊ฐ์ demonstration์ด ์ฃผ์ด์ง๋๋ค.
Behavioral Cloning
- Supervised learning์ ํตํด ์ ๋ฌธ๊ฐ์ policy๋ฅผ ์ง์ ๋ฐฐ์ธ ์ ์๊ฒ ํ์! (Like Machine Learning)
- Policy์ ํด๋์ค๋ฅผ ์ค์ ํฉ๋๋ค. (ex. neural network, decision tree, โฆ)
- expert์ state๋ฅผ supervised learning model์ input, expert์ action์ supervised learning model์ output์ผ๋ก ๋๊ณ Agent๋ฅผ ํ์ต์ํต๋๋ค.
- ๋ฌธ์ ์
- Compounding Error
- ๋๋ถ๋ถ์ Machine Learning์ ๋ฐ์ดํฐ์ iid(๋์ผํ๊ณ ๋ ๋ฆฝ์ ์ธ ๋ถํฌ์์ ์์ฑ๋จ)์ ๊ฐ์ ํฉ๋๋ค.
- ํ์ง๋ง ๊ฐํํ์ต์์๋ ๋๋ถ๋ถ ๋ฐ์ดํฐ๋ ๋ ๋ฆฝ์ฑ์ ๋ณด์ฅํ ์ ์์ต๋๋ค. (์๊ฐ ํ๋ฆ์ ๋ฐ๋ฅธ ๋ฐ์ดํฐ๊ฐ ๋๋ถ๋ถ์ด๊ธฐ ๋๋ฌธ!)
- ๋ฐ๋ผ์ Machine Learning ๊ธฐ๋ฐ์ ๊ฐํํ์ต์ ํ์ฌ ์ด๋ค state์ธ์ง๊ฐ ์ค์ํ์ง ์๊ณ , ํน์ state์์๋ ํน์ action์ ์ทจํ๊ธธ ๊ธฐ๋ํฉ๋๋ค.
- ์์) ์ํ ํธ๋ ๋ด ์์จ์ฃผํ ์๋์ฐจ
- ํ๋์์ ์ ๋ฌธ๊ฐ๊ฐ ์ด์ ํ ๊ฒฝ๋ก๋ฅผ ํ์ตํ๊ฒ ๋๋๋ฐ, ์ด๋ฐ์ ์กฐ๊ธ ๋ ๋ฐ์ผ๋ก ์ดํํ๋ ์ฝ๊ฐ์ error๊ฐ ๋ฐ์ํ์์ต๋๋ค.
- ํ์ง๋ง, Agent๊ฐ ํ์ฌ์ ์๋์ฐจ์ ์์น๊ฐ ๋ฐ์ผ๋ก ๋์์๋ค๋ ๊ฒ์ ๊ณ ๋ คํ์ง ์์ ์ฑ๋ก expert ๋ฐ์ดํฐ์ ๋ฐ๋ผ ํน์ ๊ตฌ๊ฐ์์ ์ฝ๋๋ง์ ์งํํ๋ฉด ์ฌ๊ณ ๊ฐ ๋๊ฒ ๋ฉ๋๋ค.
- ์ฆ, time step t์์ ์์ฃผ ์์ ์ค์๋ก ์ธํด ๊ทธ ์ดํ์ time step t+1, t+2, โฆ ์์๋ ๊ณ์ ์ค์ฐจ๊ฐ ์๊ฒจ ๊ฒฐ๊ตญ์ ํ์ต์ ์คํจํ๊ฒ ๋ฉ๋๋ค.
ย
- ํด๊ฒฐ์ฑ (DAGGER : Dataset Aggregation)
- ์๋ชป๋ ๊ธธ์ ๊ฐ๋ฉด expert์๊ฒ ์ด๋ค action์ ์ทจํด์ผํ๋์ง ์๋ ค์ค!!๋ผ๊ณ ๋ฌผ์ด๋ณด๋ ๋ฐฉ์
- ํ์ง๋ง, ์ด ๋ฐฉ๋ฒ์ ๋งค์ฐ ์ ํ์ ์ธ ์ํฉ์์๋ง ๊ฐ๋ฅํฉ๋๋ค.
ย
Inverse Reinforcement Learning
- Expert์ policy๋ฅผ ๋ณด๊ณ reward function์ ์ฐพ์๋๊ฐ๋ ๋ฐฉ์์ ๋๋ค.
- Imitation Learning์ reward function R์ input์ผ๋ก ๋ฐ์ง ์๊ณ , demonstration (s0,a0,s1,a1,โฆ)์ํ์ค๋ฅผ ๋ฐ๊ฒ ๋๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ํตํด reward๋ฅผ ์์๊ฐ๊ฒ ๋ฉ๋๋ค.
- ๋จ, expert์ policy๊ฐ optimalํ๋ค๋ ์ ์ ๋ฅผ ํ๊ณ ์ด ๋ฐฉ๋ฒ์ ์ฌ์ฉํฉ๋๋ค.
- ๋ฌธ์ ์
- ์ถ์ ๋๋ reward function์ ์ฌ๋ฌ๊ฐ๊ฐ ์์ ์ ์์.
- ํด๊ฒฐ์ฑ : Linear value function approximation
- R๊ฐ์ W^t X(s)๋ผ๊ณ ์ ์ํ๋๋ฐ, w๋ weight vector์ด๊ณ , x(s)๋ state์ feature๋ฅผ ์๋ฏธํฉ๋๋ค. ์ฌ๊ธฐ์ weight vector w๋ฅผ ์ฃผ์ด์ง demonstration์ ํตํด ์ฐพ์๋ด๋ ๊ฒ์ด ๋ชฉํ์ ๋๋ค.
- ์ฆ, ์ฐ๋ฆฌ๊ฐ ํ์ต์ํจ weight vector w๊ฐ์๋ค๊ฐ ์์ฃผ ๋ฑ์ฅํ๋ state feature์ ๊ฐ์ ๊ณฑํด์ค ๊ฒ์ผ๋ก ํด์ํ ์ ์์ต๋๋ค. โ ๋จ, ์ฐ๋ฆฌ๋ expert์ policy๋ฅผ optimal๋ก ์ ์ ํ๊ธฐ ๋๋ฌธ์ ์์ฃผ ๋ณด์ด๋ state feature๋ฅผ ๊ฐ๋ state์ reward๋ ๋๊ฒ ๋ฉ๋๋ค.
ย
Apprenticeship Learning
- ์์ Inverse RL๊ณผ ๋น์ทํ ๋ฐฉํฅ
- ์ถ๊ฐ์ ์ธ ๊ฒ์, ๋ง์ง๋ง 6๋ฒ ์์์ ๋๋ค.
- : expert๊ฐ ์ฃผ๋ optimal ํ policy โ ์ฐ๋ฆฌ๊ฐ ์ด๋ฏธ ์๊ณ ์๋ ๊ฐ
- : expert๊ฐ ์ฃผ๋ policy๋ฅผ ์ ์ธํ ๋ค๋ฅธ policy
- ์ ์ ์ฐจ์ด๊ฐ ์์ ๋ฅผ ์ฐพ๊ณ , ์ ๊ฐ์ ์ฐจ์ด๊ฐ ์์ w๋ฅผ ๊ตฌํด์ผํฉ๋๋ค.
- ์ด๋ฌํ ๋ฐฉ์์ผ๋ก reward function์ ๊ด๊ณ์์ด, ์ถฉ๋ถํ optimal policy์ ๊ฐ๊น์ด policy๋ฅผ ์ป์ด๋ผ ์ ์์ต๋๋ค.
ย