์
๋ ฅ ์ ํธ์ ์ดํฉ์ด ํ์ฑํ๋ฅผ ์ผ์ผํค๋์ง ์ ํ๋ ์ญํ ์ ํ๋ ํจ์๋ก input๊ณผ weight์ ๋ด์ ๊ฐ์ bias๋ฅผ ๋ํ ๊ฐ์ ์ผ๋ง๋ ์ถ๋ ฅ์ํฌ์ง ์ ํ๊ธฐ ์ํด ์ฌ์ฉํ๋ค.
ย
ย
Sigmoid
ํน์ง
- ์ ๋ ฅ์ ๋ฐ์์ ๊ทธ ์ ๋ ฅ์ [0, 1] ์ฌ์ด์ ๊ฐ์ด ๋๋๋ก ๋ณ๊ฒฝํ๋ค.
- ์ ๋ ฅ์ ๊ฐ์ด ํฌ๋ฉด Sigmoid์ ์ถ๋ ฅ์ 1์ ๊ฐ๊น์ธ ๊ฒ์ด๊ณ ๊ฐ์ด ์์ผ๋ฉด 0์ ๊ฐ๊น๊ฒ ์ถ๋ ฅ๋๋ค.
- 0 ๊ทผ์ฒ ๊ตฌ๊ฐ(rigime)์ ๋ณด๋ฉด ์ ํํจ์ ๊ฐ์ ํํ๋ฅผ ๋๋ค.
ย
ย
ย
๋ฌธ์ ์
Vanishing Gradient
์
๋ ฅ๊ฐ์ด ๋๋ฌด ์๊ฑฐ๋, ํฌ๋ฉด ๋ฏธ๋ถํ ๊ฐ์ด 0์ ๊ฐ๊น์์ ธ gradient ๊ฐ ์๋ฉธํ๊ฒ ๋๋ค.
์์ ๊ทธ๋ํ๋ฅผ ๋ณด๋ฉด x๊ฐ -10, 10์ผ ๋ ๊ธฐ์ธ๊ธฐ๊ฐ 0์ ๊ฐ๊น์์ง์ ํ์ธ ํ ์ ์๋ค. ์ด๋ Backpropagation์ ํ ๋ 0์ ๊ฐ๊น์ด ๊ฐ์ด ๊ณ์ํด์ ๊ณฑํด์ง๊ฒ ๋๊ณ ํด๋น gradient๋ฅผ ์ฃฝ์ด๋ ๊ฒฐ๊ณผ๊ฐ ๋ํ๋๋ค.
ย
not zero-centered
input์ด sigmoid ์ฐ์ฐ์ ๊ฑฐ์น๊ธฐ ๋๋ฌธ์ ํญ์ ์์์ ๊ฐ์ผ๋ก ๋ค์ด์จ๋ค. ์ด ๋ gradient์ ๊ฐ์ input๊ฐ๊ณผ ๋ฏธ๋ถ ๊ฐ์ ๊ณฑ์
์ผ๋ก ๋ํ๋๊ธฐ ๋๋ฌธ์ ํญ์ ์์์ด๊ฑฐ๋ ํญ์ ์์๋ฅผ ๊ฐ๊ฒ ๋๋ค.
๊ฒฐ๊ตญ ๊ฐ์ค์น๊ฐ ๋ชจ๋ ๊ฐ์ ๋ฐฉํฅ์ผ๋ก๋ง ์์ง์ด๊ฒ ๋๊ณ ํ๋ผ๋ฏธํฐ๋ฅผ ์
๋ฐ์ดํธ ํ ๋ ๋ค ๊ฐ์ด ์ฆ๊ฐํ๊ฑฐ๋ ๋ค ๊ฐ์ด ๊ฐ์ํ๊ฑฐ๋ ํ ์๋ฐ์ ์์ด gradient ์
๋ฐ์ดํธ๋ ๋งค์ฐ ๋นํจ์จ์ ์ธ ๊ณผ์ ์ ๊ฐ๋๋ค.
ย
exp()๋ก ์ธํ ํฐ ๊ณ์ฐ๋น์ฉ
ย
Tanh
ํน์ง
- ๋ฒ์๊ฐ [-1 , 1]์ธ ์ถ๋ ฅ๊ฐ์ ๊ฐ๋๋ค.
- ํจ์๊ฐ์ด zero-centered ๋์ด์๋ค.
- saturation ๋๋ฌธ์ ์ฌ์ ํ gradient๋ฅผ ์ฃฝ์ด๋ ํ์์ด ๋ํ๋๊ฒ ๋๋ค.
ย
ย
ReLU
ํน์ง
- element-wise ์ฐ์ฐ์ ์ํํ๋ฉฐ ์ ๋ ฅ์ด ์์๋ฉด ๊ฐ์ด 0, ์์๋ฉด ์ ๋ ฅ ๊ฐ ๊ทธ๋๋ก๋ฅผ ์ถ๋ ฅ
- ์์ ๊ฐ์์๋ saturetion๋์ง ์๋๋ค โ ์ ๋ฐ์ saturation ๋์ง ์๋๋ค โ ์์ ๊ฐ์์ Vanishing Gradient ๋ฌธ์ ํด๊ฒฐ
- ๊ณ์ฐ ํจ์จ์ด ์์ฃผ ๋ฐ์ด๋จ
ย
ย
๋ฌธ์ ์
- not zero-centered
์์ ์์์๋ saturation ๋์ง ์์ง๋ง ์์ ๊ฒฝ์ฐ์์๋ ๊ทธ๋ ์ง ์๊ธฐ ๋๋ฌธ์ dead ReLU ๋ผ๋ ํ์์ด ๋ฐ์ํ๋ค.
ย
- ์ดํ์ ๊ฐ๋ค ๋ฏธ์ฌ์ฉ
ย
ย
dead ReLU ๋ฐ์ ์ด์
- ์ด๊ธฐํ๋ฅผ ์ ๋ชปํ ๊ฒฝ์ฐ
๊ฐ์ค์น ํ๋ฉด์ด data cloud์์ ๋ฉ๋ฆฌ ๋จ์ด์ ธ ์์ด ์ด๋ค ๋ฐ์ดํฐ ์
๋ ฅ์์๋ activate ๋๋ ๊ฒฝ์ฐ๊ฐ ์กด์ฌํ์ง ์์ ๊ฒ์ด๊ณ backporp์ด ์ผ์ด๋์ง ์๊ฒ ๋๋ค. ์ด๋ฐ ๊ฒฝ์ฐ update๋์ง๋ activate๋์ง๋ ์์ dead ReLU๊ฐ ๋ฐ์ํ๋ค.
ย
- Leraning rate๊ฐ ์ง๋์น๊ฒ ๋์ ๊ฒฝ์ฐ
update๋ฅผ ์ง๋์น๊ฒ ํฌ๊ฒ ํด ๋ฒ๋ ค ๊ฐ์ค์น๊ฐ ๋ ๋ด๋ค๋ฉด ReLU ๊ฐ ๋ฐ์ดํฐ์ manifold๋ฅผ ๋ฒ์ด๋๊ฒ ๋์ด ์ฒ์์๋ ํ์ต์ด ์ ๋๋ค๊ฐ ๊ฐ์๊ธฐ ์ฃฝ์ด๋ฒ๋ฆฌ๋ ๊ฒฝ์ฐ๊ฐ ์๊ธด๋ค.
ย
ย
leaky ReLU
ํน์ง
- negative์๋ ๊ธฐ์ธ๊ธฐ๋ฅผ ์ด์ง ์ฃผ๊ฒ ๋์ด ReLU์ ๋ฌธ์ ๋ฅผ ์๋น ๋ถ๋ถ ํด๊ฒฐํ ํจ์์ด๋ค.
- negative space ์์๋ saturation ๋์ง ์๋๋ค.
- sigmoid ๋ tanh๋ณด๋ค ์๋ ด์ ๋นจ๋ฆฌ ํ ์ ์๋ค.
- dead ReLU ํ์๋ ๋ฐ์ํ์ง ์๋๋ค.
ย
PReLU
ํน์ง
- negative space์ ๊ธฐ์ธ๊ธฐ๊ฐ ์๋ค๋ ์ ์์ Leaky ReLU์ ์ ์ฌํ๋ค.
- Leaky ReLU๊ฐ 0.01์ ๊ณฑํด์ dying์ ๋ฐฉ์งํ๋ค๋ฉด, PReLU๋ alpha๋ฅผ ๊ณฑํด์ ์ฌ์ฉํ๋ค.
- ๊ธฐ์ธ๊ธฐ๊ฐ alpha ๋ผ๋ ํ๋ผ๋ฏธํฐ๋ก ๊ฒฐ์ ๋๋ค.
- alpha๋ backpro์ผ๋ก ํ์ต์ํค๋ ํ๋ผ๋ฏธํฐ๋ก ๋ง๋ค๋ฉฐ ํ์ฑํจ์๊ฐ ์กฐ๊ธ ๋ ์ ์ฐํด ์ง ์ ์๋ค.
ย
ย
ELU
ํน์ง
- zero-mean ์ ๊ฐ๊น์ด ์ถ๋ ฅ๊ฐ์ ๊ฐ๋๋ค.
- negative์์ ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ฐ์ง๋ ๊ฒ ๋์ ์ ๋๋ค์ saturation ๋ฌธ์ ๋ฐ์ํ๊ฒ ๋๋ค.
- ํ์ง๋ง saturation์ด noise์ ๊ฐํ ๋ชจ์ต์ ๋ณด์ธ๋ค๊ณ ์ฃผ์ฅํ๋ค.
ย
ย
Maxout Neuron
ํน์ง
- w1์ x๋ฅผ ๋ด์ ํ ๊ฐ + b1๊ณผ w2์ x๋ฅผ ๋ด์ ํ ๊ฐ + b2 ์ ์ต๋๊ฐ์ ์ฌ์ฉ โ ๊ธฐ๋ณธํ์์ ๋ฏธ๋ฆฌ ์ ์ํ์ง ์๋๋ค.
- ์ ํ์ด๊ธฐ๋๋ฌธ์ saturation ๋์ง ์์ผ๋ฉฐ gradient๊ฐ ์ฃฝ์ง ์๋๋ค.
- ๋ด๋ฐ๋น ํ๋ผ๋ฏธํฐ์ ์๊ฐ ๋๋ฐฐ๊ฐ ๋์ด ์ฐ์ฐ๋์ด ์ฆ๊ฐํ๋ ๋จ์ ์ด ์๋ค.
ย