Activation Functions

Activation Functions


์ž…๋ ฅ ์‹ ํ˜ธ์˜ ์ดํ•ฉ์ด ํ™œ์„ฑํ™”๋ฅผ ์ผ์œผํ‚ค๋Š”์ง€ ์ •ํ•˜๋Š” ์—ญํ• ์„ ํ•˜๋Š” ํ•จ์ˆ˜๋กœ input๊ณผ weight์˜ ๋‚ด์  ๊ฐ’์— bias๋ฅผ ๋”ํ•œ ๊ฐ’์„ ์–ผ๋งˆ๋‚˜ ์ถœ๋ ฅ์‹œํ‚ฌ์ง€ ์ •ํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉํ•œ๋‹ค.
ย 
notion image
ย 

Sigmoid


notion image
ํŠน์ง•
  • ์ž…๋ ฅ์„ ๋ฐ›์•„์„œ ๊ทธ ์ž…๋ ฅ์„ [0, 1] ์‚ฌ์ด์˜ ๊ฐ’์ด ๋˜๋„๋ก ๋ณ€๊ฒฝํ•œ๋‹ค.
  • ์ž…๋ ฅ์˜ ๊ฐ’์ด ํฌ๋ฉด Sigmoid์˜ ์ถœ๋ ฅ์€ 1์— ๊ฐ€๊นŒ์šธ ๊ฒƒ์ด๊ณ  ๊ฐ’์ด ์ž‘์œผ๋ฉด 0์— ๊ฐ€๊น๊ฒŒ ์ถœ๋ ฅ๋œ๋‹ค.
  • 0 ๊ทผ์ฒ˜ ๊ตฌ๊ฐ„(rigime)์„ ๋ณด๋ฉด ์„ ํ˜•ํ•จ์ˆ˜ ๊ฐ™์€ ํ˜•ํƒœ๋ฅผ ๋ˆ๋‹ค.
ย 
ย 
ย 

๋ฌธ์ œ์ 

Vanishing Gradient

์ž…๋ ฅ๊ฐ’์ด ๋„ˆ๋ฌด ์ž‘๊ฑฐ๋‚˜, ํฌ๋ฉด ๋ฏธ๋ถ„ํ•œ ๊ฐ’์ด 0์— ๊ฐ€๊นŒ์›Œ์ ธ gradient ๊ฐ€ ์†Œ๋ฉธํ•˜๊ฒŒ ๋œ๋‹ค.
์œ„์˜ ๊ทธ๋ž˜ํ”„๋ฅผ ๋ณด๋ฉด x๊ฐ€ -10, 10์ผ ๋•Œ ๊ธฐ์šธ๊ธฐ๊ฐ€ 0์— ๊ฐ€๊นŒ์›Œ์ง์„ ํ™•์ธ ํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด๋Š” Backpropagation์„ ํ• ๋•Œ 0์— ๊ฐ€๊นŒ์šด ๊ฐ’์ด ๊ณ„์†ํ•ด์„œ ๊ณฑํ•ด์ง€๊ฒŒ ๋˜๊ณ  ํ•ด๋‹น gradient๋ฅผ ์ฃฝ์ด๋Š” ๊ฒฐ๊ณผ๊ฐ€ ๋‚˜ํƒ€๋‚œ๋‹ค.
ย 

not zero-centered

input์ด sigmoid ์—ฐ์‚ฐ์„ ๊ฑฐ์น˜๊ธฐ ๋•Œ๋ฌธ์— ํ•ญ์ƒ ์–‘์ˆ˜์˜ ๊ฐ’์œผ๋กœ ๋“ค์–ด์˜จ๋‹ค. ์ด ๋•Œ gradient์˜ ๊ฐ’์€ input๊ฐ’๊ณผ ๋ฏธ๋ถ„ ๊ฐ’์˜ ๊ณฑ์…ˆ์œผ๋กœ ๋‚˜ํƒ€๋‚˜๊ธฐ ๋•Œ๋ฌธ์— ํ•ญ์ƒ ์–‘์ˆ˜์ด๊ฑฐ๋‚˜ ํ•ญ์ƒ ์Œ์ˆ˜๋ฅผ ๊ฐ–๊ฒŒ ๋œ๋‹ค.
๊ฒฐ๊ตญ ๊ฐ€์ค‘์น˜๊ฐ€ ๋ชจ๋‘ ๊ฐ™์€ ๋ฐฉํ–ฅ์œผ๋กœ๋งŒ ์›€์ง์ด๊ฒŒ ๋˜๊ณ  ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์—…๋ฐ์ดํŠธ ํ•  ๋•Œ ๋‹ค ๊ฐ™์ด ์ฆ๊ฐ€ํ•˜๊ฑฐ๋‚˜ ๋‹ค ๊ฐ™์ด ๊ฐ์†Œํ•˜๊ฑฐ๋‚˜ ํ•  ์ˆ˜๋ฐ–์— ์—†์–ด gradient ์—…๋ฐ์ดํŠธ๋Š” ๋งค์šฐ ๋น„ํšจ์œจ์ ์ธ ๊ณผ์ •์„ ๊ฐ–๋Š”๋‹ค.
ย 

exp()๋กœ ์ธํ•œ ํฐ ๊ณ„์‚ฐ๋น„์šฉ

ย 

Tanh


notion image
ํŠน์ง•
  • ๋ฒ”์œ„๊ฐ€ [-1 , 1]์ธ ์ถœ๋ ฅ๊ฐ’์„ ๊ฐ–๋Š”๋‹ค.
  • ํ•จ์ˆ˜๊ฐ’์ด zero-centered ๋˜์–ด์žˆ๋‹ค.
  • saturation ๋•Œ๋ฌธ์— ์—ฌ์ „ํžˆ gradient๋ฅผ ์ฃฝ์ด๋Š” ํ˜„์ƒ์ด ๋‚˜ํƒ€๋‚˜๊ฒŒ ๋œ๋‹ค.
ย 
ย 

ReLU


notion image
ํŠน์ง•
  • element-wise ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ ์ž…๋ ฅ์ด ์Œ์ˆ˜๋ฉด ๊ฐ’์ด 0, ์–‘์ˆ˜๋ฉด ์ž…๋ ฅ ๊ฐ’ ๊ทธ๋Œ€๋กœ๋ฅผ ์ถœ๋ ฅ
  • ์–‘์˜ ๊ฐ’์—์„œ๋Š” saturetion๋˜์ง€ ์•Š๋Š”๋‹ค โ†’ ์ ˆ๋ฐ˜์€ saturation ๋˜์ง€ ์•Š๋Š”๋‹ค โ†’ ์–‘์˜ ๊ฐ’์—์„œ Vanishing Gradient ๋ฌธ์ œ ํ•ด๊ฒฐ
  • ๊ณ„์‚ฐ ํšจ์œจ์ด ์•„์ฃผ ๋›ฐ์–ด๋‚จ
ย 
ย 

๋ฌธ์ œ์ 

  • not zero-centered
์–‘์˜ ์ˆ˜์—์„œ๋Š” saturation ๋˜์ง€ ์•Š์ง€๋งŒ ์Œ์˜ ๊ฒฝ์šฐ์—์„œ๋Š” ๊ทธ๋ ‡์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— dead ReLU ๋ผ๋Š” ํ˜„์ƒ์ด ๋ฐœ์ƒํ•œ๋‹ค.
ย 
  • ์ดํ•˜์˜ ๊ฐ’๋“ค ๋ฏธ์‚ฌ์šฉ
ย 
ย 

dead ReLU ๋ฐœ์ƒ ์ด์œ 

notion image
  • ์ดˆ๊ธฐํ™”๋ฅผ ์ž˜ ๋ชปํ•œ ๊ฒฝ์šฐ
๊ฐ€์ค‘์น˜ ํ‰๋ฉด์ด data cloud์—์„œ ๋ฉ€๋ฆฌ ๋–จ์–ด์ ธ ์žˆ์–ด ์–ด๋–ค ๋ฐ์ดํ„ฐ ์ž…๋ ฅ์—์„œ๋„ activate ๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์กด์žฌํ•˜์ง€ ์•Š์„ ๊ฒƒ์ด๊ณ  backporp์ด ์ผ์–ด๋‚˜์ง€ ์•Š๊ฒŒ ๋œ๋‹ค. ์ด๋Ÿฐ ๊ฒฝ์šฐ update๋˜์ง€๋„ activate๋˜์ง€๋„ ์•Š์•„ dead ReLU๊ฐ€ ๋ฐœ์ƒํ•œ๋‹ค.
ย 
  • Leraning rate๊ฐ€ ์ง€๋‚˜์น˜๊ฒŒ ๋†’์€ ๊ฒฝ์šฐ
update๋ฅผ ์ง€๋‚˜์น˜๊ฒŒ ํฌ๊ฒŒ ํ•ด ๋ฒ„๋ ค ๊ฐ€์ค‘์น˜๊ฐ€ ๋‚ ๋›ด๋‹ค๋ฉด ReLU ๊ฐ€ ๋ฐ์ดํ„ฐ์˜ manifold๋ฅผ ๋ฒ—์–ด๋‚˜๊ฒŒ ๋˜์–ด ์ฒ˜์Œ์—๋Š” ํ•™์Šต์ด ์ž˜ ๋˜๋‹ค๊ฐ€ ๊ฐ‘์ž๊ธฐ ์ฃฝ์–ด๋ฒ„๋ฆฌ๋Š” ๊ฒฝ์šฐ๊ฐ€ ์ƒ๊ธด๋‹ค.
ย 
ย 

leaky ReLU


notion image
ํŠน์ง•
  • negative์—๋„ ๊ธฐ์šธ๊ธฐ๋ฅผ ์‚ด์ง ์ฃผ๊ฒŒ ๋˜์–ด ReLU์˜ ๋ฌธ์ œ๋ฅผ ์ƒ๋‹น ๋ถ€๋ถ„ ํ•ด๊ฒฐํ•œ ํ•จ์ˆ˜์ด๋‹ค.
  • negative space ์—์„œ๋„ saturation ๋˜์ง€ ์•Š๋Š”๋‹ค.
  • sigmoid ๋‚˜ tanh๋ณด๋‹ค ์ˆ˜๋ ด์„ ๋นจ๋ฆฌ ํ•  ์ˆ˜ ์žˆ๋‹ค.
  • dead ReLU ํ˜„์ƒ๋„ ๋ฐœ์ƒํ•˜์ง€ ์•Š๋Š”๋‹ค.
ย 

PReLU

ํŠน์ง•
  • negative space์— ๊ธฐ์šธ๊ธฐ๊ฐ€ ์žˆ๋‹ค๋Š” ์ ์—์„œ Leaky ReLU์™€ ์œ ์‚ฌํ•˜๋‹ค.
  • Leaky ReLU๊ฐ€ 0.01์„ ๊ณฑํ•ด์„œ dying์„ ๋ฐฉ์ง€ํ–ˆ๋‹ค๋ฉด, PReLU๋Š” alpha๋ฅผ ๊ณฑํ•ด์„œ ์‚ฌ์šฉํ•œ๋‹ค.
  • ๊ธฐ์šธ๊ธฐ๊ฐ€ alpha ๋ผ๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ๊ฒฐ์ •๋œ๋‹ค.
  • alpha๋Š” backpro์œผ๋กœ ํ•™์Šต์‹œํ‚ค๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋กœ ๋งŒ๋“ค๋ฉฐ ํ™œ์„ฑํ•จ์ˆ˜๊ฐ€ ์กฐ๊ธˆ ๋” ์œ ์—ฐํ•ด ์งˆ ์ˆ˜ ์žˆ๋‹ค.
ย 
ย 

ELU


notion image
ํŠน์ง•
  • zero-mean ์— ๊ฐ€๊นŒ์šด ์ถœ๋ ฅ๊ฐ’์„ ๊ฐ–๋Š”๋‹ค.
  • negative์—์„œ ๊ธฐ์šธ๊ธฐ๋ฅผ ๊ฐ€์ง€๋Š” ๊ฒƒ ๋Œ€์‹ ์— ๋˜๋‹ค์‹œ saturation ๋ฌธ์ œ ๋ฐœ์ƒํ•˜๊ฒŒ ๋œ๋‹ค.
  • ํ•˜์ง€๋งŒ saturation์ด noise์— ๊ฐ•ํ•œ ๋ชจ์Šต์„ ๋ณด์ธ๋‹ค๊ณ  ์ฃผ์žฅํ•œ๋‹ค.
ย 
ย 

Maxout Neuron


ํŠน์ง•
  • w1์— x๋ฅผ ๋‚ด์ ํ•œ ๊ฐ’ + b1๊ณผ w2์— x๋ฅผ ๋‚ด์ ํ•œ ๊ฐ’ + b2 ์˜ ์ตœ๋Œ“๊ฐ’์„ ์‚ฌ์šฉ โ†’ ๊ธฐ๋ณธํ˜•์‹์„ ๋ฏธ๋ฆฌ ์ •์˜ํ•˜์ง€ ์•Š๋Š”๋‹ค.
  • ์„ ํ˜•์ด๊ธฐ๋•Œ๋ฌธ์— saturation ๋˜์ง€ ์•Š์œผ๋ฉฐ gradient๊ฐ€ ์ฃฝ์ง€ ์•Š๋Š”๋‹ค.
  • ๋‰ด๋Ÿฐ๋‹น ํŒŒ๋ผ๋ฏธํ„ฐ์˜ ์ˆ˜๊ฐ€ ๋‘๋ฐฐ๊ฐ€ ๋˜์–ด ์—ฐ์‚ฐ๋Ÿ‰์ด ์ฆ๊ฐ€ํ•˜๋Š” ๋‹จ์ ์ด ์žˆ๋‹ค.
ย