Regularization (์ •๊ทœํ™”)

Regularization (์ •๊ทœํ™”)


  • ๋ชจ๋ธ์ด training data์— fitํ•˜๋Š” ๊ฒƒ์„ ๋ง‰์•„ ๋‹จ์ผ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์˜ฌ๋ฆฌ๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค.
  • batch normalization ์ด์™ธ์—๋„ ๋‹ค์–‘ํ•œ ๋ฐฉ์‹๋“ค์ด ์žˆ๊ณ , ๋ณดํ†ต BN์œผ๋กœ ์ถฉ๋ถ„ํ•˜์ง€๋งŒ ์˜ค๋ฒ„ํ”ผํŒ…์ด ๋„ˆ๋ฌด ์‹ฌํ•˜๋ฉด dropout์„ ์ถ”๊ฐ€ํ•œ๋‹ค.
ย 

Dropout


์›๋ฆฌ

notion image
  • ์ž„์˜๋กœ layer์— 1๋ฒˆ์”ฉ Dropout์„ ๋„ฃ๋Š”๋‹ค. ์ฆ‰ ๋ช‡๋ช‡ ๋…ธ๋“œ๋“ค์„ ๋žœ๋คํ•˜๊ฒŒ offํ•˜์—ฌ foward pass ๊ณผ์ •์—์„œ ์ผ๋ถ€ ๋‰ด๋Ÿฐ์˜ activation ๊ฐ’์„ 0์œผ๋กœ ๋งŒ๋“ค์–ด ๋ฒ„๋ฆฐ๋‹ค. (๋•Œ๋•Œ๋กœ ์ „์ฒด feature map์—์„œ ๋žœ๋ค์œผ๋กœ dropout ์‹œํ‚ค๊ธฐ๋„ ํ•˜๊ณ , ์ฑ„๋„์„ ํ†ต์งธ๋กœ drop์‹œํ‚ค๊ธฐ๋„ ํ•œ๋‹ค.)
  • Dropout ๋ฐฉ์‹์€ ๋Œ€๋ถ€๋ถ„ FC layer์—์„œ ์ ์šฉ๋˜๋‚˜ ๋‹ค๋ฅธ layer์—์„œ ํ•  ๋•Œ๋„ ์žˆ๋‹ค.
  • ํ•™์Šต๊ณผ์ •์—์„œย redundancy(์ค‘๋ณต์„ฑ)์„ ์ค„์ธ๋‹ค๋Š” ์˜๋ฏธ๋Š” ์ด๋ฏธ์ง€๋ฅผ ๋ณผ ๋•Œ ํŠน์ • ํ•œ ๋ถ€๋ถ„์ด ๊ฐ€๋ ค์ ธ ์žˆ์–ด๋„ ์–ด๋–ค ์ด๋ฏธ์ง€์ธ์ง€ ์ง์ž‘ํ•  ์ˆ˜ ์žˆ๋Š” ๊ฒƒ๊ณผ ๊ฐ™์€ ๋œป์ด๋‹ค. ์ฆ‰, ์–ด๋–ค ์ผ๋ถ€ features์—๋งŒ ์˜์กดํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ๋‹ค์–‘ํ•œ features๋ฅผ ๊ณจ๊ณ ๋ฃจ ์ด์šฉํ•  ์ˆ˜ ์žˆ๋„๋ก ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.
  • train epoch ๋งˆ๋‹ค ๋…ธ๋“œ์˜ ๊ตฌ์„ฑ์ด ๋žœ๋ค์œผ๋กœ ๋ณ€ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋งˆ์น˜ ์—ฌ๋Ÿฌ๋ชจ๋ธ์˜ ๊ฐ’์„ ํ‰๊ท ๋‚ด๋Š” ensemble์˜ ํšจ๊ณผ์™€ ๋น„์Šทํ•˜๋‹ค.
ย 

ํšจ๊ณผ

  • train ํ•  ๋•Œ๋Š” ๋„คํŠธ์›Œํฌ์— ๋ฌด์ž‘์œ„์„ฑ์„ ์คŒ์œผ๋กœ์„œ ๋‹ค์–‘ํ•œ feature์„ ์ด์šฉํ•ด ์˜ˆ์ธกํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๊ณผ์ ํ•ฉ ๋ฌธ์ œ๋ฅผ ๋ฐฉ์ง€ํ•œ๋‹ค.
  • train epoch๋ฅผ ๋Œ ๋•Œ๋งˆ๋‹ค ๋žœ๋ค์œผ๋กœ ๋ฐ”๋€Œ๋Š” ๋…ธ๋“œ์˜ ๊ตฌ์„ฑ์ด ๋ณ€ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ๋‹จ์ผ ๋ชจ๋ธ๋กœ ์•™์ƒ๋ธ” ํšจ๊ณผ๋ฅผ ๋‚ผ ์ˆ˜ ์žˆ๋‹ค.
  • test ํ•  ๋•Œ๋Š” ์ด ๋ฌด์ž‘์œ„์„ฑ์„ ํ‰๊ท ํ™”์‹œ์ผœ์„œ ์ผ๋ฐ˜ํ™” ํšจ๊ณผ๋ฅผ ์ค€๋‹ค.
ย 

Data Augmentation


  • ์ด๋ฏธ์ง€์˜ patch๋ฅผ ๋žœ๋คํ•˜๊ฒŒ ์žก์•„ ํ›ˆ๋ จ์‹œํ‚ค๊ฑฐ๋‚˜, ์ด๋ฏธ์ง€๋ฅผ ๋’ค์ง‘์–ด์„œ(์ขŒ์šฐ๋ฐ˜์ „) trainset์— ์ถ”๊ฐ€ํ•˜๊ฑฐ๋‚˜, ๋ฐ๊ธฐ๊ฐ’์„ ๋‹ค๋ฅด๊ฒŒ ํ•ด์„œ train dataset์— ์ถ”๊ฐ€ํ•ด ํ›ˆ๋ จ์„ ํ•ด์ฃผ๋Š” ๋ฐฉ์‹์ด๋‹ค. ์ฆ‰, label์€ ๋ณด์กดํ•œ ์ฑ„๋กœ ์ด๋ฏธ์ง€๋ฅผ ๋ณ€ํ˜•์‹œ์ผœ์„œ ํ•™์Šต์‹œํ‚ค๋Š” ๊ฒƒ์ด๋‹ค.
  • training์„ ํ•  ๋•Œ์—๋Š” ๋‹ค๋ฅธ ์‚ฌ์ด์ฆˆ์˜ sample crop(์ค‘๊ฐ„ ํ”„๋ ˆ์ž„, ๊ฐ ๋ชจ์„œ๋ฆฌ์˜ ํ”„๋ ˆ์ž„ ์ž๋ฅด๊ธฐ, ๋ฐ˜์ „, ๋’ค์ง‘๊ธฐ ๋“ฑ)์˜ ๋ฐฉ๋ฒ•์„ ์ด์šฉํ•˜์—ฌ randomํ•œ ์ด๋ฏธ์ง€๋ฅผ ์ˆ˜์ง‘ํ•œ๋‹ค. testing์„ ํ•  ๋•Œ์—๋Š” ์ด crop๋“ค์„ average out ํ•˜์—ฌ ์ด์šฉํ•œ๋‹ค.
ย 

๊ธฐํƒ€


DropConnect

Dropout์ด ๋…ธ๋“œ์˜ activation์„ 0์œผ๋กœ ๋งŒ๋“œ๋Š” ๋ฐฉ๋ฒ•์ด๋ผ๋ฉด Dropconnect๋Š” output๊ฐ’์ด ์•„๋‹Œ ๋…ธ๋“œ์˜ weight matrix๋ฅผ 0ํ–‰๋ ฌ๋กœ ๋งŒ๋“œ๋Š” ๊ฒƒ์ด๋‹ค.
ย 

Max pooling

pooling์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ ํ•  ์ง€์—ญ์„ ์ž„์˜๋กœ ์„ ์ •ํ•˜๊ณ  testing์„ ํ•  ๋•Œ๋Š” pooling region์„ ๊ณ ์ •์‹œํ‚ค๊ฑฐ๋‚˜ ์—ฌ๋Ÿฌ๊ฐœ์˜ region์„ ๋งŒ๋“ค์–ด average out์„ ํ•œ๋‹ค.
ย 

Stochastic depth

training์„ ํ•  ๋•Œ๋Š” ๋„คํŠธ์›Œํฌ์˜ layer๋ฅผ ๋žœ๋ค์œผ๋กœ drop. layer ์ค‘ ์ผ๋ถ€๋ฅผ ์ œ๊ฑฐํ•ด ๋ฒ„๋ฆฌ๊ณ  ์ผ๋ถ€๋งŒ์„ ์‚ฌ์šฉํ•˜๊ณ  testing์—์„œ๋Š” ์ „์ฒด ๋„คํŠธ์›Œํฌ๋ฅผ ์ด์šฉํ•œ๋‹ค.
ย 
ย