- ๋ชจ๋ธ์ด training data์ fitํ๋ ๊ฒ์ ๋ง์ ๋จ์ผ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์ฌ๋ฆฌ๋ ๋ฐฉ๋ฒ์ด๋ค.
- batch normalization ์ด์ธ์๋ ๋ค์ํ ๋ฐฉ์๋ค์ด ์๊ณ , ๋ณดํต BN์ผ๋ก ์ถฉ๋ถํ์ง๋ง ์ค๋ฒํผํ ์ด ๋๋ฌด ์ฌํ๋ฉด dropout์ ์ถ๊ฐํ๋ค.
ย
Dropout
์๋ฆฌ
- ์์๋ก layer์ 1๋ฒ์ฉ
Dropout
์ ๋ฃ๋๋ค. ์ฆ ๋ช๋ช ๋ ธ๋๋ค์ ๋๋คํ๊ฒ offํ์ฌ foward pass ๊ณผ์ ์์ ์ผ๋ถ ๋ด๋ฐ์ activation ๊ฐ์ 0์ผ๋ก ๋ง๋ค์ด ๋ฒ๋ฆฐ๋ค. (๋๋๋ก ์ ์ฒด feature map์์ ๋๋ค์ผ๋ก dropout ์ํค๊ธฐ๋ ํ๊ณ , ์ฑ๋์ ํต์งธ๋ก drop์ํค๊ธฐ๋ ํ๋ค.)
- Dropout ๋ฐฉ์์ ๋๋ถ๋ถ FC layer์์ ์ ์ฉ๋๋ ๋ค๋ฅธ layer์์ ํ ๋๋ ์๋ค.
- ํ์ต๊ณผ์ ์์ย redundancy(์ค๋ณต์ฑ)์ ์ค์ธ๋ค๋ ์๋ฏธ๋ ์ด๋ฏธ์ง๋ฅผ ๋ณผ ๋ ํน์ ํ ๋ถ๋ถ์ด ๊ฐ๋ ค์ ธ ์์ด๋ ์ด๋ค ์ด๋ฏธ์ง์ธ์ง ์ง์ํ ์ ์๋ ๊ฒ๊ณผ ๊ฐ์ ๋ป์ด๋ค. ์ฆ, ์ด๋ค ์ผ๋ถ features์๋ง ์์กดํ๋ ๊ฒ์ด ์๋๋ผ ๋ค์ํ features๋ฅผ ๊ณจ๊ณ ๋ฃจ ์ด์ฉํ ์ ์๋๋ก ํ๋ ๊ฒ์ด๋ค.
- train epoch ๋ง๋ค ๋ ธ๋์ ๊ตฌ์ฑ์ด ๋๋ค์ผ๋ก ๋ณํ๊ธฐ ๋๋ฌธ์ ๋ง์น ์ฌ๋ฌ๋ชจ๋ธ์ ๊ฐ์ ํ๊ท ๋ด๋ ensemble์ ํจ๊ณผ์ ๋น์ทํ๋ค.
ย
ํจ๊ณผ
- train ํ ๋๋ ๋คํธ์ํฌ์ ๋ฌด์์์ฑ์ ์ค์ผ๋ก์ ๋ค์ํ feature์ ์ด์ฉํด ์์ธกํ๊ธฐ ๋๋ฌธ์, ๊ณผ์ ํฉ ๋ฌธ์ ๋ฅผ ๋ฐฉ์งํ๋ค.
- train epoch๋ฅผ ๋ ๋๋ง๋ค ๋๋ค์ผ๋ก ๋ฐ๋๋ ๋ ธ๋์ ๊ตฌ์ฑ์ด ๋ณํ๊ธฐ ๋๋ฌธ์ ๋จ์ผ ๋ชจ๋ธ๋ก ์์๋ธ ํจ๊ณผ๋ฅผ ๋ผ ์ ์๋ค.
- test ํ ๋๋ ์ด ๋ฌด์์์ฑ์ ํ๊ท ํ์์ผ์ ์ผ๋ฐํ ํจ๊ณผ๋ฅผ ์ค๋ค.
ย
Data Augmentation
- ์ด๋ฏธ์ง์ patch๋ฅผ ๋๋คํ๊ฒ ์ก์ ํ๋ จ์ํค๊ฑฐ๋, ์ด๋ฏธ์ง๋ฅผ ๋ค์ง์ด์(์ข์ฐ๋ฐ์ ) trainset์ ์ถ๊ฐํ๊ฑฐ๋, ๋ฐ๊ธฐ๊ฐ์ ๋ค๋ฅด๊ฒ ํด์ train dataset์ ์ถ๊ฐํด ํ๋ จ์ ํด์ฃผ๋ ๋ฐฉ์์ด๋ค. ์ฆ, label์ ๋ณด์กดํ ์ฑ๋ก ์ด๋ฏธ์ง๋ฅผ ๋ณํ์์ผ์ ํ์ต์ํค๋ ๊ฒ์ด๋ค.
- training์ ํ ๋์๋ ๋ค๋ฅธ ์ฌ์ด์ฆ์ sample crop(์ค๊ฐ ํ๋ ์, ๊ฐ ๋ชจ์๋ฆฌ์ ํ๋ ์ ์๋ฅด๊ธฐ, ๋ฐ์ , ๋ค์ง๊ธฐ ๋ฑ)์ ๋ฐฉ๋ฒ์ ์ด์ฉํ์ฌ randomํ ์ด๋ฏธ์ง๋ฅผ ์์งํ๋ค. testing์ ํ ๋์๋ ์ด crop๋ค์ average out ํ์ฌ ์ด์ฉํ๋ค.
ย
๊ธฐํ
DropConnect
Dropout์ด ๋
ธ๋์ activation์ 0์ผ๋ก ๋ง๋๋ ๋ฐฉ๋ฒ์ด๋ผ๋ฉด Dropconnect๋ output๊ฐ์ด ์๋ ๋
ธ๋์ weight matrix๋ฅผ 0ํ๋ ฌ๋ก ๋ง๋๋ ๊ฒ์ด๋ค.
ย
Max pooling
pooling์ฐ์ฐ์ ์ํ ํ ์ง์ญ์ ์์๋ก ์ ์ ํ๊ณ testing์ ํ ๋๋ pooling region์ ๊ณ ์ ์ํค๊ฑฐ๋ ์ฌ๋ฌ๊ฐ์ region์ ๋ง๋ค์ด average out์ ํ๋ค.
ย
Stochastic depth
training์ ํ ๋๋ ๋คํธ์ํฌ์ layer๋ฅผ ๋๋ค์ผ๋ก drop. layer ์ค ์ผ๋ถ๋ฅผ ์ ๊ฑฐํด ๋ฒ๋ฆฌ๊ณ ์ผ๋ถ๋ง์ ์ฌ์ฉํ๊ณ testing์์๋ ์ ์ฒด ๋คํธ์ํฌ๋ฅผ ์ด์ฉํ๋ค.
ย
ย