์๋ฆฌ
Distance metric
์ ์ด์ฉํด์ ๊ฐ๊น์ด ์ด๋ฏธ์ง๋ฅผ K๊ฐ
๋งํผ ์ฐพ๊ณ , K๊ฐ์ ์ด๋ฏธ์ง์ ๋ผ๋ฒจ ์ค ๊ฐ์ฅ ๋ง์ด ๋์จ ๊ฒ์ผ๋ก ๋ผ๋ฒจ์ ์ ํ๋ ์๋ฆฌ๋ค. (Majority Voting System) ย
HyperParameter
์์
KNN ๋ถ๋ฅ๊ธฐ ์ ์ฉ ์, ์ฌ์ฉ์๊ฐ ์ง์ ์กฐ์ ํ ์ ์๋ ์์๋ค์ ์๋ฏธํ๋ค. ๋ค์๊ณผ ๊ฐ์ด ๋๊ฐ์ง๊ฐ ์กด์ฌํ๋ค.
Distance Metric: ์ด๋ค ๊ฑฐ๋ฆฌ ๊ณ์ฐ ๋ฐฉ์์ ์ ํํ ๊ฒ์ธ๊ฐ?
L1 Distance ๋ฌธ์์์ ์์ธํ ๋ด์ฉ ์ฐธ์กฐ
L2 Distance ๋ฌธ์์์ ์์ธํ ๋ด์ฉ ์ฐธ์กฐ
ย
K: ์ ์ฌํ ์ด๋ฏธ์ง ๋ช๊ฐ๋ฅผ ์ฐพ์ ๊ฒ์ธ๊ฐ?
K๊ฐ์ด ์ฆ๊ฐํ ์๋ก, ์ก์์ ๋ํด ๋ ์ ๋์ฒํ๊ณ (์ด๋ก ์์ญ์ ๋ ์๋ ํ๋ ์ฌ), ์์ญ์ด ์ค๋ฌด์คํ๊ฒ ๋๋ ์ง๋ ๊ฒ์ ๋ณผ ์ ์๋ค. ๋ค๋ง, ์ธ์ ๋ K๊ฐ์ด ํฐ ๊ฒ์ด ์ข์ ๊ฒ์ ์๋๋ค.
ย
์ธํ ๋ฐฉ๋ฒ
์ ์์๋ค์ ์ฌ์ฉ์๊ฐ ์ง์ ๋ฐ๊ฟ๊ฐ๋ฉฐ, ์ด๋ค ๊ฐ์ด ์ ํฉํ์ง๋ฅผ ์ค์ค๋ก ํ๋จํด์ผํ๋ค. ํด๋น ์ฌ์ดํธ์์ ์ฐ์ตํด๋ณผ ์ ์๋ค.
ย
ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ ํ๊ธฐ ์ํด์๋, ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ
training set
/ validation set
/ test set
์ผ๋ก ๋๋ ์ผํ๋ค. ์ดํ, validataion set์ ์ ํฉํ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ ํ๊ณ , ๊ทธ ์ฑ๋ฅ์ ๋ํ ํ
์คํธ๋ test set์ ๋ํด ์งํํ๋ค. ์ฆ, ๋ฆฌํฌํธ์ ๊ธฐ์
ํ ์๊ณ ๋ฆฌ์ฆ์ ์ฑ๋ฅ์ โtest setโ์ ๋ํ ํ๊ฐ ๊ฒฐ๊ณผ๋ค. ย
๋ฐ์ดํฐ์
์ด ์์ ๋์๋
Cross-Validation
๋ฐฉ๋ฒ๋ ์ฐ์ธ๋ค. ์ฃผ์ด์ง ๋ฐ์ดํฐ๋ฅผ training set
/ test set
์ผ๋ก ๋๋๊ณ , training set
์ K๊ฐ์ fold
๋ก ๋๋ ๋ค์, ํ๋์ fold๋ฅผ ์ ์ธํ ๋๋จธ์ง fold์์ ํ๋ จ์ํ๊ณ , ํ๋์ fold์์ ํ
์คํธ๋ฅผ ํ๋ค. ์ด๋ฅผ k๋ฒ ์ํํ๋ฉด, ๋ชจ๋ธ์ด ํจ์ฌ ๋ ๋ค์ํ ์ํฉ์์ ํ
์คํธ๋ฅผ ์งํํด ๋ ์ข์ hyperparameter๋ฅผ ์ ํํ ์ ์๊ฒ ๋๋ค. ๊ทธ๋ฌ๋ ๋ฐ์ดํฐ์
์ด ํฐ ๋ฅ๋ฌ๋์์๋ ํ์ต์ ํ์ํ ๊ณ์ฐ๋์ด ๊ธฐํ๊ธ์์ ์ผ๋ก ๋์ด๋๊ธฐ ๋๋ฌธ์ ์ฌ์ฉํ์ง ์๋๋ค. ย
์ด๋ฏธ์ง์์ ์ฌ์ฉํ์ง ์๋ ์ด์
- ํ ์คํธ๋ฅผ ์ํด, ํ ์คํธ ์ด๋ฏธ์ง์ ํ๋ จ์ฉ ๋ฐ์ดํฐ์ ๋ชจ๋ ์ฌ์ง ๊ฐ์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํ๋ฏ๋ก, ์์ธก ๊ณผ์ ์์ ๋ง์ ์๊ฐ์ด ์์๋๋ค.
- ์ด๋ฏธ์ง ๊ฐ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ ํ๋๋ฐ ์์ด, L1, L2 ๊ฑฐ๋ฆฌ๊ฐ ์ ๋๋ก ์ ์ฉ๋์ง ์์: ํฝ์ ์ด ๋ง์์๋ก ๋ ์ด๋ฏธ์ง ์ฌ์ด์ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ์ฐํ ๋ ์ ์ฌ์ฑ์ด ๋จ์ด์ง๋ค.
- ์ฐจ์์ ์ ์ฃผ: KNN์ ์ฑ๋ฅ ๋ฐํ๋ฅผ ์ํด์๋ ๊ณต๊ฐ์ ๋นฝ๋นฝํ๊ฒ ๋ฉ์ธ ๋ฐ์ดํฐ๊ฐ ํ์ํ์ง๋ง, ํ์ค์ ์ผ๋ก ์ฐจ์์ด ๋์ด๋ ๋๋ง๋ค ํ์ํ ๋ฐ์ดํฐ์ ๊ฐ์๊ฐ ์ง์์ ์ผ๋ก ์ฆ๊ฐํ๊ธฐ ๋๋ฌธ์ KNN์ด ๋ง์กฑํ ๋งํ ๋ฐ์ดํฐ ํ๋ณด๊ฐ ์ด๋ ต๋ค.