K-Nearest Neighbors(KNN)

K-Nearest Neighbors(KNN)

์›๋ฆฌ


Distance metric์„ ์ด์šฉํ•ด์„œ ๊ฐ€๊นŒ์šด ์ด๋ฏธ์ง€๋ฅผ K๊ฐœ๋งŒํผ ์ฐพ๊ณ , K๊ฐœ์˜ ์ด๋ฏธ์ง€์˜ ๋ผ๋ฒจ ์ค‘ ๊ฐ€์žฅ ๋งŽ์ด ๋‚˜์˜จ ๊ฒƒ์œผ๋กœ ๋ผ๋ฒจ์„ ์ •ํ•˜๋Š” ์›๋ฆฌ๋‹ค. (Majority Voting System)
ย 

HyperParameter


์š”์†Œ

KNN ๋ถ„๋ฅ˜๊ธฐ ์ ์šฉ ์‹œ, ์‚ฌ์šฉ์ž๊ฐ€ ์ง์ ‘ ์กฐ์ •ํ•  ์ˆ˜ ์žˆ๋Š” ์š”์†Œ๋“ค์„ ์˜๋ฏธํ•œ๋‹ค. ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๋‘๊ฐ€์ง€๊ฐ€ ์กด์žฌํ•œ๋‹ค.
Distance Metric: ์–ด๋–ค ๊ฑฐ๋ฆฌ ๊ณ„์‚ฐ ๋ฐฉ์‹์„ ์„ ํƒํ•  ๊ฒƒ์ธ๊ฐ€?
L1 Distance ๊ณต๊ฐ„๊ตฌ์กฐ
L1 Distance ๊ณต๊ฐ„๊ตฌ์กฐ
K=1 ์ผ ๋•Œ L1 Distance์— ๊ธฐ์ดˆํ•ด Class 5๊ฐœ๋กœ ๋‚˜๋ˆˆ ๊ฒฐ๊ณผ
K=1 ์ผ ๋•Œ L1 Distance์— ๊ธฐ์ดˆํ•ด Class 5๊ฐœ๋กœ ๋‚˜๋ˆˆ ๊ฒฐ๊ณผ
L1 Distance ๋ฌธ์„œ์—์„œ ์ž์„ธํ•œ ๋‚ด์šฉ ์ฐธ์กฐ
L2 Distance ๊ณต๊ฐ„๊ตฌ์กฐ
L2 Distance ๊ณต๊ฐ„๊ตฌ์กฐ
K=1์ผ ๋•Œ L2 Distance์— ๊ธฐ์ดˆํ•ด Class 5๊ฐœ๋กœ ๋‚˜๋ˆˆ ๊ฒฐ๊ณผ
K=1์ผ ๋•Œ L2 Distance์— ๊ธฐ์ดˆํ•ด Class 5๊ฐœ๋กœ ๋‚˜๋ˆˆ ๊ฒฐ๊ณผ
L2 Distance ๋ฌธ์„œ์—์„œ ์ž์„ธํ•œ ๋‚ด์šฉ ์ฐธ์กฐ
ย 
K: ์œ ์‚ฌํ•œ ์ด๋ฏธ์ง€ ๋ช‡๊ฐœ๋ฅผ ์ฐพ์„ ๊ฒƒ์ธ๊ฐ€?
์ด๋ฏธ์ง€ ์ถœ์ฒ˜: CS231n Lecture 2 Slides
์ด๋ฏธ์ง€ ์ถœ์ฒ˜: CS231n Lecture 2 Slides
K๊ฐ’์ด ์ฆ๊ฐ€ํ•  ์ˆ˜๋ก, ์žก์Œ์— ๋Œ€ํ•ด ๋” ์ž˜ ๋Œ€์ฒ˜ํ•˜๊ณ (์ดˆ๋ก ์˜์—ญ์— ๋– ์žˆ๋Š” ํŒŒ๋ž€ ์„ฌ), ์˜์—ญ์ด ์Šค๋ฌด์Šคํ•˜๊ฒŒ ๋‚˜๋ˆ ์ง€๋Š” ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ๋‹ค๋งŒ, ์–ธ์ œ๋‚˜ K๊ฐ’์ด ํฐ ๊ฒƒ์ด ์ข‹์€ ๊ฒƒ์€ ์•„๋‹ˆ๋‹ค.
ย 

์„ธํŒ… ๋ฐฉ๋ฒ•

์œ„ ์š”์†Œ๋“ค์€ ์‚ฌ์šฉ์ž๊ฐ€ ์ง์ ‘ ๋ฐ”๊ฟ”๊ฐ€๋ฉฐ, ์–ด๋–ค ๊ฐ’์ด ์ ํ•ฉํ•œ์ง€๋ฅผ ์Šค์Šค๋กœ ํŒ๋‹จํ•ด์•ผํ•œ๋‹ค. ํ•ด๋‹น ์‚ฌ์ดํŠธ์—์„œ ์—ฐ์Šตํ•ด๋ณผ ์ˆ˜ ์žˆ๋‹ค.
ย 
ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ •ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š”, ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ฅผ training set / validation set / test set์œผ๋กœ ๋‚˜๋ˆ ์•ผํ•œ๋‹ค. ์ดํ›„, validataion set์— ์ ํ•ฉํ•œ ํ•˜์ดํผํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ •ํ•˜๊ณ , ๊ทธ ์„ฑ๋Šฅ์— ๋Œ€ํ•œ ํ…Œ์ŠคํŠธ๋Š” test set์— ๋Œ€ํ•ด ์ง„ํ–‰ํ•œ๋‹ค. ์ฆ‰, ๋ฆฌํฌํŠธ์— ๊ธฐ์ž…ํ•  ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์„ฑ๋Šฅ์€ โ€˜test setโ€™์— ๋Œ€ํ•œ ํ‰๊ฐ€ ๊ฒฐ๊ณผ๋‹ค.
ย 
๋ฐ์ดํ„ฐ์…‹์ด ์ž‘์„ ๋•Œ์—๋Š” Cross-Validation ๋ฐฉ๋ฒ•๋„ ์“ฐ์ธ๋‹ค. ์ฃผ์–ด์ง„ ๋ฐ์ดํ„ฐ๋ฅผ training set / test set์œผ๋กœ ๋‚˜๋ˆ„๊ณ , training set์„ K๊ฐœ์˜ fold๋กœ ๋‚˜๋ˆˆ ๋‹ค์Œ, ํ•˜๋‚˜์˜ fold๋ฅผ ์ œ์™ธํ•œ ๋‚˜๋จธ์ง€ fold์—์„œ ํ›ˆ๋ จ์„ํ•˜๊ณ , ํ•˜๋‚˜์˜ fold์—์„œ ํ…Œ์ŠคํŠธ๋ฅผ ํ•œ๋‹ค. ์ด๋ฅผ k๋ฒˆ ์ˆ˜ํ–‰ํ•˜๋ฉด, ๋ชจ๋ธ์ด ํ›จ์”ฌ ๋” ๋‹ค์–‘ํ•œ ์ƒํ™ฉ์—์„œ ํ…Œ์ŠคํŠธ๋ฅผ ์ง„ํ–‰ํ•ด ๋” ์ข‹์€ hyperparameter๋ฅผ ์„ ํƒํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋œ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ฐ์ดํ„ฐ์…‹์ด ํฐ ๋”ฅ๋Ÿฌ๋‹์—์„œ๋Š” ํ•™์Šต์— ํ•„์š”ํ•œ ๊ณ„์‚ฐ๋Ÿ‰์ด ๊ธฐํ•˜๊ธ‰์ˆ˜์ ์œผ๋กœ ๋Š˜์–ด๋‚˜๊ธฐ ๋•Œ๋ฌธ์— ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š”๋‹ค.
ย 

์ด๋ฏธ์ง€์—์„œ ์‚ฌ์šฉํ•˜์ง€ ์•Š๋Š” ์ด์œ 


  • ํ…Œ์ŠคํŠธ๋ฅผ ์œ„ํ•ด, ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€์™€ ํ›ˆ๋ จ์šฉ ๋ฐ์ดํ„ฐ์˜ ๋ชจ๋“  ์‚ฌ์ง„ ๊ฐ„์˜ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ„์‚ฐํ•˜๋ฏ€๋กœ, ์˜ˆ์ธก ๊ณผ์ •์—์„œ ๋งŽ์€ ์‹œ๊ฐ„์ด ์†Œ์š”๋œ๋‹ค.
  • ์ด๋ฏธ์ง€ ๊ฐ„ ๊ฑฐ๋ฆฌ๋ฅผ ์ธก์ •ํ•˜๋Š”๋ฐ ์žˆ์–ด, L1, L2 ๊ฑฐ๋ฆฌ๊ฐ€ ์ œ๋Œ€๋กœ ์ ์šฉ๋˜์ง€ ์•Š์Œ: ํ”ฝ์…€์ด ๋งŽ์„์ˆ˜๋ก ๋‘ ์ด๋ฏธ์ง€ ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ๋ฅผ ๊ณ„์‚ฐํ•  ๋•Œ ์œ ์‚ฌ์„ฑ์ด ๋–จ์–ด์ง„๋‹ค.
    • ๊ฐ€์žฅ ์™ผ์ชฝ ์˜ค๋ฆฌ์ง€๋„ ์ด๋ฏธ์ง€๋ฅผ ์ œ์™ธํ•œ ๋‹ค๋ฅธ ์ด๋ฏธ์ง€๋“ค์˜ ์ฐจ์ด๊ฐ€ ๋šœ๋ ทํ•จ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์˜ค๋ฆฌ์ง€๋„ ์ด๋ฏธ์ง€์™€์˜ ๊ฑฐ๋ฆฌ๊ฐ€ ๋ชจ๋‘ ๊ฐ™์Œ
      ๊ฐ€์žฅ ์™ผ์ชฝ ์˜ค๋ฆฌ์ง€๋„ ์ด๋ฏธ์ง€๋ฅผ ์ œ์™ธํ•œ ๋‹ค๋ฅธ ์ด๋ฏธ์ง€๋“ค์˜ ์ฐจ์ด๊ฐ€ ๋šœ๋ ทํ•จ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์˜ค๋ฆฌ์ง€๋„ ์ด๋ฏธ์ง€์™€์˜ ๊ฑฐ๋ฆฌ๊ฐ€ ๋ชจ๋‘ ๊ฐ™์Œ
  • ์ฐจ์›์˜ ์ €์ฃผ: KNN์˜ ์„ฑ๋Šฅ ๋ฐœํœ˜๋ฅผ ์œ„ํ•ด์„œ๋Š” ๊ณต๊ฐ„์„ ๋นฝ๋นฝํ•˜๊ฒŒ ๋ฉ”์šธ ๋ฐ์ดํ„ฐ๊ฐ€ ํ•„์š”ํ•˜์ง€๋งŒ, ํ˜„์‹ค์ ์œผ๋กœ ์ฐจ์›์ด ๋Š˜์–ด๋‚  ๋•Œ๋งˆ๋‹ค ํ•„์š”ํ•œ ๋ฐ์ดํ„ฐ์˜ ๊ฐœ์ˆ˜๊ฐ€ ์ง€์ˆ˜์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜๊ธฐ ๋•Œ๋ฌธ์— KNN์ด ๋งŒ์กฑํ• ๋งŒํ•œ ๋ฐ์ดํ„ฐ ํ™•๋ณด๊ฐ€ ์–ด๋ ต๋‹ค.