You Look Only Once : Unified, Real-Time Object Detection
๐Ÿ‘€

You Look Only Once : Unified, Real-Time Object Detection

Created
Apr 28, 2022
Editor
Tags
Vision
cleanUrl: "paper/YOLOv1"
๐Ÿ“„
๋…ผ๋ฌธ : You Look Only Once : Unified, Real-Time Object Detection ์ €์ž : Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi
ย 
*Object Detection :ย Multiple objects์—์„œ ๊ฐ๊ฐ์˜ object์— ๋Œ€ํ•ด Classification + Localization์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ

0. ๋…ผ๋ฌธ ์„ ์ • ๋ฐฐ๊ฒฝ

Yolo๋Š” Object detection ๋ถ„์•ผ์˜ ๋Œ€ํ‘œ์ ์ธ real-time ๋ชจ๋ธ ์ค‘ ํ•˜๋‚˜๋กœ, ํ˜„์žฌ ๋…ผ๋ฌธ์œผ๋กœ ๊ธฐ์žฌ๋œ ๋ฒ„์ „์€ ๋ฒ„์ „4๊นŒ์ง€ ๋‚˜์˜ฌ์ •๋„๋กœ ์œ ๋ช…ํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ด๋ฒˆ ๊ธฐํšŒ๋กœ ์—ฌ๋Ÿฌ ์‹œ๋ฆฌ์ฆˆ์˜ ์šœ๋กœ ๋ชจ๋ธ๋“ค์„ ์ฐจ๊ทผ์ฐจ๊ทผ ์ฝ์–ด๋ณด๊ณ  ์‹ถ์–ด ์„ ์ •ํ•˜๊ฒŒ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

1. Introduction

์‚ฌ๋žŒ์€ ์ด๋ฏธ์ง€๋ฅผ ๋ณด๋ฉด ์–ด๋””์— ๋ฌด์—‡์ด ์žˆ๋Š”์ง€ ํ•œ ๋ฒˆ์— ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด์ฒ˜๋Ÿผ ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•œ ์ธ๊ฐ„์˜ ์‹œ๊ฐ์ฒด๊ณ„์™€ ๋น„์Šทํ•˜๊ฒŒ ์ž‘๋™ํ•  ์ˆ˜ ์žˆ๋„๋ก YOLO๋Š”ย single neural network๋กœ ๊ตฌ์„ฑ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.
์ด์ „์˜ detection ๋ชจ๋ธ๋“ค์€
1) DPM(deformable parts models)
: sliding window ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด๋ฏธ์ง€ ์ „์ฒด์— ๋Œ€ํ•˜์—ฌ ๊ฐ„๊ฒฉ์ด ์กด์žฌํ•˜๋Š” ๋ถ€๋ถ„๋„ classifier๊ฐ€ ๊ณ„์‚ฐ
*sliding window๋ฐฉ์‹ : ์ด๋ฏธ์ง€์—์„œ ๋ฌผ์ฒด๋ฅผ ์ฐพ๊ธฐ ์œ„ํ•ด window์˜ (ํฌ๊ธฐ, ๋น„์œจ)์„ ์ž„์˜๋กœ ๋งˆ๊ตฌ ๋ฐ”๊ฟ”๊ฐ€๋ฉด์„œ ๋ชจ๋“  ์˜์—ญ์— ๋Œ€ํ•ด์„œ ํƒ์ƒ‰ํ•˜๋Š” ๊ฒƒ
2) R-CNN
  • localization๊ณผ classification ํŒŒํŠธ๊ฐ€ ๋ถ„๋ฆฌ ๋˜์–ด ์žˆ๋Š” 2-stage-detector(1. Region Proposal์„ ํ†ตํ•ด Object๊ฐ€ ์žˆ์„๋ฒ•ํ•œ ์˜์—ญ์„ ์ฐพ๊ณ , 2. CNN์œผ๋กœ ๊ฐ๊ฐ์˜ ์˜์—ญ์œผ๋กœ๋ถ€ํ„ฐ ๊ณ ์ •๋œ ํฌ๊ธฐ์˜ Feature Vector๋ฅผ ๋ฝ‘์•„๋‚ธ ํ›„, Classification ์ง„ํ–‰)
    • โ‡’ 2๊ฐœ์˜ ๋‹จ๊ณ„๊ฐ€ ๋…๋ฆฝ์ ์œผ๋กœ ํ•™์Šต๋˜๊ธฐ ๋•Œ๋ฌธ์— ์ตœ์ ํ™”๋˜๋Š”๋ฐ์— ์†๋„๊ฐ€ ๋А๋ฆฐ ๋ณต์žกํ•œ ๊ตฌ์กฐ
      *https://ganghee-lee.tistory.com/35 : R-CNN์— ๋Œ€ํ•ด ๊ถ๊ธˆํ•˜์‹  ๋ถ„์€ ์ด ๋งํฌ๋ฅผ ์ฐธ๊ณ ํ•˜์‹œ๋ฉด ์ข‹์„ ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค.
ย 
YOLO๋Š” ์ด์™€ ๋‹ค๋ฅด๊ฒŒ, ์ด๋ฏธ์ง€์˜ ํ”ฝ์…€๋กœ๋ถ€ํ„ฐ bounding box์˜ ์œ„์น˜(coordinates), ํด๋ž˜์Šค ํ™•๋ฅ (class probabilities)์„ ๊ตฌํ•˜๊ธฐ๊นŒ์ง€์˜ ์ผ๋ จ์„ ์ ˆ์ฐจ๋ฅผ ํ•˜๋‚˜์˜ ํšŒ๊ท€ ๋ฌธ์ œ๋กœ ์žฌ์ •์˜ํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.
๋…ผ๋ฌธ๋ช… ๊ทธ๋Œ€๋กœ, you only look once, ์ด๋ฏธ์ง€๋ฅผ ํ•œ ๋ฒˆ๋งŒ ๋ณด๋ฉด ๊ฐ์ฒด๋ฅผ ๊ฒ€์ถœํ•  ์ˆ˜ ์žˆ๋‹คํ•˜์—ฌ ์ด๋ฆ„์ด YOLO์ž…๋‹ˆ๋‹ค.
YOLO์˜ ์ด๋Ÿฐ ํ†ตํ•ฉ๋œ ๋ชจ๋ธ์€ ๊ธฐ์กด์˜ ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ์— ๋น„ํ•ด ์—ฌ๋Ÿฌ ๊ฐ€์ง€ ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
1) YOLO๋Š” ๋งค์šฐ ๋น ๋ฆ…๋‹ˆ๋‹ค.
๊ธฐ์กด์˜ ๋ณต์žกํ•œ ๊ฐ์ฒด ๊ฒ€์ถœ ํ”„๋กœ์„ธ์Šค๋ฅผ ํ•˜๋‚˜์˜ ํšŒ๊ท€ ๋ฌธ์ œ๋กœ ๋ณ€ํ™˜ํ•ด ๋‹จ์ˆœํ™” ํ•˜์˜€๊ธฐ ๋•Œ๋ฌธ์— ์‹ค์‹œ๊ฐ„์œผ๋กœ detection์ด ๊ฐ€๋Šฅํ•ด์กŒ์Šต๋‹ˆ๋‹ค.
YOLO ๊ธฐ๋ณธ ๋„คํŠธ์›Œํฌ๋Š” Titan X GPU์—์„œ ๋ฐฐ์น˜ ์ฒ˜๋ฆฌ ์—†์ด 45fps, Fast YOLO๋Š” 150fps ์†๋„๋ฅผ ์ง€๋‹ ์ •๋„๋กœ ๋น ๋ฅธ real-time detector์ด๋ฉฐ, ๋‹ค๋ฅธ ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ๋ณด๋‹ค 2๋ฐฐ ์ด์ƒ์˜ mAP(mean average precision)๋ฅผ ๊ฐ–์Šต๋‹ˆ๋‹ค.
2) YOLO๋Š” ์˜ˆ์ธก์„ ํ•  ๋•Œ ์ด๋ฏธ์ง€ ์ „์ฒด๋ฅผ ๋ด…๋‹ˆ๋‹ค.
slding window์™€ region proposal ๋ฐฉ์‹๊ณผ ๋‹ค๋ฅด๊ฒŒ ํ›ˆ๋ จ๊ณผ ํ…Œ์ŠคํŠธ ๋‹จ๊ณ„์—์„œ ์ด๋ฏธ์ง€ ์ „์ฒด๋ฅผ ๋ณด๊ธฐ ๋•Œ๋ฌธ์— ์ฃผ๋ณ€ ์ •๋ณด๊นŒ์ง€ ํฌํ•จํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ yolo ์ด์ „์— ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ ์ค‘ ์„ฑ๋Šฅ์ด ๊ฐ€์žฅ ์ข‹์•˜๋˜ Fast R-CNN์— ๋น„ํ•ด background error๊ฐ€ 2๋ฐฐ ์ด์ƒ ์ ์Šต๋‹ˆ๋‹ค.
*background error : ๋ฌผ์ฒด๊ฐ€ ์—†๋Š” ๋ฐฐ๊ฒฝ(background)์— ๋ฐ˜์ ์ด๋‚˜ ๋…ธ์ด์ฆˆ๊ฐ€ ์žˆ์„๋•Œ ๊ทธ๊ฒƒ์„ ๋ฌผ์ฒด๋กœ ์ธ์‹
3) YOLO๋Š” ๋ฌผ์ฒด์˜ ์ผ๋ฐ˜์ ์ธ ๋ถ€๋ถ„์„ ํ•™์Šตํ•ฉ๋‹ˆ๋‹ค.
๋‹ค๋ฅธ ๋ชจ๋ธ์— ๋น„ํ•ด YOLO๋Š” ํ›ˆ๋ จ ๋‹จ๊ณ„์—์„œ ๋ณด์ง€ ๋ชปํ•œ ์ƒˆ๋กœ์šด ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด ๋” robustํ•ฉ๋‹ˆ๋‹ค.
ex) ์ž์—ฐ ์ด๋ฏธ์ง€๋ฅผ ํ•™์Šตํ•˜์—ฌ ๊ทธ๋ฆผ ์ด๋ฏธ์ง€๋กœ ํ…Œ์ŠคํŠธํ•  ๋•Œ, YOLO์˜ ์„ฑ๋Šฅ์€ DPM์ด๋‚˜ R-CNN๋ณด๋‹ค ์›”๋“ฑํžˆ ๋›ฐ์–ด๋‚ฉ๋‹ˆ๋‹ค.
ย 
ํ•˜์ง€๋งŒ YOLO๋Š” ๋‹น์‹œ์˜ sota ๋ชจ๋ธ๋“ค์— ๋น„ํ•ด ์ •ํ™•๋„๊ฐ€ ๋‹ค์†Œ ๋–จ์–ด์ง„๋‹ค๋Š” ๋‹จ์ ์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค.
YOLO๋Š” ๋น ๋ฅด๊ฒŒ ๊ฐ์ฒด๋ฅผ ๊ฒ€์ถœํ•  ์ˆ˜ ์žˆ๋Š” ๋ฐ˜๋ฉด, ์ž‘์€ ๋ฌผ์ฒด์— ๋Œ€ํ•ด์„  ์ •ํ™•๋„๊ฐ€ ๋–จ์–ด์ง‘๋‹ˆ๋‹ค.

2. Unified Detection

YOLO๋Š” localization๊ณผ classification์„ ๋™์‹œ์— ์ง„ํ–‰ํ•˜๋Š” single neural network์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ end-to-end ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋ฉฐ ๋†’์€ ์ •ํ™•๋„๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ๊ฒ€์ถœ์ด ๊ฐ€๋Šฅํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค
์ž…๋ ฅ ์ด๋ฏธ์ง€๋ฅผ S x S ๊ทธ๋ฆฌ๋“œ๋กœ ๋‚˜๋ˆ•๋‹ˆ๋‹ค. ๋งŒ์•ฝ ์–ด๋–ค ๊ฐ์ฒด์˜ ์ค‘์‹ฌ์ด ํŠน์ • ๊ทธ๋ฆฌ๋“œ ์…€ ์•ˆ์— ์œ„์น˜ํ•œ๋‹ค๋ฉด, ๊ทธ ๊ทธ๋ฆฌ๋“œ ์…€์€ ๊ฐ์ฒด๋ฅผ ๊ฒ€์ถœํ•˜๋Š”๋ฐ์— responsibleํ•œ ์…€์ž…๋‹ˆ๋‹ค.
๊ฐ๊ฐ์˜ ๊ทธ๋ฆฌ๋“œ ์…€์€ B๊ฐœ์˜ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์™€, ๊ฐ ๋ฐ•์Šค์— ๋Œ€ํ•œ confidence score๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค.
์ž…๋‹ˆ๋‹ค. confidence score๋Š” ๋‹ค์Œ์˜ ์‹์œผ๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋งŒ์•ฝ ๊ทธ๋ฆฌ๋“œ ์…€์— ๋ฌผ์ฒด๊ฐ€ ์—†๋‹ค๋ฉด ๊ฐ’์€ 0์ด ๋ฉ๋‹ˆ๋‹ค. (P(Object)=0์ด๊ธฐ ๋•Œ๋ฌธ)
ย 

1) confidence score ๊ณต์‹

ย 
notion image
ย 
IOU(intersection over union) = (์‹ค์ œ bounding box์™€ ์˜ˆ์ธก bounding box์˜ ๊ต์ง‘ํ•ฉ) / (์‹ค์ œ bounding box์™€ ์˜ˆ์ธก bounding box์˜ ํ•ฉ์ง‘ํ•ฉ)
notion image
ย 
๊ฐ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋Š” 5๊ฐœ(x, y, w, h, confidence score)์˜ ์˜ˆ์ธก๊ฐ’์„ ๊ฐ€์ง€๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. x, y, w, h๋Š” ์ ˆ๋Œ€ ์œ„์น˜๊ฐ€ ์•„๋‹ˆ๋ผ ๊ทธ๋ฆฌ๋“œ ์…€ ๋‚ด์˜ ์ƒ๋Œ€ ์œ„์น˜๋ฅผ ๊ฐ€์ ธ 0~1 ์‚ฌ์ด์˜ ๊ฐ’์„ ๊ฐ–์Šต๋‹ˆ๋‹ค.
(x,y) : ๋ฐ”์šด๋”ฉ๋ฐ•์Šค์˜ ์ค‘์‹ฌ์ขŒํ‘œ(์ƒ๋Œ€์œ„์น˜)
(w,h) : ๋ฐ”์šด๋”ฉ๋ฐ•์Šค์˜ ์ƒ๋Œ€ ๋„ˆ๋น„์™€ ์ƒ๋Œ€ ๋†’์ด
ย 

2) C(class์— ๋Œ€ํ•œ ์กฐ๊ฑด๋ถ€ํ™•๋ฅ ๊ฐ’) ๊ณต์‹

<ํ™•๋ฅ ์ด ๊ฐ€์žฅ ๋†’์€ class = ๊ทธ๋ฆฌ๋“œ ์…€์˜ class>
ย 
notion image
๊ฐ ๊ทธ๋ฆฌ๋“œ ์…€์€ C(conditional class probabilities)๋ฅผ ์˜ˆ์ธกํ•˜๋Š”๋ฐ, ์ด๋Š” ๊ทธ๋ฆฌ๋“œ ์…€ ์•ˆ์— ๊ฐ์ฒด๊ฐ€ ์žˆ์„ ๋•Œ ๊ทธ ๊ฐ์ฒด๊ฐ€ ์–ด๋–ค ํด๋ž˜์Šค์ธ์ง€ ๋‚˜ํƒ€๋‚ด๋Š” ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ๊ฐ’์ž…๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๋“œ ์…€์— ๋ช‡ ๊ฐœ์˜ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๊ฐ€ ์žˆ๋Š”์ง€์™€๋Š” ๋ฌด๊ด€ํ•˜๊ฒŒ ํ•˜๋‚˜์˜ ๊ทธ๋ฆฌ๋“œ ์…€์—๋Š” ์˜ค์ง ํ•˜๋‚˜์˜ ํด๋ž˜์Šค(class)์— ๋Œ€ํ•œ ํ™•๋ฅ  ๊ฐ’๋งŒ์„ ๊ตฌํ•ฉ๋‹ˆ๋‹ค.
ย 

3) class-specific confidence scores

notion image
notion image
ํ…Œ์ŠคํŠธ ๋‹จ๊ณ„์—์„œ 1)confidence score๊ณผ 2)์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ๊ฐ’์„ ๊ณฑํ•˜๋ฉด ๊ฐ ๋ฐ•์Šค์—์„œ ํด๋ž˜์Šค์— ๋Œ€ํ•œ ๊ตฌ์ฒด์ ์ธ confidence score๋ฅผ ๊ตฌํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด score๋Š”ย bounding box์— ํŠน์ • ํด๋ž˜์Šค ๊ฐ์ฒด๊ฐ€ ๋‚˜ํƒ€๋‚  ํ™•๋ฅ ๊ณผย ์˜ˆ์ธก๋œ bounding box๊ฐ€ ๊ทธ ํด๋ž˜์Šค ๊ฐ์ฒด์— ์–ผ๋งˆ๋‚˜ ์ž˜ ๋งž์ถ”๋Š”์ง€๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.
tensor์˜ ํฌ๊ธฐ : S x S x (B * 5 + C)
  • 7 x 7 x 30 == S x S x (5 x B + C)
  • S = ๊ทธ๋ฆฌ๋“œ ๊ฐœ์ˆ˜ : 7
  • 5 = (cx, cy, w, h, confidence)
  • B = ๋ฐ”์šด๋”ฉ๋ฐ•์Šค ๊ฐœ์ˆ˜ : 2
  • C = classes : 20 (PASCAL VOC dataset) ์„ ์‚ฌ์šฉ

2.1 Network Design

notion image
CNN๋ชจ๋ธ์ธ GoogLeNet์˜ ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ๋ฅผ ๋ชจํ‹ฐ๋ธŒ๋กœ ํ•˜์˜€๊ณ  ์ด 24๊ฐœ์˜ conv layer์™€ 2๊ฐœ์˜ FC layer๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. convolutional layer์€ ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ณ , fully connected layer์€ ํด๋ž˜์Šค ํ™•๋ฅ ๊ณผ bounding box์˜ ์ขŒํ‘œ๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. GoogLeNet์˜ ์ธ์…‰์…˜ ๊ตฌ์กฐ ๋Œ€์‹  ๋‹จ์ˆœํ•œ ๊ตฌ์กฐ์˜ 1 x 1 ์ถ•์†Œ ๊ณ„์ธต๊ณผ 3 x 3 ์ปจ๋ณผ๋ฃจ์…˜ ๊ณ„์ธต์˜ ๊ฒฐํ•ฉ์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋„คํŠธ์›Œํฌ์˜ ์ตœ์ข… ์•„์›ƒํ’‹์€ 7 x 7 x 30 ํ…์„œ์ž…๋‹ˆ๋‹ค.
GoogLeNet์„ ์ด์šฉํ•˜์—ฌ ImageNet classification์— ์‚ฌ์šฉ๋œ weight๋ฅผ ๊ฐ€์ ธ์™€ fine tuningํ•˜์˜€๋Š”๋ฐ, ์•ž์ชฝ 20๊ฐœ์˜ ์ปจ๋ณผ๋ฃจ์…˜ ๋ ˆ์ด์–ด๋Š” ๊ณ ์ •ํ•œ ์ฑ„, ๋’ท ๋‹จ์˜ 4๊ฐœ ๋ ˆ์ด์–ด๋งŒ object detection ํ…Œ์Šคํฌ์— ๋งž๊ฒŒ ํ•™์Šต์‹œํ‚ต๋‹ˆ๋‹ค.
notion image
ย 
24 conv layer + 2 fc layer
  • 20 conv layer : pretrained with 1000-class ImageNet (input image : 224 x 224)
  • 4 conv layer + 2 fc layer : fine-truned with PASCAL VOC (input image : 448x448)
ย 
์ด๋ ‡๊ฒŒ ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ๋ชจ๋ธ์€ ImageNet 2012 ๊ฒ€์ฆ ๋ฐ์ดํ„ฐ ์…‹์—์„œ 88%์˜ ์ •ํ™•๋„๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. YOLO ์—ฐ๊ตฌ์ง„์€ Darknet ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.
final layer๋Š” ํด๋ž˜์Šค ํ™•๋ฅ ๊ณผ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์ขŒํ‘œ๊ฐ’์„ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋ฅผ final layer๋Š” linear activation function, final layer์„ ์ œ์™ธํ•œ ๋‹ค๋ฅธ ๋ ˆ์ด์–ด๋“ค์€ leaky relu๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

2.2 Training

  • YOLO์˜ loss๋Š” SSE(sum-squared error)๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•ฉ๋‹ˆ๋‹ค. SSE๊ฐ€ ์ตœ์ ํ™”๊ฐ€ ์‰ฝ์ง€๋งŒ SSE๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ๊ฒƒ์ด YOLO์˜ ์ตœ์ข… ๋ชฉ์ ์ธ mAP๋ฅผ ๋†’์ด๋Š” ๊ฒƒ๊ณผ ์™„๋ฒฝํ•˜๊ฒŒ ์ผ์น˜ํ•˜์ง€๋Š” ์•Š์Šต๋‹ˆ๋‹ค.
    • YOLO์˜ loss์—๋Š” bounding box์˜ ์œ„์น˜๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ์˜ˆ์ธกํ–ˆ๋Š”์ง€์— ๋Œ€ํ•œ loss์ธ localization loss์™€ ํด๋ž˜์Šค๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ์˜ˆ์ธกํ–ˆ๋Š”์ง€์— ๋Œ€ํ•œ loss์ธ classification loss๊ฐ€ ์žˆ์Šต๋‹ˆ๋‹ค. SSE๋ฅผ ์ตœ์ ํ™”ํ•˜๋Š” ๋ฐฉ์‹์€ ์ด ๋‘ loss์˜ ๊ฐ€์ค‘์น˜๋ฅผ ๋™์ผํ•˜๊ฒŒ ์ทจ๊ธ‰ํ•˜๋Š”๋ฐ, ์ด๋Š” ์ข‹์€ ๋ฐฉ๋ฒ•์ด ์•„๋‹™๋‹ˆ๋‹ค. ์ด๋ฏธ์ง€ ๋‚ด ๋Œ€๋ถ€๋ถ„์˜ ๊ทธ๋ฆฌ๋“œ ์…€์—๋Š” ๊ฐ์ฒด๊ฐ€ ์—†๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋Œ€๋ถ€๋ถ„์˜ ๊ทธ๋ฆฌ๋“œ ์…€์˜ confidence score=0์ด ๋˜๋„๋ก ํ•™์Šตํ•  ์ˆ˜๋ฐ–์— ์—†๊ณ , ์ด๋Š” ๋ชจ๋ธ์˜ ๋ถˆ๊ท ํ˜•์„ ์ดˆ๋ž˜ํ•ฉ๋‹ˆ๋‹ค.
      ์ด๋ฅผ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด
      1 ) localization loss์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์ฆ๊ฐ€
      2) ๊ฐ์ฒด๊ฐ€ ์กด์žฌํ•˜์ง€ ์•Š๋Š” bounding box์˜ confidence loss์— ๋Œ€ํ•œ ๊ฐ€์ค‘์น˜๋Š” ๊ฐ์†Œ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.(๊ฐ์ฒด๊ฐ€ ์—†๋Š” ๊ทธ๋ฆฌ๋“œ ์…€์˜ confidence loss๋ณด๋‹ค ๊ฐ์ฒด๊ฐ€ ์กด์žฌํ•˜๋Š” ๊ทธ๋ฆฌ๋“œ ์…€์˜ confidence loss์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์ฆ๊ฐ€ํ•œ๋‹ค๋Š” ์˜๋ฏธ)
      ์ด๋ฅผ ์œ„ํ•ด ๋‘ ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ์ธ ์™€ ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ , ๋กœ ๊ฐ€์ค‘์น˜๋ฅผ ์ฃผ์—ˆ์Šต๋‹ˆ๋‹ค.
      : bounding box ์ขŒํ‘œ(coordinate)์— ๋Œ€ํ•œ loss์˜ ๊ฐ€์ค‘์น˜
      : ๊ฐ์ฒด๊ฐ€ ์กด์žฌํ•˜์ง€ ์•Š๋Š” bounding box์˜ confidence loss์˜ ๊ฐ€์ค‘์น˜
      ย 
      ํ›ˆ๋ จ ๋‹จ๊ณ„์—์„œ ์‚ฌ์šฉํ•˜๋Š” loss function์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.
      notion image
      : ์…€ i์—์„œ j๋ฒˆ์งธ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค predictor๊ฐ€ ์˜ˆ์ธก์— responsibleํ•œ ๊ฒƒ์ธ์ง€
      : ์…€ i์—์„œ ๊ฐ์ฒด๊ฐ€ ๋‚˜ํƒ€๋‚ฌ๋Š”์ง€ (๋‚˜ํƒ€๋‚˜๋ฉด 1, ์•ˆ๋‚˜ํƒ€๋‚˜๋ฉด 0)
      1. Localization loss : x, y๊ฐ’์„ regressionํ•˜๋Š” SSE loss
      1. Localization loss : width, height๊ฐ’์„ regressionํ•˜๋Š” SSE loss
      1. Confidence loss : object๊ฐ€ ์žˆ๋Š” ๊ณณ์˜ confidence SSE loss
      1. Confidence loss : object๊ฐ€ ์—†๋Š” ๊ณณ์˜ confidence SSE loss
      1. Classification loss : object๊ฐ€ ์žˆ๋Š” ๊ณณ์˜ ๊ฐ class๋ณ„ SSE loss (๊ฐ ์…€๋‹น 1๊ฐœ์˜ class probability๊ฐ€ ๋‚˜์˜ค๋ฏ€๋กœ ij๊ฐ€ ์•„๋‹Œ i๋ฟ)
      โ‡’ grid cell์— object๊ฐ€ ์กด์žฌํ•˜๋Š” ๊ฒฝ์šฐ์˜ ์˜ค์ฐจ & predictor box๋กœ ์„ ์ •๋œ ๊ฒฝ์šฐ์˜ ์˜ค์ฐจ๋งŒ ํ•™์Šต
ย 
  • SSE๋Š” ํฐ bounding box์™€ ์ž‘์€ boudning box์— ๋Œ€ํ•ด ๋ชจ๋‘ ๋™์ผํ•œ ๊ฐ€์ค‘์น˜๋กœ loss๋ฅผ ๊ณ„์‚ฐํ•˜๋Š”๋ฐ, ์ž‘์€ bounding box๊ฐ€ ํฐ bounding box๋ณด๋‹ค ์ž‘์€ ์œ„์น˜ ๋ณ€ํ™”์— ๋” ๋ฏผ๊ฐํ•ฉ๋‹ˆ๋‹ค. ํฐ ๊ฐ์ฒด๋ฅผ ๋‘˜๋Ÿฌ์‹ธ๋Š” bounding box๋Š” ์กฐ๊ธˆ ์›€์ง์—ฌ๋„ ์—ฌ์ „ํžˆ ํฐ ๊ฐ์ฒด๋ฅผ ์ž˜ ๊ฐ์‹ธ์ง€๋งŒ, ์ž‘์€ ๊ฐ์ฒด๋ฅผ ๋‘˜๋Ÿฌ์‹ธ๋Š” bounding box๋Š” ์กฐ๊ธˆ๋งŒ ์›€์ง์—ฌ๋„ ์ž‘์€ ๊ฐ์ฒด๋ฅผ ๋ฒ—์–ด๋‚˜๊ฒŒ ๋˜๊ธฐ ๋•Œ๋ฌธ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด bounding box์˜ ๋„ˆ๋น„์™€ ๋†’์ด์— square root๋ฅผ ์ทจํ•ด์ฃผ์–ด loss์— ๋Œ€ํ•œ ๊ฐ€์ค‘์น˜๋ฅผ ๊ฐ์†Œ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
  • YOLO๋Š” ํ•˜๋‚˜์˜ ๊ทธ๋ฆฌ๋“œ ์…€ ๋‹น ์—ฌ๋Ÿฌ ๊ฐœ์˜ bounding box๋ฅผ ์˜ˆ์ธกํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ, ํ›ˆ๋ จ๋‹จ๊ณ„์—์„œ ํ•˜๋‚˜์˜ bounding box๋Š” ํ•˜๋‚˜์˜ ๊ฐ์ฒด์— ๋Œ€ํ•œ responsible์ด ์žˆ์–ด์•ผ ํ•˜๊ธฐ์—, ์˜ˆ์ธก๋œ ์—ฌ๋Ÿฌ bounding box ์ค‘ ๊ฐ์ฒด์˜ ground-truth์— ๋Œ€ํ•ด IOU๊ฐ€ ๊ฐ€์žฅ ํฐ ๊ฒƒ์„ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค. ์ด๋ ‡๊ฒŒ ํ›ˆ๋ จ๋œ bounding box predictor๋Š” ํŠน์ • ํฌ๊ธฐ, ๋น„์œจ(aspect ratios), ๊ฐ์ฒด์˜ ํด๋ž˜์Šค๋ฅผ ์ „์ฒด์ ์œผ๋กœ ์ž˜ ์˜ˆ์ธกํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
  • ๊ณผ์ ํ•ฉ์„ ๋ง‰๊ธฐ ์œ„ํ•ด ๋“œ๋กญ์•„์›ƒ๊ณผ data augmentation์„ ์ ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.
ย 

2.3 Inference

ํ›ˆ๋ จ ๋‹จ๊ณ„์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ๋„ ํ…Œ์ŠคํŠธ ์ด๋ฏธ์ง€๋กœ๋ถ€ํ„ฐ ๊ฐ์ฒด๋ฅผ ๊ฒ€์ถœํ•˜๋Š” ๋ฐ์—๋Š” ํ•˜๋‚˜์˜ ์‹ ๊ฒฝ๋ง ๊ณ„์‚ฐ๋งŒ ํ•˜๋ฉด ๋ฉ๋‹ˆ๋‹ค. ํŒŒ์Šค์นผ VOC ๋ฐ์ดํ„ฐ ์…‹์— ๋Œ€ํ•ด์„œ YOLO๋Š” ํ•œ ์ด๋ฏธ์ง€ ๋‹น 98๊ฐœ์˜ bounding box๋ฅผ ์˜ˆ์ธกํ•ด์ฃผ๊ณ , ๊ทธ bounding box๋งˆ๋‹ค ํด๋ž˜์Šค ํ™•๋ฅ (class probabilities)์„ ๊ตฌํ•ด์ค๋‹ˆ๋‹ค. YOLO๋Š” ํ•˜๋‚˜์˜ ์‹ ๊ฒฝ๋ง ์ด๊ธฐ ๋•Œ๋ฌธ์— ํ…Œ์ŠคํŠธ ๋‹จ๊ณ„์—์„œ ๊ต‰์žฅํžˆ ๋น ๋ฆ…๋‹ˆ๋‹ค.
ํ•˜์ง€๋งŒ YOLO์˜ ๊ทธ๋ฆฌ๋“œ ๋””์ž์ธ์€ ํ•˜๋‚˜์˜ ๊ฐ์ฒด๋ฅผ ์—ฌ๋Ÿฌ ๊ทธ๋ฆฌ๋“œ ์…€์ด ๋™์‹œ์— ๊ฒ€์ถœํ•˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ์žˆ๋‹ค๋Š” ๋‹จ์ ์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ์ฆ‰, ํ•˜๋‚˜์˜ ๊ทธ๋ฆฌ๋“œ ์…€์ด ์•„๋‹Œ ์—ฌ๋Ÿฌ ๊ทธ๋ฆฌ๋“œ ์…€์—์„œ ํ•ด๋‹น ๊ฐ์ฒด์— ๋Œ€ํ•œ bounding box๋ฅผ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ๋‹ค์ค‘ ๊ฒ€์ถœ(multiple detections) ๋ฌธ์ œ๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค. ์ด๋Ÿฐ ๋‹ค์ค‘ ๊ฒ€์ถœ ๋ฌธ์ œ๋Š” non-maximal suppression๋ฐฉ๋ฒ•์„ ํ†ตํ•ด ๊ฐœ์„ ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด YOLO๋Š” mAP๋ฅผ 2~3%๊ฐ€๋Ÿ‰ ํ–ฅ์ƒ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค.
๋‹ค์Œ์˜ ppt ์ด๋ฏธ์ง€๋ฅผ ๋ณด์‹œ๋ฉด inference ๋‹จ๊ณ„์— ๋Œ€ํ•ด ๋”์šฑ ์ดํ•ดํ•˜๊ธฐ ์‰ฌ์šฐ์‹ค๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค.
ย 
notion image
ย 
notion image
*nms์— ๋Œ€ํ•œ ๋ณด์ถฉ ์„ค๋ช… ์ž๋ฃŒ : https://visionhong.tistory.com/11

2.4 Limitations of YOLO

  • YOLO๋Š” ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์˜ˆ์ธกํ•˜๋Š”๋ฐ์— ์˜ค์ง 2๊ฐœ์˜ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์™€ ํ•œ๊ฐœ์˜ ํด๋ž˜์Šค ์˜ˆ์ธก๋งŒ์„ ํ•œ๋‹ค๋Š” ํฐ ๊ณต๊ฐ„์ ์ธ ์ œ์•ฝ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ํ•˜๋‚˜์˜ ๊ทธ๋ฆฌ๋“œ ์…€์€ ์˜ค์ง ํ•˜๋‚˜์˜ ๊ฐ์ฒด๋งŒ ๊ฒ€์ถœํ•˜๋ฏ€๋กœ ํ•˜๋‚˜์˜ ๊ทธ๋ฆฌ๋“œ ์…€์— ๋‘ ๊ฐœ ์ด์ƒ์˜ ๊ฐ์ฒด๊ฐ€ ๋ถ™์–ด์žˆ๋‹ค๋ฉด ์ด๋ฅผ ์ž˜ ๊ฒ€์ถœํ•˜์ง€ ๋ชปํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ƒˆ ๋–ผ์™€ ๊ฐ™์ด ์ž‘์€ ๋ฌผ์ฒด๊ฐ€ ๋ชฐ๋ ค ์žˆ๋Š” ๊ฒฝ์šฐ, ํ•˜๋‚˜์˜ ๊ทธ๋ฆฌ๋“œ ์…€์€ ์˜ค์ง ํ•˜๋‚˜์˜ ๊ฐ์ฒด๋งŒ ๊ฒ€์ถœํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์—ฌ๋Ÿฌ ์ƒˆ ๋–ผ๋ฅผ ๋™์‹œ์— ๊ฒ€์ถœํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค.
  • YOLO ๋ชจ๋ธ์€ ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ bounding box๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์„ ํ•™์Šตํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํ›ˆ๋ จ ๋‹จ๊ณ„์—์„œ ํ•™์Šตํ•˜์ง€ ๋ชปํ–ˆ๋˜ ์ƒˆ๋กœ์šด ๋น„์œจ์˜ ๊ฐ์ฒด๋ฅผ ๋งˆ์ฃผํ•˜๋ฉด ์˜ˆ์ธก๋ ฅ์ด ๋–จ์–ด์ง‘๋‹ˆ๋‹ค.
  • YOLO ๋ชจ๋ธ์€ ํฐ bounding box์™€ ์ž‘์€ bounding box์˜ loss์— ๋Œ€ํ•ด ๋™์ผํ•œ ๊ฐ€์ค‘์น˜๋ฅผ ๋‘”๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ํฌ๊ธฐ๊ฐ€ ํฐ bounding box๋ณด๋‹ค ํฌ๊ธฐ๊ฐ€ ์ž‘์€ bounding box๊ฐ€ ์œ„์น˜ ๋ณ€ํ™”์— ๋”ฐ๋ฅธ IOU ๋ณ€ํ™”๊ฐ€ ๋” ์‹ฌํ•˜๊ธฐ ๋–„๋ฌธ์— ๋™์ผํ•œ ๊ฐ€์ค‘์น˜๋ฅผ ์ฃผ์–ด์„œ๋Š” ์•ˆ๋ฉ๋‹ˆ๋‹ค.
  • YOLO์˜ ์ฃผ์š” error๋Š” ๋ถ€์ •ํ™•ํ•œ localization ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค.

3. Comparison to Other Detection Systems

Deformable parts models(DPM)

๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ ์ค‘ ํ•˜๋‚˜์ธ DPM์€ ์Šฌ๋ผ์ด๋”ฉ ์œˆ๋„(sliding sindow)๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. DPM์€ ๋ถ„๋ฆฌ๋œ ํŒŒ์ด๋ผ์ดํ”„๋ผ์ธ์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๊ฐ๊ฐ์˜ ํŒŒ์ดํ”„๋ผ์ธ์ด ํŠน์ง• ์ถ”์ถœ(feature extraction), ์˜์—ญ ๋ถ„๋ฅ˜(region classification), bounding box ์˜ˆ์ธก(bounding box prediction)์„ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค. YOLO๋Š” ์ด๋ ‡๊ฒŒ ๋ถ„๋ฆฌ๋œ ํŒŒ์ดํ”„๋ผ์ธ์„ ๋‹จ์ผ ์ปจ๋ณผ๋ฃจ์…˜ ์‹ ๊ฒฝ๋ง์œผ๋กœ ๋Œ€์ฒดํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์ด ์‹ ๊ฒฝ๋ง์€ ํŠน์ง• ์ถ”์ถœ, ์˜์—ญ ๋ถ„๋ฅ˜, bounding box ์˜ˆ์ธก, ๋น„ ์ตœ๋Œ€ ์–ต์ œ(non-max suppression) ๋“ฑ์„ ํ•œ ๋ฒˆ์— ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ YOLO๋Š” DPM๋ณด๋‹ค ๋” ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.

R-CNN

R-CNN๊ณผ ๊ทธ ๋ณ€ํ˜•๋“ค์€ ๊ฐ์ฒด ๊ฒ€์ถœ์„ ์œ„ํ•ด ์Šฌ๋ผ์ด๋”ฉ ์œˆ๋„ ๋ฐฉ์‹ ๋Œ€์‹  region proposal ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. selective search๋ผ๋Š” ๋ฐฉ์‹์œผ๋กœ ์—ฌ๋Ÿฌ bounding box๋ฅผ ์ƒ์„ฑํ•˜๊ณ , ์ปจ๋ณผ๋ฃจ์…˜ ์‹ ๊ฒฝ๋ง์œผ๋กœ ํŠน์ง•์„ ์ถ”์ถœํ•˜๊ณ , SVM์œผ๋กœ bouning box์— ๋Œ€ํ•œ ์ ์ˆ˜๋ฅผ ๋งค๊น๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์„ ํ˜• ๋ชจ๋ธ๋กœ bounding box๋ฅผ ์กฐ์ •ํ•˜๊ณ , ๋น„ ์ตœ๋Œ€ ์–ต์ œ๋กœ ์ค‘๋ณต๋œ ๊ฒ€์ถœ์„ ์ œ๊ฑฐํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ณต์žกํ•œ ํŒŒ์ดํ”„๋ผ์ธ์˜ ๊ฐ ๋‹จ๊ณ„๋Š” ๋…๋ฆฝ์ ์œผ๋กœ ์ •๋ฐ€ํ•˜๊ฒŒ ํŠœ๋‹ํ•ด์•ผํ•˜๊ธฐ ๋•Œ๋ฌธ์— ํ•œ ์ด๋ฏธ์ง€๋‹น 40์ดˆ ์ด์ƒ ์†Œ์š”๋  ์ •๋„๋กœ ๋งค์šฐ ๋А๋ฆฝ๋‹ˆ๋‹ค.
YOLO์™€ R-CNN ์‚ฌ์ด์—๋Š” ๋ช‡ ์œ ์‚ฌํ•œ ๋ถ€๋ถ„์ด ์กด์žฌํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๊ทธ๋ฆฌ๋“œ ์…€์ด bouning box๋ฅผ ์˜ˆ์ธกํ•˜๊ณ , convolutional feature๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ทธ box์— ์ ์ˆ˜๋ฅผ ๋งค๊ธด๋‹ค๋Š” ๊ฒƒ์ด ๊ทธ์— ํ•ด๋‹นํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ YOLO๋Š” ๊ฐ ๊ทธ๋ฆฌ๋“œ ์…€์˜ ๊ณต๊ฐ„์  ์ œ์•ฝ์œผ๋กœ ์ธํ•ด ๋™์ผํ•œ ๊ฐ์ฒด์— ๋Œ€ํ•ด ์—ฌ๋Ÿฌ ๋ฒˆ ๊ฒ€์ถœ๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ R-CNN์— ๋น„ํ•ด ์ ์Šต๋‹ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  YOLO๋Š” R-CNN์— ๋น„ํ•ด ์˜ˆ์ธกํ•˜๋Š” bounding box์˜ ๊ฐœ์ˆ˜๋„ ํ›จ์”ฌ ์ ์Šต๋‹ˆ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ YOLO๋Š” ์ด ๋ชจ๋“  ์ž‘์—…๋“ค์„ ๋‹จ์ผ ๋ชจ๋ธ๋กœ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฐ์— ๊ฐ•์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.

4. Experiments

๋จผ์ € YOLO๋ฅผ ๋‹ค๋ฅธ ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ๊ณผ ๋น„๊ตํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. YOLO์™€ R-CNN ๋ณ€ํ˜•(Fast R-CNN) ๊ฐ„์˜ ์ฐจ์ด์ ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด PASCAL VOC 2007 ๋ฐ์ดํ„ฐ์…‹์—์„œ์˜ ์—๋Ÿฌ๋ฅผ ์กฐ์‚ฌํ•ด๋ดค์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ Fast R-CNN์€ ์ด ๋…ผ๋ฌธ์ด ๋‚˜์˜จ ๋‹น์‹œ ๊ฐ€์žฅ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋ณด์˜€๋˜ R-CNN๊ณ„์—ด์˜ ๋ชจ๋ธ์ด์—ˆ์Šต๋‹ˆ๋‹ค.

4.1 Comparison to Other Real-Time Systems

๊ฐ์ฒด ๊ฒ€์ถœ์— ๋Œ€ํ•œ ๋งŽ์€ ์—ฐ๊ตฌ๋“ค์€ ํ‘œ์ค€ ๊ฐ์ฒด ๊ฒ€์ถœ ํŒŒ์ดํ”„๋ผ์ธ์„ ๋น ๋ฅด๊ฒŒ ๋งŒ๋“œ๋Š” ๋ฐ ์ค‘์ ์„ ๋‘๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ GPU๋ฒ„์ „์˜ YOLO์™€ 30Hz ๋˜๋Š” 100Hz์—์„œ ์‹คํ–‰๋˜๋Š” DPM์˜ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•ด๋ณด์•˜์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์ƒ๋Œ€ mAP์™€ ์†๋„๋ฅผ ๋น„๊ตํ•˜์—ฌ ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ์—์„œ ์‚ฌ์šฉํ•  ์ˆ˜ ์žˆ๋Š” ์ •ํ™•๋„-์„ฑ๋Šฅ tradeoff๋ฅผ ์—ฐ๊ตฌํ•ฉ๋‹ˆ๋‹ค.
Fast YOLO๋Š” PASCAL ๊ธฐ์ค€์œผ๋กœ ๊ฐ€์žฅ ๋น ๋ฅธ ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. mAP๋Š” 57.2%๋กœ DPM๋ณด๋‹ค ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ๊ฒ€์ถœ์— ์žˆ์–ด 2๋ฐฐ ์ด์ƒ ์ •ํ™•ํ•ฉ๋‹ˆ๋‹ค. YOLO๋Š” ์‹ค์‹œ๊ฐ„ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋ฉด์„œ mAP๋ฅผ 63.4%๊นŒ์ง€ ๋†’์˜€์Šต๋‹ˆ๋‹ค.
์—ฐ๊ตฌ์ง„์€ VGG-16์„ ์‚ฌ์šฉํ•˜์—ฌ YOLO๋ฅผ ํ›ˆ๋ จ์‹œ์ผฐ์Šต๋‹ˆ๋‹ค. ์ด ๋ชจ๋ธ์€ ์ผ๋ฐ˜์ ์ธ YOLO๋ณด๋‹ค ์ •ํ™•ํ•˜์ง€๋งŒ ํ›จ์”ฌ ์†๋„๊ฐ€ ๋А๋ฆฝ๋‹ˆ๋‹ค. VGG-16์„ ์‚ฌ์šฉํ•˜๋Š” ๋‹ค๋ฅธ ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ๊ณผ ๋น„๊ตํ•˜๋Š” ๋ฐ์—๋Š” ์œ ์šฉํ•˜์ง€๋งŒ ์‹ค์‹œ๊ฐ„ ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ๋กœ ์‚ฌ์šฉํ•˜๊ธฐ์—๋Š” ๋А๋ฆฌ๊ธฐ ๋•Œ๋ฌธ์— ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ์†๋„๊ฐ€ ๋” ๋น ๋ฅธ ๋ชจ๋ธ(YOLO)์— ์ค‘์ ์„ ๋‘์–ด ์„ค๋ช…ํ–ˆ์Šต๋‹ˆ๋‹ค.
Fast DPM์€ mAP๋ฅผ ๋งŽ์ด ํ•˜๋ฝ์‹œํ‚ค์ง€ ์•Š์œผ๋ฉด์„œ DPM์˜ ์†๋„๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ๊ฐ€์†ํ™”ํ•˜์ง€๋งŒ, ์‹ค์‹œ๊ฐ„ ๊ฒ€์ถœ์— ํ™œ์šฉํ•˜๊ธฐ์—๋Š” ์—ฌ์ „ํžˆ ๋ถ€์กฑํ•œ ์†๋„๋ฅผ ๋ณด์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ์‹ ๊ฒฝ๋ง ์ ‘๊ทผ ๋ฐฉ์‹์— ๋น„ํ•ด DPM์˜ ๊ฒ€์ถœ ์ •ํ™•๋„๊ฐ€ ์ƒ๋Œ€์ ์œผ๋กœ ๋‚ฎ์€ ํŽธ์ž…๋‹ˆ๋‹ค.
R-CNN minus R์€ selective search๋ฅผ static bounding box proposal๋กœ ๋Œ€์ฒดํ•œ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. R-CNN๋ณด๋‹ค๋Š” ํ›จ์”ฌ ๋น ๋ฅด์ง€๋งŒ, ์‹ค์‹œ๊ฐ„ ๊ฒ€์ถœ์— ์‚ฌ์šฉํ•˜๊ธฐ์—๋Š” ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค.
Fast R-CNN์€ R-CNN์˜ ๋ถ„๋ฅ˜ ๋‹จ๊ณ„๋ฅผ ๊ฐ€์†ํ™”ํ–ˆ์ง€๋งŒ, ์ด๋ฏธ์ง€๋‹น bounding box proposal๋ฅผ ์œ„ํ•ด ์•ฝ 2์ดˆ๊ฐ€ ์†Œ์š”๋˜๋Š” selctive search์— ์˜์กดํ•ฉ๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋†’์€ mAP๋ฅผ ๊ฐ–์ง€๋งŒ ์—ฌ์ „ํžˆ ์‹ค์‹œ๊ฐ„ ๊ฒ€์ถœ์—๋Š” ๋ถ€์กฑํ•ฉ๋‹ˆ๋‹ค.
์ตœ๊ทผ์˜ Fast R-CNN์€ bounding box proposal์„ ์œ„ํ•ด selective search ๋Œ€์‹  ์‹ ๊ฒฝ๋ง์„ ์‚ฌ์šฉํ•˜๊ธด ํ•ฉ๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์ด ํ…Œ์ŠคํŠธํ•œ ๊ฒฐ๊ณผ, ๊ฐ€์žฅ ์ •ํ™•ํ•œ ๋ชจ๋ธ์€ ์ดˆ๋‹น 7ํ”„๋ ˆ์ž„์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์—ˆ๊ณ , ์•ฝ๊ฐ„ ๋” ์ž‘๊ณ  ์ •ํ™•๋„๊ฐ€ ๋‚ฎ์€ ๋ชจ๋ธ์€ 18ํ”„๋ ˆ์ž„์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. VGG-16 ๋ฒ„์ „์˜ Fast R-CNN์€ YOLO์— ๋น„ํ•ด mAP๊ฐ€ 10 ์ •๋„ ๋†’์ง€๋งŒ ์†๋„๊ฐ€ 6๋ฐฐ ๋А๋ฆฝ๋‹ˆ๋‹ค. Zeiler-Fergus Faster R-CNN์€ YOLO๋ณด๋‹ค 2.5๋ฐฐ ๋” ๋А๋ฆฌ๋ฉด์„œ ์ •ํ™•๋„๋„ ๋” ๋‚ฎ์•˜์Šต๋‹ˆ๋‹ค.
์•„๋ž˜ ํ‘œ๋Š” ์—ฌ๋Ÿฌ ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ๋“ค์˜ ์ •ํ™•๋„(mAP)์™€ ์†๋„(FPS)๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. Fast YOLO๋Š” ๊ฐ€์žฅ ๋น ๋ฅธ ์†๋„๋ฅผ ๋ณด์—ฌ์ฃผ๋ฉฐ, ๋‹ค๋ฅธ ์‹ค์‹œ๊ฐ„ ๊ฒ€์ถœ ๋ชจ๋ธ์— ๋น„ํ•ด 2๋ฐฐ ๋” ์ •ํ™•ํ•ฉ๋‹ˆ๋‹ค. YOLO๋Š” ๋น ๋ฅธ ๋ฒ„์ „๋ณด๋‹ค ์•ฝ 10mAP ์ •๋„ ๋” ์ •ํ™•ํ•˜๊ณ  ์ดˆ๋‹น 45ํ”„๋ ˆ์ž„์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์–ด ์‹ค์‹œ๊ฐ„ ๊ฒ€์ถœ ๋ชจ๋ธ๋กœ ์ ์ ˆํ•ฉ๋‹ˆ๋‹ค.
notion image

4.2 VOC 2007 Error Analysis

YOLO์™€ ์ตœ๊ทผ ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ๋“ค๊ฐ„์˜ ๋” ์ž์„ธํ•œ ๋น„๊ต๋ฅผ ์œ„ํ•ด VOC 2007 ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๋จผ์ € YOLO์™€ ๊ฐ€์žฅ ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ด๋˜ ๋ชจ๋ธ ์ค‘ ํ•˜๋‚˜์ธ Fast R-CNN์„ ๋น„๊ตํ•ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด Diagnosing erro in object detectors ๋…ผ๋ฌธ์— ์–ธ๊ธ‰๋œ ์ธก์ • ๋ฐฉ๋ฒ•๋ก ์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ์˜ˆ์ธก์ด ์ •ํ™•ํ•œ์ง€, ํ‹€๋ ธ๋‹ค๋ฉด ์–ด๋–ค erroy type์ธ์ง€๋ฅผ ๋ถ„๋ฅ˜ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์ค€์€ ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.
  • Correct: correct class, IOU > 0.5
  • Localization: correct class, 0.1 < IOU < 0.5
  • Similar: class is similar, IOU > 0.1
  • Other: class is wrong, IOU > 0.1
  • Background: IOU < 0.1 for any object
ย 
<Fast R-CNN vs. YOLO>
notion image
์œ„ ๊ทธ๋ฆผ์€ ์ด 20๊ฐœ์˜ class์— ๊ฑธ์นœ error type์˜ ๋ถ„์„ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. YOLO(19%)๋Š” Fast R-CNN(8.6%)์— ๋น„ํ•ด ์ƒ๋Œ€์ ์œผ๋กœ ํฐ Localization ์˜ค๋ฅ˜๋ฅผ ๋ณด์ž…๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ Background error์— ๋Œ€ํ•ด์„œ๋Š” Fast R-CNN(13.6%)์ด YOLO(4.75%)๋ณด๋‹ค ํฐ ๊ฒƒ์„ ์•Œ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Background error๋Š” ์ด๋ฏธ์ง€์— ์–ด๋– ํ•œ ๊ฐ์ฒด๋„ ์—†๋Š”๋ฐ ๊ฐ์ฒด๊ฐ€ ์žˆ๋‹ค๊ณ  ์ž˜๋ชป ํŒ๋‹จํ•˜๋Š” false positive error์ž…๋‹ˆ๋‹ค. Fast R-CNN์€ YOLO๋ณด๋‹ค Background error๊ฐ€ ์•ฝ 3๋ฐฐ ๋” ํฝ๋‹ˆ๋‹ค.

4.3 Combining Fast R-CNN and YOLO

YOLO๋Š” Fast R-CNN์— ๋น„ํ•ด Background error๊ฐ€ ๋” ์ ์Šต๋‹ˆ๋‹ค. Fast R-CNN์— YOLO๋ฅผ ๊ฒฐํ•ฉํ•จ์œผ๋กœ์จ ํ•ด๋‹น ์˜ค๋ฅ˜๋ฅผ ์ œ๊ฑฐํ•˜๊ณ  ํฌ๊ฒŒ ์„ฑ๋Šฅ์„ ํ–ฅ์ƒ์‹œํ‚ฌ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋จผ์ € ๋ชจ๋“  R-CNN์ด ์˜ˆ์ธกํ•˜๋Š” ๋ชจ๋“  bounding box์— ๋Œ€ํ•ด YOLO๊ฐ€ ์œ ์‚ฌํ•˜๊ฒŒ ์˜ˆ์ธกํ•˜๋Š”์ง€๋ฅผ ํ™•์ธํ•ฉ๋‹ˆ๋‹ค. ๋งŒ์•ฝ ๋‘ ๋ชจ๋ธ์ด bounding box๋ฅผ ์œ ์‚ฌํ•˜๊ฒŒ ์˜ˆ์ธกํ•œ๋‹ค๋ฉด, YOLO์˜ ์˜ˆ์ธก ํ™•๋ฅ ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋‘ bounding box๊ฐ€ ๊ฒน์น˜๋Š” ๋ถ€๋ถ„์„ bounding box๋กœ ์ง€์ •ํ•ฉ๋‹ˆ๋‹ค.
VOC 2007 ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ๊ฐ€์žฅ ์„ฑ๋Šฅ์ด ์ข‹์€ Fast R-CNN์€ 71.8%์˜ mAP๋ฅผ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ Fast R-CNN์— YOLO๋ฅผ ๊ฒฐํ•ฉํ•˜๋ฉด mAP๊ฐ€ 3.5% ์ฆ๊ฐ€ํ•˜์—ฌ 75%๋กœ ํ–ฅ์ƒ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ ์—ฐ๊ตฌ์ง„์€ Fast R-CNN์— ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค์„ ์•™์ƒ๋ธ” ํ•ด๋ณด์•˜์ง€๋งŒ mAP ํ–ฅ์ƒ์˜ ์ •๋„๊ฐ€ 0.3%, 0.6%์— ๊ทธ์ณค์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ Fast R-CNN์„ ๊ทธ๋Œ€๋กœ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค๋Š” YOLO๋ฅผ ๊ฒฐํ•ฉํ•œ ๋ชจ๋ธ์„ ์‚ฌ์šฉํ•˜๋ฉด ๋” ์ข‹์€ ์„ฑ๋Šฅ์„ ๊ธฐ๋Œ€ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ž์„ธํ•œ ์‚ฌํ•ญ์€ ์•„๋ž˜ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.
notion image

4.4 VOC 2012 Results

VOC 2012 ๋ฐ์ดํ„ฐ์…‹์—์„œ YOLO๋Š” 57.9% mAP๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” VGG-16์„ ์‚ฌ์šฉํ•œ R-CNN์˜ mAP์™€ ๋น„์Šทํ•ฉ๋‹ˆ๋‹ค. ์•„๋ž˜ ํ‘œ๋ฅผ ๋ณด๋ฉด YOLO์˜ ์†๋„๊ฐ€ ๊ฐ€์žฅ ๋น ๋ฅด๊ณ  Fast R-CNN๊ณผ YOLO๋ฅผ ๊ฒฐํ•ฉํ•œ ๋ชจ๋ธ์ด ๊ฐ€์žฅ ์ •ํ™•๋„๊ฐ€ ์ข‹์€ ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
notion image

4.5 Generalizability: Person Detection in Artwork

๊ฐ์ฒด ๊ฒ€์ถœ์„ ์œ„ํ•ด ์‚ฌ์šฉ๋˜๋Š” ๋ฐ์ดํ„ฐ์…‹์€ ๋™์ผํ•œ ๋ถ„ํฌ๋กœ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹๊ณผ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์‹ค์ œ ์‘์šฉ ํ”„๋กœ๊ทธ๋žจ์—์„œ๋Š” ๊ฐ€๋Šฅํ•œ ๋ชจ๋“  ์‚ฌ๋ก€๋ฅผ ์˜ˆ์ธกํ•˜๊ธฐ ์–ด๋ ต๊ณ  ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ์…‹๊ณผ ํ…Œ์ŠคํŠธ ๋ฐ์ดํ„ฐ์…‹์˜ ๋ถ„ํฌ๊ฐ€ ๋‹ค๋ฅผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด์— ์—ฐ๊ตฌ์ง„์€ ๊ฐ ๋ฐ์ดํ„ฐ์…‹์˜ ๋ถ„ํฌ๊ฐ€ ๋‹ค๋ฅธ ๊ฒฝ์šฐ์—์„œ์˜ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•˜๊ธฐ ์œ„ํ•ด ์˜ˆ์ˆ  ์ž‘ํ’ˆ์„ ํ™œ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋•Œ Picasso ๋ฐ์ดํ„ฐ์…‹๊ณผ People-Art ๋ฐ์ดํ„ฐ์…‹์„ ์‚ฌ์šฉํ•˜์˜€์œผ๋ฉฐ, YOLO๋ฅผ ๋‹ค๋ฅธ ๊ฐ์ฒด ๊ฒ€์ถœ ์‹œ์Šคํ…œ๊ณผ ๋น„๊ตํ•˜์˜€์Šต๋‹ˆ๋‹ค.
์•„๋ž˜ ๊ทธ๋ฆผ์€ YOLO์™€ ๋‹ค๋ฅธ ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋น„๊ตํ•œ ๊ทธ๋ฆผ์ž…๋‹ˆ๋‹ค. R-CNN์€ VOC 2007์—์„œ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋ณด์ด์ง€๋งŒ ์˜ˆ์ˆ  ์ž‘ํ’ˆ์— ๋Œ€ํ•ด์„œ๋Š” ํ˜„์ €ํžˆ ๋‚ฎ์€ ์ •ํ™•๋„๋ฅผ ๋ณด์ž…๋‹ˆ๋‹ค. DPM์€ VOC 2007์—์„œ ๋งค์šฐ ๋†’์€ ํŽธ์˜ ์ •ํ™•๋„๋ฅผ ๋ณด์ด๋Š”๊ฑด ์•„๋‹ˆ์ง€๋งŒ ์˜ˆ์ˆ  ์ž‘ํ’ˆ์— ๋Œ€ํ•ด์„œ ์ •ํ™•๋„๊ฐ€ R-CNN์ฒ˜๋Ÿผ ํฌ๊ฒŒ ๋–จ์–ด์ง€์ง€๋Š” ์•Š์•˜์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด YOLO๋Š” VOC 2007์—์„œ๋„ ๊ฐ€์žฅ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋ณด์˜€๊ณ , ์˜ˆ์ˆ  ์ž‘ํ’ˆ์— ๋Œ€ํ•ด์„œ๋„ ๋น„์Šทํ•œ ์ˆ˜์ค€์˜ ์ •ํ™•๋„๋ฅผ ์œ ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค.
notion image

5. Real-Time Detection In The Wild

YOLO๋Š” ๊ฐ์ฒด๋ฅผ ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ๊ฒ€์ถœํ•  ์ˆ˜ ์žˆ์–ด ์ปดํ“จํ„ฐ ๋น„์ „ ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜์— ํ™œ์šฉํ•˜๊ธฐ ์ด์ƒ์ ์ธ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ์—ฐ๊ตฌ์ง„์€ YOLO๋ฅผ ์›น์บ ๊ณผ ์—ฐ๊ฒฐํ•˜์—ฌ ์‹ค์‹œ๊ฐ„์œผ๋กœ ๊ฐ์ฒด๋ฅผ ์–ผ๋งˆ๋‚˜ ์ž˜ ๊ฒ€์ถœํ•ด๋‚ด๋Š”์ง€ ํ™•์ธํ•˜์˜€์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์›น์‚ฌ์ดํŠธ(http://pjreddie.com/yolo/)๋ฅผ ํ†ตํ•ด ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
notion image

6. Conclusion

๊ฐ์ฒด ๊ฒ€์ถœ์„ ์œ„ํ•œ ํ†ตํ•ฉ ๋ชจ๋ธ์ธ YOLO์— ๋Œ€ํ•ด ์†Œ๊ฐœํ–ˆ์Šต๋‹ˆ๋‹ค. Fast YOLO๋Š” ๋ณธ๋ฌธ์—์„œ ๊ฐ€์žฅ ๋น ๋ฅธ ๋ฒ”์šฉ ๊ฐ์ฒด ๊ฒ€์ถœ ๋ชจ๋ธ์ด๋ฉฐ, YOLO๋Š” ๊ตฌ์„ฑ์ด ๊ฐ„๋‹จํ•˜๊ณ  ์‹ค์‹œ๊ฐ„ ๋ฌผ์ฒด ๊ฒ€์ถœ์— ์žˆ์–ด ์ตœ๊ณ ์˜ ์„ฑ๋Šฅ์„ ๋ณด์ด๋Š” ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ ์ƒˆ๋กœ์šด ๋„๋ฉ”์ธ์—๋„ ์ž˜ ์ผ๋ฐ˜ํ™”๋˜๋ฏ€๋กœ ํ›ˆ๋ จ ๋‹จ๊ณ„์—์„œ ๋ณด์ง€ ๋ชปํ•œ ์ƒˆ๋กœ์šด ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด์„œ๋„ ๊ฐ์ฒด๋ฅผ ์ž˜ ๊ฒ€์ถœํ•ด๋ƒ…๋‹ˆ๋‹ค. ๊ฒฐ๋ก ์ ์œผ๋กœ YOLO๋Š” ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•œ ๊ฐ์ฒด ๊ฒ€์ถœ์„ ํ•„์š”๋กœํ•˜๋Š” ์• ํ”Œ๋ฆฌ์ผ€์ด์…˜๋“ค์— ์‚ฌ์šฉํ•˜๊ธฐ ๋งค์šฐ ์ด์ƒ์ ์ธ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
ย 
ย 
์ฐธ๊ณ ์ž๋ฃŒ :
ย 

๋‹ค์Œ ๊ธ€ ์ฝ๊ธฐ