cleanUrl: "paper/YOLOv1"
๋
ผ๋ฌธ : You Look Only Once : Unified, Real-Time Object Detection
์ ์ : Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadi
0. ๋
ผ๋ฌธ ์ ์ ๋ฐฐ๊ฒฝ1. Introduction2. Unified Detection1) confidence score ๊ณต์2) C(class์ ๋ํ ์กฐ๊ฑด๋ถํ๋ฅ ๊ฐ) ๊ณต์3) class-specific confidence scores2.1 Network Design2.2 Training2.3 Inference2.4 Limitations of YOLO3. Comparison to Other Detection SystemsDeformable parts models(DPM)R-CNN4. Experiments4.1 Comparison to Other Real-Time Systems4.2 VOC 2007 Error Analysis4.3 Combining Fast R-CNN and YOLO4.4 VOC 2012 Results4.5 Generalizability: Person Detection in Artwork5. Real-Time Detection In The Wild6. Conclusion๋ค์ ๊ธ ์ฝ๊ธฐ
ย
*Object Detection :ย Multiple objects์์ ๊ฐ๊ฐ์ object์ ๋ํด Classification + Localization์ ์ํํ๋ ๊ฒ
0. ๋ ผ๋ฌธ ์ ์ ๋ฐฐ๊ฒฝ
Yolo๋ Object detection ๋ถ์ผ์ ๋ํ์ ์ธ real-time ๋ชจ๋ธ ์ค ํ๋๋ก, ํ์ฌ ๋
ผ๋ฌธ์ผ๋ก ๊ธฐ์ฌ๋ ๋ฒ์ ์ ๋ฒ์ 4๊น์ง ๋์ฌ์ ๋๋ก ์ ๋ช
ํ ๋ชจ๋ธ์
๋๋ค. ์ด๋ฒ ๊ธฐํ๋ก ์ฌ๋ฌ ์๋ฆฌ์ฆ์ ์๋ก ๋ชจ๋ธ๋ค์ ์ฐจ๊ทผ์ฐจ๊ทผ ์ฝ์ด๋ณด๊ณ ์ถ์ด ์ ์ ํ๊ฒ ๋์์ต๋๋ค.
1. Introduction
์ฌ๋์ ์ด๋ฏธ์ง๋ฅผ ๋ณด๋ฉด ์ด๋์ ๋ฌด์์ด ์๋์ง ํ ๋ฒ์ ํ์
ํ ์ ์์ต๋๋ค. ์ด์ฒ๋ผ ๋น ๋ฅด๊ณ ์ ํํ ์ธ๊ฐ์ ์๊ฐ์ฒด๊ณ์ ๋น์ทํ๊ฒ ์๋ํ ์ ์๋๋ก YOLO๋ย single neural network๋ก ๊ตฌ์ฑ๋์์ต๋๋ค.
์ด์ ์ detection ๋ชจ๋ธ๋ค์
1) DPM(deformable parts models)
: sliding window ๋ฐฉ์์ ์ฌ์ฉํ์ฌ ์ด๋ฏธ์ง ์ ์ฒด์ ๋ํ์ฌ ๊ฐ๊ฒฉ์ด ์กด์ฌํ๋ ๋ถ๋ถ๋ classifier๊ฐ ๊ณ์ฐ
*sliding window๋ฐฉ์ : ์ด๋ฏธ์ง์์ ๋ฌผ์ฒด๋ฅผ ์ฐพ๊ธฐ ์ํด window์ (ํฌ๊ธฐ, ๋น์จ)์ ์์๋ก ๋ง๊ตฌ ๋ฐ๊ฟ๊ฐ๋ฉด์ ๋ชจ๋ ์์ญ์ ๋ํด์ ํ์ํ๋ ๊ฒ
2) R-CNN
- localization๊ณผ classification ํํธ๊ฐ ๋ถ๋ฆฌ ๋์ด ์๋ 2-stage-detector(1. Region Proposal์ ํตํด Object๊ฐ ์์๋ฒํ ์์ญ์ ์ฐพ๊ณ , 2. CNN์ผ๋ก ๊ฐ๊ฐ์ ์์ญ์ผ๋ก๋ถํฐ ๊ณ ์ ๋ ํฌ๊ธฐ์ Feature Vector๋ฅผ ๋ฝ์๋ธ ํ, Classification ์งํ)
โ 2๊ฐ์ ๋จ๊ณ๊ฐ ๋
๋ฆฝ์ ์ผ๋ก ํ์ต๋๊ธฐ ๋๋ฌธ์ ์ต์ ํ๋๋๋ฐ์ ์๋๊ฐ ๋๋ฆฐ ๋ณต์กํ ๊ตฌ์กฐ
*https://ganghee-lee.tistory.com/35 : R-CNN์ ๋ํด ๊ถ๊ธํ์ ๋ถ์ ์ด ๋งํฌ๋ฅผ ์ฐธ๊ณ ํ์๋ฉด ์ข์ ๊ฒ ๊ฐ์ต๋๋ค.
ย
YOLO๋ ์ด์ ๋ค๋ฅด๊ฒ, ์ด๋ฏธ์ง์ ํฝ์
๋ก๋ถํฐ bounding box์ ์์น(coordinates), ํด๋์ค ํ๋ฅ (class probabilities)์ ๊ตฌํ๊ธฐ๊น์ง์ ์ผ๋ จ์ ์ ์ฐจ๋ฅผ ํ๋์ ํ๊ท ๋ฌธ์ ๋ก ์ฌ์ ์ํ ๊ฒ์
๋๋ค.
๋
ผ๋ฌธ๋ช
๊ทธ๋๋ก, you only look once, ์ด๋ฏธ์ง๋ฅผ ํ ๋ฒ๋ง ๋ณด๋ฉด ๊ฐ์ฒด๋ฅผ ๊ฒ์ถํ ์ ์๋คํ์ฌ ์ด๋ฆ์ด YOLO์
๋๋ค.
YOLO์ ์ด๋ฐ ํตํฉ๋ ๋ชจ๋ธ์ ๊ธฐ์กด์ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ์ ๋นํด ์ฌ๋ฌ ๊ฐ์ง ์ฅ์ ์ด ์์ต๋๋ค.
1) YOLO๋ ๋งค์ฐ ๋น ๋ฆ
๋๋ค.
๊ธฐ์กด์ ๋ณต์กํ ๊ฐ์ฒด ๊ฒ์ถ ํ๋ก์ธ์ค๋ฅผ ํ๋์ ํ๊ท ๋ฌธ์ ๋ก ๋ณํํด ๋จ์ํ ํ์๊ธฐ ๋๋ฌธ์ ์ค์๊ฐ์ผ๋ก detection์ด ๊ฐ๋ฅํด์ก์ต๋๋ค.
YOLO ๊ธฐ๋ณธ ๋คํธ์ํฌ๋ Titan X GPU์์ ๋ฐฐ์น ์ฒ๋ฆฌ ์์ด 45fps, Fast YOLO๋ 150fps ์๋๋ฅผ ์ง๋ ์ ๋๋ก ๋น ๋ฅธ real-time detector์ด๋ฉฐ, ๋ค๋ฅธ ์ค์๊ฐ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ๋ณด๋ค 2๋ฐฐ ์ด์์ mAP(mean average precision)๋ฅผ ๊ฐ์ต๋๋ค.
2) YOLO๋ ์์ธก์ ํ ๋ ์ด๋ฏธ์ง ์ ์ฒด๋ฅผ ๋ด
๋๋ค.
slding window์ region proposal ๋ฐฉ์๊ณผ ๋ค๋ฅด๊ฒ ํ๋ จ๊ณผ ํ
์คํธ ๋จ๊ณ์์ ์ด๋ฏธ์ง ์ ์ฒด๋ฅผ ๋ณด๊ธฐ ๋๋ฌธ์ ์ฃผ๋ณ ์ ๋ณด๊น์ง ํฌํจํ๊ณ ์์ต๋๋ค. ๋ฐ๋ผ์ yolo ์ด์ ์ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ ์ค ์ฑ๋ฅ์ด ๊ฐ์ฅ ์ข์๋ Fast R-CNN์ ๋นํด background error๊ฐ 2๋ฐฐ ์ด์ ์ ์ต๋๋ค.
*background error : ๋ฌผ์ฒด๊ฐ ์๋ ๋ฐฐ๊ฒฝ(background)์ ๋ฐ์ ์ด๋ ๋
ธ์ด์ฆ๊ฐ ์์๋ ๊ทธ๊ฒ์ ๋ฌผ์ฒด๋ก ์ธ์
3) YOLO๋ ๋ฌผ์ฒด์ ์ผ๋ฐ์ ์ธ ๋ถ๋ถ์ ํ์ตํฉ๋๋ค.
๋ค๋ฅธ ๋ชจ๋ธ์ ๋นํด YOLO๋ ํ๋ จ ๋จ๊ณ์์ ๋ณด์ง ๋ชปํ ์๋ก์ด ์ด๋ฏธ์ง์ ๋ํด ๋ robustํฉ๋๋ค.
ex) ์์ฐ ์ด๋ฏธ์ง๋ฅผ ํ์ตํ์ฌ ๊ทธ๋ฆผ ์ด๋ฏธ์ง๋ก ํ
์คํธํ ๋, YOLO์ ์ฑ๋ฅ์ DPM์ด๋ R-CNN๋ณด๋ค ์๋ฑํ ๋ฐ์ด๋ฉ๋๋ค.
ย
ํ์ง๋ง YOLO๋ ๋น์์ sota ๋ชจ๋ธ๋ค์ ๋นํด ์ ํ๋๊ฐ ๋ค์ ๋จ์ด์ง๋ค๋ ๋จ์ ์ด ์กด์ฌํฉ๋๋ค.
YOLO๋ ๋น ๋ฅด๊ฒ ๊ฐ์ฒด๋ฅผ ๊ฒ์ถํ ์ ์๋ ๋ฐ๋ฉด, ์์ ๋ฌผ์ฒด์ ๋ํด์ ์ ํ๋๊ฐ ๋จ์ด์ง๋๋ค.
2. Unified Detection
YOLO๋ localization๊ณผ classification์ ๋์์ ์งํํ๋ single neural network์
๋๋ค. ๋ฐ๋ผ์ end-to-end ํ์ต์ด ๊ฐ๋ฅํ๋ฉฐ ๋์ ์ ํ๋๋ฅผ ์ ์งํ๋ฉด์ ์ค์๊ฐ ๊ฐ์ฒด ๊ฒ์ถ์ด ๊ฐ๋ฅํ ๋ชจ๋ธ์
๋๋ค
์
๋ ฅ ์ด๋ฏธ์ง๋ฅผ S x S ๊ทธ๋ฆฌ๋๋ก ๋๋๋๋ค. ๋ง์ฝ ์ด๋ค ๊ฐ์ฒด์ ์ค์ฌ์ด ํน์ ๊ทธ๋ฆฌ๋ ์
์์ ์์นํ๋ค๋ฉด, ๊ทธ ๊ทธ๋ฆฌ๋ ์
์ ๊ฐ์ฒด๋ฅผ ๊ฒ์ถํ๋๋ฐ์ responsibleํ ์
์
๋๋ค.
๊ฐ๊ฐ์ ๊ทธ๋ฆฌ๋ ์
์ B๊ฐ์ ๋ฐ์ด๋ฉ ๋ฐ์ค์, ๊ฐ ๋ฐ์ค์ ๋ํ confidence score๋ฅผ ์์ธกํฉ๋๋ค.
์
๋๋ค. confidence score๋ ๋ค์์ ์์ผ๋ก ๋ํ๋ผ ์ ์์ต๋๋ค. ๋ง์ฝ ๊ทธ๋ฆฌ๋ ์
์ ๋ฌผ์ฒด๊ฐ ์๋ค๋ฉด ๊ฐ์ 0์ด ๋ฉ๋๋ค. (P(Object)=0์ด๊ธฐ ๋๋ฌธ)
ย
1) confidence score ๊ณต์
ย
ย
IOU(intersection over union) = (์ค์ bounding box์ ์์ธก bounding box์ ๊ต์งํฉ) / (์ค์ bounding box์ ์์ธก bounding box์ ํฉ์งํฉ)
ย
๊ฐ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ 5๊ฐ(x, y, w, h, confidence score)์ ์์ธก๊ฐ์ ๊ฐ์ง๊ณ ์์ต๋๋ค. x, y, w, h๋ ์ ๋ ์์น๊ฐ ์๋๋ผ ๊ทธ๋ฆฌ๋ ์
๋ด์ ์๋ ์์น๋ฅผ ๊ฐ์ ธ 0~1 ์ฌ์ด์ ๊ฐ์ ๊ฐ์ต๋๋ค.
(x,y) : ๋ฐ์ด๋ฉ๋ฐ์ค์ ์ค์ฌ์ขํ(์๋์์น)
(w,h) : ๋ฐ์ด๋ฉ๋ฐ์ค์ ์๋ ๋๋น์ ์๋ ๋์ด
ย
2) C(class์ ๋ํ ์กฐ๊ฑด๋ถํ๋ฅ ๊ฐ) ๊ณต์
<ํ๋ฅ ์ด ๊ฐ์ฅ ๋์ class = ๊ทธ๋ฆฌ๋ ์
์ class>
ย
๊ฐ ๊ทธ๋ฆฌ๋ ์
์ C(conditional class probabilities)๋ฅผ ์์ธกํ๋๋ฐ, ์ด๋ ๊ทธ๋ฆฌ๋ ์
์์ ๊ฐ์ฒด๊ฐ ์์ ๋ ๊ทธ ๊ฐ์ฒด๊ฐ ์ด๋ค ํด๋์ค์ธ์ง ๋ํ๋ด๋ ์กฐ๊ฑด๋ถ ํ๋ฅ ๊ฐ์
๋๋ค. ๊ทธ๋ฆฌ๋ ์
์ ๋ช ๊ฐ์ ๋ฐ์ด๋ฉ ๋ฐ์ค๊ฐ ์๋์ง์๋ ๋ฌด๊ดํ๊ฒ ํ๋์ ๊ทธ๋ฆฌ๋ ์
์๋ ์ค์ง ํ๋์ ํด๋์ค(class)์ ๋ํ ํ๋ฅ ๊ฐ๋ง์ ๊ตฌํฉ๋๋ค.
ย
3) class-specific confidence scores
ํ
์คํธ ๋จ๊ณ์์ 1)confidence score๊ณผ 2)์กฐ๊ฑด๋ถ ํ๋ฅ ๊ฐ์ ๊ณฑํ๋ฉด ๊ฐ ๋ฐ์ค์์ ํด๋์ค์ ๋ํ ๊ตฌ์ฒด์ ์ธ confidence score๋ฅผ ๊ตฌํ ์ ์์ต๋๋ค. ์ด score๋ย bounding box์ ํน์ ํด๋์ค ๊ฐ์ฒด๊ฐ ๋ํ๋ ํ๋ฅ ๊ณผย ์์ธก๋ bounding box๊ฐ ๊ทธ ํด๋์ค ๊ฐ์ฒด์ ์ผ๋ง๋ ์ ๋ง์ถ๋์ง๋ฅผ ๋ํ๋
๋๋ค.
tensor์ ํฌ๊ธฐ : S x S x (B * 5 + C)
- 7 x 7 x 30 == S x S x (5 x B + C)
- S = ๊ทธ๋ฆฌ๋ ๊ฐ์ : 7
- 5 = (cx, cy, w, h, confidence)
- B = ๋ฐ์ด๋ฉ๋ฐ์ค ๊ฐ์ : 2
- C = classes : 20 (PASCAL VOC dataset) ์ ์ฌ์ฉ
2.1 Network Design
CNN๋ชจ๋ธ์ธ GoogLeNet์ ๋คํธ์ํฌ ๊ตฌ์กฐ๋ฅผ ๋ชจํฐ๋ธ๋ก ํ์๊ณ ์ด 24๊ฐ์ conv layer์ 2๊ฐ์ FC layer๋ฅผ ํฌํจํ๊ณ ์์ต๋๋ค. convolutional layer์ ์ด๋ฏธ์ง๋ก๋ถํฐ ํน์ง์ ์ถ์ถํ๊ณ , fully connected layer์ ํด๋์ค ํ๋ฅ ๊ณผ bounding box์ ์ขํ๋ฅผ ์์ธกํฉ๋๋ค. GoogLeNet์ ์ธ์
์
๊ตฌ์กฐ ๋์ ๋จ์ํ ๊ตฌ์กฐ์ 1 x 1 ์ถ์ ๊ณ์ธต๊ณผ 3 x 3 ์ปจ๋ณผ๋ฃจ์
๊ณ์ธต์ ๊ฒฐํฉ์ ์ฌ์ฉํ์ต๋๋ค. ์ด ๋คํธ์ํฌ์ ์ต์ข
์์ํ์ 7 x 7 x 30 ํ
์์
๋๋ค.
GoogLeNet์ ์ด์ฉํ์ฌ ImageNet classification์ ์ฌ์ฉ๋ weight๋ฅผ ๊ฐ์ ธ์ fine tuningํ์๋๋ฐ, ์์ชฝ 20๊ฐ์ ์ปจ๋ณผ๋ฃจ์
๋ ์ด์ด๋ ๊ณ ์ ํ ์ฑ, ๋ท ๋จ์ 4๊ฐ ๋ ์ด์ด๋ง object detection ํ
์คํฌ์ ๋ง๊ฒ ํ์ต์ํต๋๋ค.
*์ด๋ฏธ์ง ์ถ์ฒ : https://drive.google.com/file/d/1w4BtQpGpqJbtWzEVWoXpS4nWOzU1BMCh/view
ย
24 conv layer + 2 fc layer
- 20 conv layer : pretrained with 1000-class ImageNet (input image : 224 x 224)
- 4 conv layer + 2 fc layer : fine-truned with PASCAL VOC (input image : 448x448)
ย
์ด๋ ๊ฒ ์ฌ์ ํ๋ จ๋ ๋ชจ๋ธ์ ImageNet 2012 ๊ฒ์ฆ ๋ฐ์ดํฐ ์
์์ 88%์ ์ ํ๋๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. YOLO ์ฐ๊ตฌ์ง์ Darknet ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ์ต๋๋ค.
final layer๋ ํด๋์ค ํ๋ฅ ๊ณผ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ขํ๊ฐ์ ์์ธกํฉ๋๋ค. ํ์ฑํ ํจ์๋ฅผ final layer๋ linear activation function, final layer์ ์ ์ธํ ๋ค๋ฅธ ๋ ์ด์ด๋ค์ leaky relu๋ฅผ ์ฌ์ฉํฉ๋๋ค.
2.2 Training
- YOLO์ loss๋ SSE(sum-squared error)๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค. SSE๊ฐ ์ต์ ํ๊ฐ ์ฝ์ง๋ง SSE๋ฅผ ์ต์ ํํ๋ ๊ฒ์ด YOLO์ ์ต์ข ๋ชฉ์ ์ธ mAP๋ฅผ ๋์ด๋ ๊ฒ๊ณผ ์๋ฒฝํ๊ฒ ์ผ์นํ์ง๋ ์์ต๋๋ค.
- Localization loss : x, y๊ฐ์ regressionํ๋ SSE loss
- Localization loss : width, height๊ฐ์ regressionํ๋ SSE loss
- Confidence loss : object๊ฐ ์๋ ๊ณณ์ confidence SSE loss
- Confidence loss : object๊ฐ ์๋ ๊ณณ์ confidence SSE loss
- Classification loss : object๊ฐ ์๋ ๊ณณ์ ๊ฐ class๋ณ SSE loss (๊ฐ ์ ๋น 1๊ฐ์ class probability๊ฐ ๋์ค๋ฏ๋ก ij๊ฐ ์๋ i๋ฟ)
YOLO์ loss์๋ bounding box์ ์์น๋ฅผ ์ผ๋ง๋ ์ ์์ธกํ๋์ง์ ๋ํ loss์ธ localization loss์ ํด๋์ค๋ฅผ ์ผ๋ง๋ ์ ์์ธกํ๋์ง์ ๋ํ loss์ธ classification loss๊ฐ ์์ต๋๋ค. SSE๋ฅผ ์ต์ ํํ๋ ๋ฐฉ์์ ์ด ๋ loss์ ๊ฐ์ค์น๋ฅผ ๋์ผํ๊ฒ ์ทจ๊ธํ๋๋ฐ, ์ด๋ ์ข์ ๋ฐฉ๋ฒ์ด ์๋๋๋ค. ์ด๋ฏธ์ง ๋ด ๋๋ถ๋ถ์ ๊ทธ๋ฆฌ๋ ์
์๋ ๊ฐ์ฒด๊ฐ ์๊ธฐ ๋๋ฌธ์
๋๋ค. ๋ฐ๋ผ์ ๋๋ถ๋ถ์ ๊ทธ๋ฆฌ๋ ์
์ confidence score=0์ด ๋๋๋ก ํ์ตํ ์๋ฐ์ ์๊ณ , ์ด๋ ๋ชจ๋ธ์ ๋ถ๊ท ํ์ ์ด๋ํฉ๋๋ค.
์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด
1 ) localization loss์ ๊ฐ์ค์น๋ฅผ ์ฆ๊ฐ
2) ๊ฐ์ฒด๊ฐ ์กด์ฌํ์ง ์๋ bounding box์ confidence loss์ ๋ํ ๊ฐ์ค์น๋ ๊ฐ์์์ผฐ์ต๋๋ค.(๊ฐ์ฒด๊ฐ ์๋ ๊ทธ๋ฆฌ๋ ์
์ confidence loss๋ณด๋ค ๊ฐ์ฒด๊ฐ ์กด์ฌํ๋ ๊ทธ๋ฆฌ๋ ์
์ confidence loss์ ๊ฐ์ค์น๋ฅผ ์ฆ๊ฐํ๋ค๋ ์๋ฏธ)
์ด๋ฅผ ์ํด ๋ ๊ฐ์ ํ๋ผ๋ฏธํฐ์ธ ์ ๋ฅผ ์ฌ์ฉํ์ฌ , ๋ก ๊ฐ์ค์น๋ฅผ ์ฃผ์์ต๋๋ค.
: bounding box ์ขํ(coordinate)์ ๋ํ loss์ ๊ฐ์ค์น
: ๊ฐ์ฒด๊ฐ ์กด์ฌํ์ง ์๋ bounding box์ confidence loss์ ๊ฐ์ค์น
ย
ํ๋ จ ๋จ๊ณ์์ ์ฌ์ฉํ๋ loss function์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
: ์
i์์ j๋ฒ์งธ ๋ฐ์ด๋ฉ ๋ฐ์ค predictor๊ฐ ์์ธก์ responsibleํ ๊ฒ์ธ์ง
: ์
i์์ ๊ฐ์ฒด๊ฐ ๋ํ๋ฌ๋์ง (๋ํ๋๋ฉด 1, ์๋ํ๋๋ฉด 0)
โ grid cell์ object๊ฐ ์กด์ฌํ๋ ๊ฒฝ์ฐ์ ์ค์ฐจ & predictor box๋ก ์ ์ ๋ ๊ฒฝ์ฐ์ ์ค์ฐจ๋ง ํ์ต
ย
- SSE๋ ํฐ bounding box์ ์์ boudning box์ ๋ํด ๋ชจ๋ ๋์ผํ ๊ฐ์ค์น๋ก loss๋ฅผ ๊ณ์ฐํ๋๋ฐ, ์์ bounding box๊ฐ ํฐ bounding box๋ณด๋ค ์์ ์์น ๋ณํ์ ๋ ๋ฏผ๊ฐํฉ๋๋ค. ํฐ ๊ฐ์ฒด๋ฅผ ๋๋ฌ์ธ๋ bounding box๋ ์กฐ๊ธ ์์ง์ฌ๋ ์ฌ์ ํ ํฐ ๊ฐ์ฒด๋ฅผ ์ ๊ฐ์ธ์ง๋ง, ์์ ๊ฐ์ฒด๋ฅผ ๋๋ฌ์ธ๋ bounding box๋ ์กฐ๊ธ๋ง ์์ง์ฌ๋ ์์ ๊ฐ์ฒด๋ฅผ ๋ฒ์ด๋๊ฒ ๋๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด bounding box์ ๋๋น์ ๋์ด์ square root๋ฅผ ์ทจํด์ฃผ์ด loss์ ๋ํ ๊ฐ์ค์น๋ฅผ ๊ฐ์์์ผฐ์ต๋๋ค.
- YOLO๋ ํ๋์ ๊ทธ๋ฆฌ๋ ์ ๋น ์ฌ๋ฌ ๊ฐ์ bounding box๋ฅผ ์์ธกํฉ๋๋ค. ํ์ง๋ง, ํ๋ จ๋จ๊ณ์์ ํ๋์ bounding box๋ ํ๋์ ๊ฐ์ฒด์ ๋ํ responsible์ด ์์ด์ผ ํ๊ธฐ์, ์์ธก๋ ์ฌ๋ฌ bounding box ์ค ๊ฐ์ฒด์ ground-truth์ ๋ํด IOU๊ฐ ๊ฐ์ฅ ํฐ ๊ฒ์ ์ ํํฉ๋๋ค. ์ด๋ ๊ฒ ํ๋ จ๋ bounding box predictor๋ ํน์ ํฌ๊ธฐ, ๋น์จ(aspect ratios), ๊ฐ์ฒด์ ํด๋์ค๋ฅผ ์ ์ฒด์ ์ผ๋ก ์ ์์ธกํ๊ฒ ๋ฉ๋๋ค.
- ๊ณผ์ ํฉ์ ๋ง๊ธฐ ์ํด ๋๋กญ์์๊ณผ data augmentation์ ์ ์ฉํ์์ต๋๋ค.
ย
2.3 Inference
ํ๋ จ ๋จ๊ณ์ ๋ง์ฐฌ๊ฐ์ง๋ก, ์ถ๋ก ๋จ๊ณ์์๋ ํ
์คํธ ์ด๋ฏธ์ง๋ก๋ถํฐ ๊ฐ์ฒด๋ฅผ ๊ฒ์ถํ๋ ๋ฐ์๋ ํ๋์ ์ ๊ฒฝ๋ง ๊ณ์ฐ๋ง ํ๋ฉด ๋ฉ๋๋ค. ํ์ค์นผ VOC ๋ฐ์ดํฐ ์
์ ๋ํด์ YOLO๋ ํ ์ด๋ฏธ์ง ๋น 98๊ฐ์ bounding box๋ฅผ ์์ธกํด์ฃผ๊ณ , ๊ทธ bounding box๋ง๋ค ํด๋์ค ํ๋ฅ (class probabilities)์ ๊ตฌํด์ค๋๋ค. YOLO๋ ํ๋์ ์ ๊ฒฝ๋ง ์ด๊ธฐ ๋๋ฌธ์ ํ
์คํธ ๋จ๊ณ์์ ๊ต์ฅํ ๋น ๋ฆ
๋๋ค.
ํ์ง๋ง YOLO์ ๊ทธ๋ฆฌ๋ ๋์์ธ์ ํ๋์ ๊ฐ์ฒด๋ฅผ ์ฌ๋ฌ ๊ทธ๋ฆฌ๋ ์
์ด ๋์์ ๊ฒ์ถํ๋ ๊ฒฝ์ฐ๊ฐ ์๋ค๋ ๋จ์ ์ด ์กด์ฌํฉ๋๋ค. ์ฆ, ํ๋์ ๊ทธ๋ฆฌ๋ ์
์ด ์๋ ์ฌ๋ฌ ๊ทธ๋ฆฌ๋ ์
์์ ํด๋น ๊ฐ์ฒด์ ๋ํ bounding box๋ฅผ ์์ธกํ ์ ์์ต๋๋ค. ์ด๋ฅผ ๋ค์ค ๊ฒ์ถ(multiple detections) ๋ฌธ์ ๋ผ๊ณ ํฉ๋๋ค. ์ด๋ฐ ๋ค์ค ๊ฒ์ถ ๋ฌธ์ ๋ non-maximal suppression๋ฐฉ๋ฒ์ ํตํด ๊ฐ์ ํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด YOLO๋ mAP๋ฅผ 2~3%๊ฐ๋ ํฅ์์์ผฐ์ต๋๋ค.
๋ค์์ ppt ์ด๋ฏธ์ง๋ฅผ ๋ณด์๋ฉด inference ๋จ๊ณ์ ๋ํด ๋์ฑ ์ดํดํ๊ธฐ ์ฌ์ฐ์ค๊ฒ ๊ฐ์ต๋๋ค.
ย
ย
*์ด๋ฏธ์ง ์ถ์ฒ : https://drive.google.com/file/d/1w4BtQpGpqJbtWzEVWoXpS4nWOzU1BMCh/view
*nms์ ๋ํ ๋ณด์ถฉ ์ค๋ช
์๋ฃ : https://visionhong.tistory.com/11
2.4 Limitations of YOLO
- YOLO๋ ๋ฐ์ด๋ฉ ๋ฐ์ค ์์ธกํ๋๋ฐ์ ์ค์ง 2๊ฐ์ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ํ๊ฐ์ ํด๋์ค ์์ธก๋ง์ ํ๋ค๋ ํฐ ๊ณต๊ฐ์ ์ธ ์ ์ฝ์ด ์์ต๋๋ค. ํ๋์ ๊ทธ๋ฆฌ๋ ์ ์ ์ค์ง ํ๋์ ๊ฐ์ฒด๋ง ๊ฒ์ถํ๋ฏ๋ก ํ๋์ ๊ทธ๋ฆฌ๋ ์ ์ ๋ ๊ฐ ์ด์์ ๊ฐ์ฒด๊ฐ ๋ถ์ด์๋ค๋ฉด ์ด๋ฅผ ์ ๊ฒ์ถํ์ง ๋ชปํ๊ฒ ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ์ ๋ผ์ ๊ฐ์ด ์์ ๋ฌผ์ฒด๊ฐ ๋ชฐ๋ ค ์๋ ๊ฒฝ์ฐ, ํ๋์ ๊ทธ๋ฆฌ๋ ์ ์ ์ค์ง ํ๋์ ๊ฐ์ฒด๋ง ๊ฒ์ถํ๊ธฐ ๋๋ฌธ์ ์ฌ๋ฌ ์ ๋ผ๋ฅผ ๋์์ ๊ฒ์ถํ ์ ์์ต๋๋ค.
- YOLO ๋ชจ๋ธ์ ๋ฐ์ดํฐ๋ก๋ถํฐ bounding box๋ฅผ ์์ธกํ๋ ๊ฒ์ ํ์ตํ๊ธฐ ๋๋ฌธ์ ํ๋ จ ๋จ๊ณ์์ ํ์ตํ์ง ๋ชปํ๋ ์๋ก์ด ๋น์จ์ ๊ฐ์ฒด๋ฅผ ๋ง์ฃผํ๋ฉด ์์ธก๋ ฅ์ด ๋จ์ด์ง๋๋ค.
- YOLO ๋ชจ๋ธ์ ํฐ bounding box์ ์์ bounding box์ loss์ ๋ํด ๋์ผํ ๊ฐ์ค์น๋ฅผ ๋๋ค๋ ๋จ์ ์ด ์์ต๋๋ค. ํฌ๊ธฐ๊ฐ ํฐ bounding box๋ณด๋ค ํฌ๊ธฐ๊ฐ ์์ bounding box๊ฐ ์์น ๋ณํ์ ๋ฐ๋ฅธ IOU ๋ณํ๊ฐ ๋ ์ฌํ๊ธฐ ๋๋ฌธ์ ๋์ผํ ๊ฐ์ค์น๋ฅผ ์ฃผ์ด์๋ ์๋ฉ๋๋ค.
- YOLO์ ์ฃผ์ error๋ ๋ถ์ ํํ localization ๋ฌธ์ ์ ๋๋ค.
3. Comparison to Other Detection Systems
Deformable parts models(DPM)
๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ ์ค ํ๋์ธ DPM์ ์ฌ๋ผ์ด๋ฉ ์๋(sliding sindow)๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค. DPM์ ๋ถ๋ฆฌ๋ ํ์ด๋ผ์ดํ๋ผ์ธ์ผ๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค. ๋ฐ๋ผ์ ๊ฐ๊ฐ์ ํ์ดํ๋ผ์ธ์ด ํน์ง ์ถ์ถ(feature extraction), ์์ญ ๋ถ๋ฅ(region classification), bounding box ์์ธก(bounding box prediction)์ ์ํํฉ๋๋ค. YOLO๋ ์ด๋ ๊ฒ ๋ถ๋ฆฌ๋ ํ์ดํ๋ผ์ธ์ ๋จ์ผ ์ปจ๋ณผ๋ฃจ์
์ ๊ฒฝ๋ง์ผ๋ก ๋์ฒดํ ๋ชจ๋ธ์
๋๋ค. ์ด ์ ๊ฒฝ๋ง์ ํน์ง ์ถ์ถ, ์์ญ ๋ถ๋ฅ, bounding box ์์ธก, ๋น ์ต๋ ์ต์ (non-max suppression) ๋ฑ์ ํ ๋ฒ์ ์ฒ๋ฆฌํฉ๋๋ค. ๋ฐ๋ผ์ YOLO๋ DPM๋ณด๋ค ๋ ๋น ๋ฅด๊ณ ์ ํํ ๋ชจ๋ธ์
๋๋ค.
R-CNN
R-CNN๊ณผ ๊ทธ ๋ณํ๋ค์ ๊ฐ์ฒด ๊ฒ์ถ์ ์ํด ์ฌ๋ผ์ด๋ฉ ์๋ ๋ฐฉ์ ๋์ region proposal ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค. selective search๋ผ๋ ๋ฐฉ์์ผ๋ก ์ฌ๋ฌ bounding box๋ฅผ ์์ฑํ๊ณ , ์ปจ๋ณผ๋ฃจ์
์ ๊ฒฝ๋ง์ผ๋ก ํน์ง์ ์ถ์ถํ๊ณ , SVM์ผ๋ก bouning box์ ๋ํ ์ ์๋ฅผ ๋งค๊น๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ ํ ๋ชจ๋ธ๋ก bounding box๋ฅผ ์กฐ์ ํ๊ณ , ๋น ์ต๋ ์ต์ ๋ก ์ค๋ณต๋ ๊ฒ์ถ์ ์ ๊ฑฐํฉ๋๋ค. ์ด ๋ณต์กํ ํ์ดํ๋ผ์ธ์ ๊ฐ ๋จ๊ณ๋ ๋
๋ฆฝ์ ์ผ๋ก ์ ๋ฐํ๊ฒ ํ๋ํด์ผํ๊ธฐ ๋๋ฌธ์ ํ ์ด๋ฏธ์ง๋น 40์ด ์ด์ ์์๋ ์ ๋๋ก ๋งค์ฐ ๋๋ฆฝ๋๋ค.
YOLO์ R-CNN ์ฌ์ด์๋ ๋ช ์ ์ฌํ ๋ถ๋ถ์ด ์กด์ฌํฉ๋๋ค. ๊ฐ ๊ทธ๋ฆฌ๋ ์
์ด bouning box๋ฅผ ์์ธกํ๊ณ , convolutional feature๋ฅผ ์ฌ์ฉํ์ฌ ๊ทธ box์ ์ ์๋ฅผ ๋งค๊ธด๋ค๋ ๊ฒ์ด ๊ทธ์ ํด๋นํฉ๋๋ค. ๊ทธ๋ฌ๋ YOLO๋ ๊ฐ ๊ทธ๋ฆฌ๋ ์
์ ๊ณต๊ฐ์ ์ ์ฝ์ผ๋ก ์ธํด ๋์ผํ ๊ฐ์ฒด์ ๋ํด ์ฌ๋ฌ ๋ฒ ๊ฒ์ถ๋๋ ๊ฒฝ์ฐ๊ฐ R-CNN์ ๋นํด ์ ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ YOLO๋ R-CNN์ ๋นํด ์์ธกํ๋ bounding box์ ๊ฐ์๋ ํจ์ฌ ์ ์ต๋๋ค. ๋ง์ง๋ง์ผ๋ก YOLO๋ ์ด ๋ชจ๋ ์์
๋ค์ ๋จ์ผ ๋ชจ๋ธ๋ก ์ํํ๋ ๋ฐ์ ๊ฐ์ ์ด ์์ต๋๋ค.
4. Experiments
๋จผ์ YOLO๋ฅผ ๋ค๋ฅธ ์ค์๊ฐ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ๊ณผ ๋น๊ตํด๋ณด๊ฒ ์ต๋๋ค. YOLO์ R-CNN ๋ณํ(Fast R-CNN) ๊ฐ์ ์ฐจ์ด์ ์ ์ดํดํ๊ธฐ ์ํด PASCAL VOC 2007 ๋ฐ์ดํฐ์
์์์ ์๋ฌ๋ฅผ ์กฐ์ฌํด๋ดค์ต๋๋ค. ๋ํ Fast R-CNN์ ์ด ๋
ผ๋ฌธ์ด ๋์จ ๋น์ ๊ฐ์ฅ ์ข์ ์ฑ๋ฅ์ ๋ณด์๋ R-CNN๊ณ์ด์ ๋ชจ๋ธ์ด์์ต๋๋ค.
4.1 Comparison to Other Real-Time Systems
๊ฐ์ฒด ๊ฒ์ถ์ ๋ํ ๋ง์ ์ฐ๊ตฌ๋ค์ ํ์ค ๊ฐ์ฒด ๊ฒ์ถ ํ์ดํ๋ผ์ธ์ ๋น ๋ฅด๊ฒ ๋ง๋๋ ๋ฐ ์ค์ ์ ๋๊ณ ์์ต๋๋ค. ์ฐ๊ตฌ์ง์ GPU๋ฒ์ ์ YOLO์ 30Hz ๋๋ 100Hz์์ ์คํ๋๋ DPM์ ์ฑ๋ฅ์ ๋น๊ตํด๋ณด์์ต๋๋ค. ๋ํ ์๋ mAP์ ์๋๋ฅผ ๋น๊ตํ์ฌ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ์์ ์ฌ์ฉํ ์ ์๋ ์ ํ๋-์ฑ๋ฅ tradeoff๋ฅผ ์ฐ๊ตฌํฉ๋๋ค.
Fast YOLO๋ PASCAL ๊ธฐ์ค์ผ๋ก ๊ฐ์ฅ ๋น ๋ฅธ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ์
๋๋ค. mAP๋ 57.2%๋ก DPM๋ณด๋ค ์ค์๊ฐ ๊ฐ์ฒด ๊ฒ์ถ์ ์์ด 2๋ฐฐ ์ด์ ์ ํํฉ๋๋ค. YOLO๋ ์ค์๊ฐ ์ฑ๋ฅ์ ์ ์งํ๋ฉด์ mAP๋ฅผ 63.4%๊น์ง ๋์์ต๋๋ค.
์ฐ๊ตฌ์ง์ VGG-16์ ์ฌ์ฉํ์ฌ YOLO๋ฅผ ํ๋ จ์์ผฐ์ต๋๋ค. ์ด ๋ชจ๋ธ์ ์ผ๋ฐ์ ์ธ YOLO๋ณด๋ค ์ ํํ์ง๋ง ํจ์ฌ ์๋๊ฐ ๋๋ฆฝ๋๋ค. VGG-16์ ์ฌ์ฉํ๋ ๋ค๋ฅธ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ๊ณผ ๋น๊ตํ๋ ๋ฐ์๋ ์ ์ฉํ์ง๋ง ์ค์๊ฐ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ๋ก ์ฌ์ฉํ๊ธฐ์๋ ๋๋ฆฌ๊ธฐ ๋๋ฌธ์ ์ด ๋
ผ๋ฌธ์์๋ ์๋๊ฐ ๋ ๋น ๋ฅธ ๋ชจ๋ธ(YOLO)์ ์ค์ ์ ๋์ด ์ค๋ช
ํ์ต๋๋ค.
Fast DPM์ mAP๋ฅผ ๋ง์ด ํ๋ฝ์ํค์ง ์์ผ๋ฉด์ DPM์ ์๋๋ฅผ ํจ๊ณผ์ ์ผ๋ก ๊ฐ์ํํ์ง๋ง, ์ค์๊ฐ ๊ฒ์ถ์ ํ์ฉํ๊ธฐ์๋ ์ฌ์ ํ ๋ถ์กฑํ ์๋๋ฅผ ๋ณด์
๋๋ค. ๋ํ ์ ๊ฒฝ๋ง ์ ๊ทผ ๋ฐฉ์์ ๋นํด DPM์ ๊ฒ์ถ ์ ํ๋๊ฐ ์๋์ ์ผ๋ก ๋ฎ์ ํธ์
๋๋ค.
R-CNN minus R์ selective search๋ฅผ static bounding box proposal๋ก ๋์ฒดํ ๋ชจ๋ธ์
๋๋ค. R-CNN๋ณด๋ค๋ ํจ์ฌ ๋น ๋ฅด์ง๋ง, ์ค์๊ฐ ๊ฒ์ถ์ ์ฌ์ฉํ๊ธฐ์๋ ๋ถ์กฑํฉ๋๋ค.
Fast R-CNN์ R-CNN์ ๋ถ๋ฅ ๋จ๊ณ๋ฅผ ๊ฐ์ํํ์ง๋ง, ์ด๋ฏธ์ง๋น bounding box proposal๋ฅผ ์ํด ์ฝ 2์ด๊ฐ ์์๋๋ selctive search์ ์์กดํฉ๋๋ค. ๋ฐ๋ผ์ ๋์ mAP๋ฅผ ๊ฐ์ง๋ง ์ฌ์ ํ ์ค์๊ฐ ๊ฒ์ถ์๋ ๋ถ์กฑํฉ๋๋ค.
์ต๊ทผ์ Fast R-CNN์ bounding box proposal์ ์ํด selective search ๋์ ์ ๊ฒฝ๋ง์ ์ฌ์ฉํ๊ธด ํฉ๋๋ค. ์ฐ๊ตฌ์ง์ด ํ
์คํธํ ๊ฒฐ๊ณผ, ๊ฐ์ฅ ์ ํํ ๋ชจ๋ธ์ ์ด๋น 7ํ๋ ์์ ์ฒ๋ฆฌํ ์ ์์๊ณ , ์ฝ๊ฐ ๋ ์๊ณ ์ ํ๋๊ฐ ๋ฎ์ ๋ชจ๋ธ์ 18ํ๋ ์์ ์ฒ๋ฆฌํ ์ ์์์ต๋๋ค. VGG-16 ๋ฒ์ ์ Fast R-CNN์ YOLO์ ๋นํด mAP๊ฐ 10 ์ ๋ ๋์ง๋ง ์๋๊ฐ 6๋ฐฐ ๋๋ฆฝ๋๋ค. Zeiler-Fergus Faster R-CNN์ YOLO๋ณด๋ค 2.5๋ฐฐ ๋ ๋๋ฆฌ๋ฉด์ ์ ํ๋๋ ๋ ๋ฎ์์ต๋๋ค.
์๋ ํ๋ ์ฌ๋ฌ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ๋ค์ ์ ํ๋(mAP)์ ์๋(FPS)๋ฅผ ๋ํ๋
๋๋ค. Fast YOLO๋ ๊ฐ์ฅ ๋น ๋ฅธ ์๋๋ฅผ ๋ณด์ฌ์ฃผ๋ฉฐ, ๋ค๋ฅธ ์ค์๊ฐ ๊ฒ์ถ ๋ชจ๋ธ์ ๋นํด 2๋ฐฐ ๋ ์ ํํฉ๋๋ค. YOLO๋ ๋น ๋ฅธ ๋ฒ์ ๋ณด๋ค ์ฝ 10mAP ์ ๋ ๋ ์ ํํ๊ณ ์ด๋น 45ํ๋ ์์ ์ฒ๋ฆฌํ ์ ์์ด ์ค์๊ฐ ๊ฒ์ถ ๋ชจ๋ธ๋ก ์ ์ ํฉ๋๋ค.
4.2 VOC 2007 Error Analysis
YOLO์ ์ต๊ทผ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ๋ค๊ฐ์ ๋ ์์ธํ ๋น๊ต๋ฅผ ์ํด VOC 2007 ๋ฐ์ดํฐ์
์ ์ฌ์ฉํ์์ต๋๋ค. ๋จผ์ YOLO์ ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๋ชจ๋ธ ์ค ํ๋์ธ Fast R-CNN์ ๋น๊ตํด๋ณด๊ฒ ์ต๋๋ค. ์ด๋ฅผ ์ํด Diagnosing erro in object detectors ๋
ผ๋ฌธ์ ์ธ๊ธ๋ ์ธก์ ๋ฐฉ๋ฒ๋ก ์ ์ฌ์ฉํ์ต๋๋ค. ๊ฐ ์์ธก์ด ์ ํํ์ง, ํ๋ ธ๋ค๋ฉด ์ด๋ค erroy type์ธ์ง๋ฅผ ๋ถ๋ฅํ์ต๋๋ค. ๊ธฐ์ค์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
- Correct: correct class, IOU > 0.5
- Localization: correct class, 0.1 < IOU < 0.5
- Similar: class is similar, IOU > 0.1
- Other: class is wrong, IOU > 0.1
- Background: IOU < 0.1 for any object
ย
<Fast R-CNN vs. YOLO>
์ ๊ทธ๋ฆผ์ ์ด 20๊ฐ์ class์ ๊ฑธ์น error type์ ๋ถ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. YOLO(19%)๋ Fast R-CNN(8.6%)์ ๋นํด ์๋์ ์ผ๋ก ํฐ Localization ์ค๋ฅ๋ฅผ ๋ณด์
๋๋ค. ํ์ง๋ง Background error์ ๋ํด์๋ Fast R-CNN(13.6%)์ด YOLO(4.75%)๋ณด๋ค ํฐ ๊ฒ์ ์ ์ ์์ต๋๋ค. Background error๋ ์ด๋ฏธ์ง์ ์ด๋ ํ ๊ฐ์ฒด๋ ์๋๋ฐ ๊ฐ์ฒด๊ฐ ์๋ค๊ณ ์๋ชป ํ๋จํ๋ false positive error์
๋๋ค. Fast R-CNN์ YOLO๋ณด๋ค Background error๊ฐ ์ฝ 3๋ฐฐ ๋ ํฝ๋๋ค.
4.3 Combining Fast R-CNN and YOLO
YOLO๋ Fast R-CNN์ ๋นํด Background error๊ฐ ๋ ์ ์ต๋๋ค. Fast R-CNN์ YOLO๋ฅผ ๊ฒฐํฉํจ์ผ๋ก์จ ํด๋น ์ค๋ฅ๋ฅผ ์ ๊ฑฐํ๊ณ ํฌ๊ฒ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์์ต๋๋ค. ๋จผ์ ๋ชจ๋ R-CNN์ด ์์ธกํ๋ ๋ชจ๋ bounding box์ ๋ํด YOLO๊ฐ ์ ์ฌํ๊ฒ ์์ธกํ๋์ง๋ฅผ ํ์ธํฉ๋๋ค. ๋ง์ฝ ๋ ๋ชจ๋ธ์ด bounding box๋ฅผ ์ ์ฌํ๊ฒ ์์ธกํ๋ค๋ฉด, YOLO์ ์์ธก ํ๋ฅ ์ ๊ธฐ๋ฐ์ผ๋ก ๋ bounding box๊ฐ ๊ฒน์น๋ ๋ถ๋ถ์ bounding box๋ก ์ง์ ํฉ๋๋ค.
VOC 2007 ๋ฐ์ดํฐ์
์ ๋ํด ๊ฐ์ฅ ์ฑ๋ฅ์ด ์ข์ Fast R-CNN์ 71.8%์ mAP๋ฅผ ๋ณด์์ต๋๋ค. ์ฌ๊ธฐ์ Fast R-CNN์ YOLO๋ฅผ ๊ฒฐํฉํ๋ฉด mAP๊ฐ 3.5% ์ฆ๊ฐํ์ฌ 75%๋ก ํฅ์๋์์ต๋๋ค. ๋ํ ์ฐ๊ตฌ์ง์ Fast R-CNN์ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ์์๋ธ ํด๋ณด์์ง๋ง mAP ํฅ์์ ์ ๋๊ฐ 0.3%, 0.6%์ ๊ทธ์ณค์ต๋๋ค. ๋ฐ๋ผ์ Fast R-CNN์ ๊ทธ๋๋ก ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค๋ YOLO๋ฅผ ๊ฒฐํฉํ ๋ชจ๋ธ์ ์ฌ์ฉํ๋ฉด ๋ ์ข์ ์ฑ๋ฅ์ ๊ธฐ๋ํ ์ ์์ต๋๋ค. ์์ธํ ์ฌํญ์ ์๋ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ต๋๋ค.
4.4 VOC 2012 Results
VOC 2012 ๋ฐ์ดํฐ์
์์ YOLO๋ 57.9% mAP๋ฅผ ๊ธฐ๋กํ์ต๋๋ค. ์ด๋ VGG-16์ ์ฌ์ฉํ R-CNN์ mAP์ ๋น์ทํฉ๋๋ค. ์๋ ํ๋ฅผ ๋ณด๋ฉด YOLO์ ์๋๊ฐ ๊ฐ์ฅ ๋น ๋ฅด๊ณ Fast R-CNN๊ณผ YOLO๋ฅผ ๊ฒฐํฉํ ๋ชจ๋ธ์ด ๊ฐ์ฅ ์ ํ๋๊ฐ ์ข์ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
4.5 Generalizability: Person Detection in Artwork
๊ฐ์ฒด ๊ฒ์ถ์ ์ํด ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ์
์ ๋์ผํ ๋ถํฌ๋ก ํ๋ จ ๋ฐ์ดํฐ์
๊ณผ ํ
์คํธ ๋ฐ์ดํฐ์
์ ์ฌ์ฉํฉ๋๋ค. ํ์ง๋ง ์ค์ ์์ฉ ํ๋ก๊ทธ๋จ์์๋ ๊ฐ๋ฅํ ๋ชจ๋ ์ฌ๋ก๋ฅผ ์์ธกํ๊ธฐ ์ด๋ ต๊ณ ํ๋ จ ๋ฐ์ดํฐ์
๊ณผ ํ
์คํธ ๋ฐ์ดํฐ์
์ ๋ถํฌ๊ฐ ๋ค๋ฅผ ์ ์์ต๋๋ค. ์ด์ ์ฐ๊ตฌ์ง์ ๊ฐ ๋ฐ์ดํฐ์
์ ๋ถํฌ๊ฐ ๋ค๋ฅธ ๊ฒฝ์ฐ์์์ ๋ชจ๋ธ ์ฑ๋ฅ์ ๋น๊ตํ๊ธฐ ์ํด ์์ ์ํ์ ํ์ฉํ์์ต๋๋ค. ์ด๋ Picasso ๋ฐ์ดํฐ์
๊ณผ People-Art ๋ฐ์ดํฐ์
์ ์ฌ์ฉํ์์ผ๋ฉฐ, YOLO๋ฅผ ๋ค๋ฅธ ๊ฐ์ฒด ๊ฒ์ถ ์์คํ
๊ณผ ๋น๊ตํ์์ต๋๋ค.
์๋ ๊ทธ๋ฆผ์ YOLO์ ๋ค๋ฅธ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋น๊ตํ ๊ทธ๋ฆผ์
๋๋ค. R-CNN์ VOC 2007์์ ๋์ ์ ํ๋๋ฅผ ๋ณด์ด์ง๋ง ์์ ์ํ์ ๋ํด์๋ ํ์ ํ ๋ฎ์ ์ ํ๋๋ฅผ ๋ณด์
๋๋ค. DPM์ VOC 2007์์ ๋งค์ฐ ๋์ ํธ์ ์ ํ๋๋ฅผ ๋ณด์ด๋๊ฑด ์๋์ง๋ง ์์ ์ํ์ ๋ํด์ ์ ํ๋๊ฐ R-CNN์ฒ๋ผ ํฌ๊ฒ ๋จ์ด์ง์ง๋ ์์์ต๋๋ค. ๋ฐ๋ฉด YOLO๋ VOC 2007์์๋ ๊ฐ์ฅ ๋์ ์ ํ๋๋ฅผ ๋ณด์๊ณ , ์์ ์ํ์ ๋ํด์๋ ๋น์ทํ ์์ค์ ์ ํ๋๋ฅผ ์ ์งํ์ต๋๋ค.
5. Real-Time Detection In The Wild
YOLO๋ ๊ฐ์ฒด๋ฅผ ๋น ๋ฅด๊ณ ์ ํํ๊ฒ ๊ฒ์ถํ ์ ์์ด ์ปดํจํฐ ๋น์ ์ ํ๋ฆฌ์ผ์ด์
์ ํ์ฉํ๊ธฐ ์ด์์ ์ธ ๋ชจ๋ธ์
๋๋ค. ์ฐ๊ตฌ์ง์ YOLO๋ฅผ ์น์บ ๊ณผ ์ฐ๊ฒฐํ์ฌ ์ค์๊ฐ์ผ๋ก ๊ฐ์ฒด๋ฅผ ์ผ๋ง๋ ์ ๊ฒ์ถํด๋ด๋์ง ํ์ธํ์์ต๋๋ค. ์ด๋ ์น์ฌ์ดํธ(http://pjreddie.com/yolo/)๋ฅผ ํตํด ํ์ธํ ์ ์์ต๋๋ค.
6. Conclusion
๊ฐ์ฒด ๊ฒ์ถ์ ์ํ ํตํฉ ๋ชจ๋ธ์ธ YOLO์ ๋ํด ์๊ฐํ์ต๋๋ค. Fast YOLO๋ ๋ณธ๋ฌธ์์ ๊ฐ์ฅ ๋น ๋ฅธ ๋ฒ์ฉ ๊ฐ์ฒด ๊ฒ์ถ ๋ชจ๋ธ์ด๋ฉฐ, YOLO๋ ๊ตฌ์ฑ์ด ๊ฐ๋จํ๊ณ ์ค์๊ฐ ๋ฌผ์ฒด ๊ฒ์ถ์ ์์ด ์ต๊ณ ์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๋ชจ๋ธ์
๋๋ค. ๋ํ ์๋ก์ด ๋๋ฉ์ธ์๋ ์ ์ผ๋ฐํ๋๋ฏ๋ก ํ๋ จ ๋จ๊ณ์์ ๋ณด์ง ๋ชปํ ์๋ก์ด ์ด๋ฏธ์ง์ ๋ํด์๋ ๊ฐ์ฒด๋ฅผ ์ ๊ฒ์ถํด๋
๋๋ค. ๊ฒฐ๋ก ์ ์ผ๋ก YOLO๋ ๋น ๋ฅด๊ณ ์ ํํ ๊ฐ์ฒด ๊ฒ์ถ์ ํ์๋กํ๋ ์ ํ๋ฆฌ์ผ์ด์
๋ค์ ์ฌ์ฉํ๊ธฐ ๋งค์ฐ ์ด์์ ์ธ ๋ชจ๋ธ์
๋๋ค.
ย
ย
์ฐธ๊ณ ์๋ฃ :
ย