cleanUrl: "paper/YOLOv2"
๋
ผ๋ฌธ : YOLO9000: Better, Faster, Stronger
์ ์ : Joseph Redmon, Ali Farhadi
๋ ผ๋ฌธ ์ ์ ๋ฐฐ๊ฒฝ
YOLOv1์ ์ด์ด YOLOv2 ๋
ผ๋ฌธ์ ์ฝ์ผ๋ฉด์ YOLO ๋ชจ๋ธ์ ๋ํ ์ดํด๋ฅผ ๋์ด๊ณ ์ ์ ํํ๊ฒ ๋์๋ค. YOLO์ ๋ณด์ํ์ฌ, ์ฌ๋ฌ ์ฐธ์ ํ ๊ธฐ๋ฒ์ ์ ์ฉํ์ฌ ์๋์ ์ ํ์ฑ์ ๋ชจ๋ ์ก์ real-time detector์ธ YOLOv2๋ฅผ ์๊ฐํ ์์ ์ด๋ค.
Introduction
๋ฌด๋ ค 9000 ์ข
๋ฅ์ ๋ฌผ์ฒด๋ฅผ ๊ตฌ๋ถํ ์ ์๋ real-time objector์ธ YOLO 9000 ๋ชจ๋ธ์ ๊ณต๊ฐํ๋ค. ๊ธฐ์กด YOLO ๋ชจ๋ธ์ ๋ค์ํ ๋ฐฉ๋ฒ์ผ๋ก ๊ฐ์ ํ์ฌ YOLOv2 ๋ชจ๋ธ์ ๋ง๋ค์์ผ๋ฉฐ dataset combination๋ฐฉ๋ฒ๊ณผ joint training ์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํ์ฌ ImageNet๊ณผ COCO ๋ฐ์ดํฐ์
์ผ๋ก๋ถํฐ 9000 ์ข
๋ฅ๋ฅผ ๋ฅ๊ฐํ๋ ๋ชจ๋ธ์ ํ๋ จํ๋ค. yolov2 ๋ชจ๋ธ์ ๊ธฐ์กด yolov1 ๋ชจ๋ธ๋ณด๋ค better, faster, strongerํ ๋ถ๋ถ์ ์ ์ํ๋ค. Yolov2๋ PASCAL VOC์ COCO dataset์ ๋ํด SOTA ๋ชจ๋ธ์ด๋ฉฐ speed์ accuracy๋ฅผ ๋ชจ๋ ๊ฐ์ง๋ ๋ชจ๋ธ์ด๋ค.
Better
๋ฎ์ recall๊ณผ ๋ง์ localization์ ๊ฐ์ก๋ YOLO๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด YOLOv2๋ ๊ธฐ์กด YOLO ๋ชจ๋ธ์์ ๋ถ๋ฅ ์ ํ๋๋ฅผ ์ ์งํ๋ฉด์ recall๊ณผ localization์ ํฅ์์ํค๋ ๊ฒ์ ์ง์คํ๋ค.
์ด๋ฅผ ์ํด ๋ค์๊ณผ ๊ฐ์ ๋ค์ํ ๊ธฐ๋ฒ์ yolo ๋ชจ๋ธ์ ์ ์ฉํ์๋ค.
- Batch Normalization
- High Resolution Classifier
- Convolutional With Anchor Boxes
- Dimension Clusters
- Direct location prediction
- Fine-Grained Features
- Multi-Scale Training
1)Batch Normalization
batch normalization์ ์ ๊ทํ ์ญํ ์ ํ๊ธฐ ๋๋ฌธ์ ์ค๋ฒํผํ
์ ๋ฐฉ์งํ๋ค.
YOLO์ ๋ชจ๋ convolutional layer์ BN์ ์ ์ฉํ์ฌ mAP๊ฐ 2%๊ฐ ์์นํ์๋ค.
2)High Resolution Classifier
๊ธฐ์กด์ YOLO๋ classification network๋ฅผ 224x224 ํฌ๊ธฐ์ ํด์๋๋ก ํ์ตํ ํ, 448x448 ํฌ๊ธฐ์ ์ด๋ฏธ์ง์ ๋ํด์ detection์ ์ํํ๊ฒ ๊ตฌ์ฑ๋์ด ์์ด ํด์๋๊ฐ ๋ง์ง ์์๋ค. ์ด๋ฅผ detection ํ์ต ์ ์ Image Classification ๋ชจ๋ธ์ ํฐ ํด์๋ ์ด๋ฏธ์ง์ ๋ํด์ fine-tuning ํจ์ผ๋ก์จ ํด๊ฒฐํ์์ผ๋ฉฐ, ์ฝ 4% mAP๊ฐ ์ฆ๊ฐํ๋ค๊ณ ํ๋ค.
3)Convolutional With Anchor Boxes
YOLO๋ fully connected layer๋ฅผ ์ฌ์ฉํ์ฌ ๋ฐ์ด๋ฉ ๋ฐ์ค ์ขํ๋ฅผ ์์ธกํ๋๋ฐ, Faster R-CNN ๊ณผ ๊ฐ์ region proposal network (RPN) ๊ณ์ด์ convolution layer ๋ง์ ์ฌ์ฉํ์ฌ ์ต์ข
feature map ์ ๊ฐ ํฝ์
๋ณ๋ก ์ต์ปค ๋ฐ์ค๋ฅผ ์ค์ ํ๊ณ ์ด์ ๋ํ offset ๊ณผ confidence๋ฅผ ์์ธกํ๋ค. YOLO์ ๊ฐ์ด ์ขํ๋ฅผ ์ง์ ํ์ตํ๋ ๊ฒ๋ณด๋ค ๋ฏธ๋ฆฌ ์ ์๋ ์ต์ปค ๋ฐ์ค์ ๋ํ ๋น์จ์ ์์ธกํ๋ ๊ฒ์ด ํ์ต์ด ๋ ์ฝ๊ธฐ ๋๋ฌธ์ YOLOv2 ์์๋ RPN ๋ฐฉ์์ ์ฌ์ฉํ๋ค. ๋ฐ๋ผ์ YOLO ๋ชจ๋ธ์์ fc layer๋ฅผ ์ ๊ฑฐํ์๊ณ , ๋ฐ์ด๋ฉ ๋ฐ์ค ์์ธก์ ์ํด ์ต์ปค ๋ฐ์ค๋ฅผ ์ฌ์ฉํ๋ค.
ย
๋ํ, feature map ํฌ๊ธฐ๋ฅผ ๋๋ฆฌ๊ธฐ ์ํด max-pooling layer ๋ฅผ ํ๋ ์ญ์ ํ๊ณ ์ต์ข
feature map ํฌ๊ธฐ๊ฐ 13x13 ๊ฐ์ด ํ์๋ก ๋ง๋ค๊ธฐ ์ํด ์
๋ ฅ ์ด๋ฏธ์ง๋ฅผ 416x416 ํฌ๊ธฐ๋ก ํ์๋ค. ์ด๋ฅผ ํตํด receptive ์๋๋ ๋นจ๋ผ์ง๊ณ , ์ต์ข
์ ์ธ grid cell์ receptive field๊ฐ ๋ ์ปค์ง๋ค๊ณ ํ๋ค.
ย
ย



ย
๊ทธ๋ฆฌ๋ ์
๋ง๋ค object๊ฐ ์กด์ฌํ ๊ฒ ๊ฐ์ 5๊ฐ์ anchor box๋ฅผ ์ฐพ๊ณ , yolov1๊ณผ ๋ฌ๋ฆฌ anchor box ๋ณ๋ก ๋ฅผ ๊ณ์ฐํ๋ค. (YOLOv1์ ๊ฒฝ์ฐ ๊ฐ์ ๊ทธ๋ฆฌ๋ ์
์์ ์์ธกํ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ ๊ฐ์ ๋ฅผ ๊ฐ๋๋ค.)
yolo๋ก๋ ํ ์ด๋ฏธ์ง ๋น ์ค์ง 98๊ฐ์ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ง์ ์์ธกํ์ง๋ง, yolov2๋ 1000๊ฐ ์ด์์ ๋ฐ์ด๋ฉ ๋ฐ์ค๋ฅผ ์์ธกํ๋ค. ์์น์ anchor box๋ฅผ ์ด์ฉํ์ง ์์ ๊ฒฝ์ฐ mAP๋ 69.5, recall์ 81%์ด๊ณ Anchor box๋ฅผ ์ด์ฉํ ๊ฒฝ์ฐ mAP๋ 69.2, recall์ 88%์ผ๋ก ๋น๋ก mAP๋ ๊ฐ์ํ์ง๋ง recall์ด ๋์์ก์ผ๋ฏ๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ ํฅ์์ ์ฌ์ง๋ฅผ ๋งํด์ค๋ค.
4)Dimension Clusters
๊ธฐ์กด์๋ anchor box ratio, size๋ฅผ ์ฌ์ ์ ๋ฏธ๋ฆฌ ์ ํ๋๋ฐ(hand pick), ๋์ ์ YOLOv2์์๋ VOC data, COCO data์ ์กด์ฌํ๋ object์ bounding box๋ฅผ clustering์ ํ์ฌ scale๊ณผ ratio๋ฅผ ์๋์ผ๋ก ๊ฒฐ์ ํ๊ณ ์ด๋ฅผ ํตํด groundtruth์ ๊ฐ์ฅ ์ ์ฌํ optimal anchor box๋ฅผ ํ์ํ๋ค.
๊ฑฐ๋ฆฌ๋ฅผ ์ด ๋ ์ผ๋ฐ์ ์ธ Euclidean ๊ฑฐ๋ฆฌ๋ฅผ ์ค์ฌ์ ๋ํด ์ ์ฉํ๋ฉด, ground truth ์ ๋ค๋ฅธ ์๋ฑํ ์ต์ปค๋ฐ์ค๊ฐ ๊ตฐ์งํ๋ ๊ฐ๋ฅ์ฑ์ด ๋๋ค. ํ๋์ ๋ฐ์ค๋ ground truth, ๋นจ๊ฐ์ ๋ฐ์ค๋ ์ต์ปค ๋ฐ์ค prior๋ผ ํ ๋ ์ผ์ชฝ์ ๊ฒฝ์ฐ๋ ๋งค์ฐ ๋น์ทํ๋๋ผ๋ ์ค๊ฐ๊ณผ ์ค๋ฅธ์ชฝ ์ต์ปค ๋ฐ์ค prior ์ ๋นํด ์ค์ฌ์ ์ฌ์ด์ ๊ฑฐ๋ฆฌ๊ฐ ๋ฉ์ด ๊ฐ์ ๊ตฐ์ง์ผ๋ก ํ ๋น๋์ง ๋ชปํ ์ ์๋ค.
Euclidean ๊ฑฐ๋ฆฌ๊ฐ ๊ฐ๊น์์๋ groundtruth์ ์ต์ปค๋ฐ์ค๊ฐ ๋ง์ด ์์ดํ ์ ์๋ค. ๋ฐ๋ผ์ ๋ฐ์ค ํฌ๊ธฐ์ ๋ฌด๊ดํ๊ฒ IOU๊ฐ ๋์์ง๋๋ก ํ๊ธฐ ์ํด
1-IOU(box,centroid)๋ฅผ Euclidean ๊ฑฐ๋ฆฌ ๋์ ์ฌ์ฉํ๋ค.
์ฌ๋ฌ k๋ฅผ ์ ์ฉํด๋ณธ ๊ฒฐ๊ณผ, k=5์ผ๋ recall๊ณผ ๋ชจ๋ธ์ ๋ณต์ก์ฑ์ด๋ผ๋ tradeoff ๊ด๊ณ์์ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ์ฃผ์ด k=5๋ฅผ ์ฌ์ฉํ๋ค.
5)Direct location prediction
YOLOv1์์๋ ๋ฐ์ด๋ฉ ๋ฐ์ค์ (x,y)์ขํ(๋ฐ์ด๋ฉ ๋ฐ์ค์ ์ค์ฌ์ขํ)๊ฐ randomํ๊ฒ ์ค์ ๋์ด ์ด๊ธฐ ํ์ต์ ์ด๋ ค์์ด ์์๊ณ , region proposal network์์๋ ์๋์๊ณผ ๊ฐ์ด , ๋ฅผ ์์ธกํ๋๋ฐ
๋ง์ฝ ๊ฐ 1์ด๋ฉด prediction box๋ anchor box์ ๊ฐ๋ก๋งํผ ์ค๋ฅธ์ชฝ์ผ๋ก ์ด๋, -1์ด๋ฉด ์ผ์ชฝ์ผ๋ก ์ด๋ํ๋ค. ํ์ง๋ง ์ด๋ฅผ ์ฌ์ฉํด๋ ์ด๊ธฐ๊ฐ์ ๋ํ ๋ฌธ์ ๋ ํด๊ฒฐ์ด ๋์ง์๋๋ค. ์ ์ ํ๋ ๋ฒ์๊ฐ ์๊ธฐ ๋๋ฌธ์ ํ๋ จ ์ด๊ธฐ์ ์ต์ปค ๋ฐ์ค๊ฐ ์ด๋ฏธ์ง ์ด๋์๋ ์์นํ ์ ์์ด ๋ชจ๋ธ์ด ๋๋คํ๊ฒ ์ด๊ธฐํ ๋์์ ๋ ์๋ ด์ด ์ค๋ ๊ฑธ๋ฆฌ๊ณ ํ๋ จ ์ด๊ธฐ๊ฐ ๋ถ์์ ํด์ง๊ฒ ๋๋ค.
๋ฐ๋ผ์ YOLOv2๋ YOLO ๋ชจ๋ธ์ ์ ๊ทผ์ region proposal network์์ ์ฌ์ฉํ ๋ฐฉ์์ ์์ ํ์ฌ ์ฌ์ฉํ์๋ค. ๊ธฐ์กด์ yolo๊ฐ ๊ทธ๋ฆฌ๋์ ์ค์ฌ์ ์ ์์ธกํ๋ค๋ฉด, yolov2์์๋ left top ๊ผญ์ง์ ์ผ๋ก๋ถํฐ ์ผ๋งํผ ์ด๋ํ๋ ์ง๋ฅผ ์์ธกํ๋ค. YOLOv2๋ YOLO ์์์ ๊ฐ์ด ๊ทธ๋ฆฌ๋ ์
์ ์๋์ ์ธ ์์น ์ขํ๋ฅผ ์์ธกํ๋ค. YOLOv1์์๋ (x,y)์ ์์น๋ฅผ grid cell ์์ชฝ์ ๋๊ณ , object๊ฐ ์์๋๋ 1, ์์๋๋ 0์ผ๋ก ํ๋จํ์์ง๋ง, YOLOv2์์๋ logistic activation์ ์ฌ์ฉํ์ฌ 0๊ณผ 1์ฌ์ด์ ๊ฐ์ผ๋ก ํํ์ํจ๋ค.ย ๊ฐ ๊ทธ๋ฆฌ๋ ์
์์๋ 5๊ฐ์ bounding box๋ฅผ ์์ธกํ๊ณ , ๊ฐ bounding box์๋ ๋ก 5๊ฐ ์ฉ์ ์ ๋ณด๊ฐ ๋ด๊ฒจ์๋ค.
- : grid cell์์ ํด๋น ํฝ์ ์ด ์ผ๋ง๋ ๋จ์ด์ ธ ์๋์ง ๋ํ๋ด๋ ์คํ์
- : ๊ตฐ์งํ๋ก ์์ธกํ ์ต์ปค ๋ฐ์ค์ width์ height
์ด๋ฅผ ํตํด ๊ทธ๋ฆฌ๋ ์
์ ๋ฐ์ด๋ฉ ๋ฐ์ค์ ์ค์ฌ์ขํ๊ฐ ์์นํ๊ฒ ๋๋ค.
์ด ์์ ์ฌ์ฉํ์ฌ location prediction์ ๋์ฑ ์ฝ๊ฒ ํ์ต์ํฌ ์ ์๊ณ , dimension cluster์ ํจ๊ป ์์ ์์ ์ ์ฉํ ๊ฒฐ๊ณผ ์ฑ๋ฅ์ด 5% ์ด์ ์์นํ์๋ค๊ณ ํ๋ค.
ย
ย
6)Fine-Grained Features
๊ธฐ์กด์ yolo์์๋ CNN์ ํต๊ณผํ ๋ง์ง๋ง ๋ ์ด์ด์ ํผ์ณ๋งต๋ง ์ฌ์ฉํ์ฌ ์์ ๋ฌผ์ฒด์ ๋ํ ์ ๋ณด๊ฐ ์ฌ๋ผ์ง๋ค๋ ๋นํ์ด ์์๋ค. yolov2์์๋ ์์ ๋ ์ด์ด์ ํผ์ณ๋งต์ ํ์ ํผ์ณ๋งต์ ํฉ์ณ์ฃผ๋ passthrough layer๋ฅผ ๋์
ํ๋ค. high resolution๋ฅผ stackingํ๋ฏ, low resolution feature map๊ณผ concatenateํ๋ค.
์ ๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ฏ์ด ๋์ ํด์๋๋ฅผ ๊ฐ์ง 26x26x256 ํผ์ณ๋งต์ 13x13x2048 ํฌ๊ธฐ๋ก ๋ฆฌ์ค์ผ์ผํ์ฌ ๋ฎ์ ํด์๋์ ํผ์ณ๋งต๊ณผ ํฉ์ณ 13x13x3072 ํฌ๊ธฐ์ ํผ์ณ๋งต์ ๋ง๋ค์ด ๋ด๋ ๋ชจ์ต์ ๋ณผ ์ ์๋ค.
์ด๋ฅผ ํตํด mAP ๊ฐ 1% ์ ๋ ํฅ์๋์๋ค๊ณ ํ๋ค.
7)Multi-Scale Training
YOLOv2์์๋ fully-connected layer๋ฅผ ์์ ๊ณ convolutional layer๋ฅผ ์ฌ์ฉํ์ฌ ์
๋ ฅ ์ฌ์ด์ฆ๋ฅผ ์์ ๋กญ๊ฒ ์กฐ์ ํ ์ ์๋ค. ๋ค์ํ ์
๋ ฅ ์ฌ์ด์ฆ์ ๋ํด robustํ๊ฒ ๋ง๋ค๊ธฐ ์ํด 10 epochs ๋ง๋ค ์
๋ ฅ ์ด๋ฏธ์ง์ ํฌ๊ธฐ๋ฅผ {320, 352, ..., 608} ์ค์์ ๋๋คํ๊ฒ ์ ํํ์ฌ ํ๋ จํ๋ค. (32๋งํผ downsamplingํ๊ธฐ ๋๋ฌธ์ 32์ ๋ฐฐ์์ฌ์ผ ํ๋ค) ๋ฐ๋ผ์ ๊ฐ์ ๋ชจ๋ธ๋ก ๋ค์ํ ํด์๋์ ๋ํด ํ๋ จํ ์ ์์ด ๋ robustํด์ง๊ณ ์์ ํด์๋์ ๋ํด์๋ ์๋์ ์ ํ๋๋ฅผ ๋์ผ ์ ์๋ค.
Table 3์ multi-scale training ๊ธฐ๋ฒ์ ์ ์ฉํ ํ ํ
์คํธ ์์ ์
๋ ฅ ํด์๋๋ง ๋ฌ๋ฆฌํ ๊ฒฐ๊ณผ์ด๋ค.
YOLOv2๋ accuracy์ speed ๋ผ๋ tradeoff ๊ด๊ณ์์ ์ข์ ์ฑ๋ฅ์ ๋ํ๋ด๋ ๋ชจ๋ธ์์ ๋ณด์ฌ์ฃผ๊ณ ์๋ค.
Faster
์ด ์น์
์์๋ YOLOv2๊ฐ YOLOv1์ ๋นํด ์ด๋ป๊ฒ ์๋ ์ธก๋ฉด์์ ๊ฐ์ ์ ์ด๋ฃจ์๋์ง๋ฅผ ๋ค๋ฃฌ๋ค. YOLOv1์ Googlenet์ ์ฌ์ฉํ์๋๋ฐ Googlenet์ VGG-16์ ๋นํด ์ ํ๋๋ ์ฝ๊ฐ ๋จ์ด์ง์ง๋ง ์๋๋ ๋น ๋ฅด๋ค. ํ์ง๋ง Googlenet์ ๋คํธ์ํฌ๊ฐ ๋๋ฌด ํฌ๊ณ ๋ณต์กํ์ฌ, YOLOv2์์๋ Fully connected layer๋ฅผ ์์ ๊ณ Global average pooling์ ์ฌ์ฉํ๋ Darknet-19๋ฅผ ์ฌ์ฉํ๋ค.
Darknet-19
Darknet-19๋ YOLOv2๊ฐ ์ฌ์ฉํ ์๋ก์ด ๋ถ๋ฅ ๋ชจ๋ธ์ด๋ค. ์ด ๋ชจ๋ธ์ 19๊ฐ์ Convolutional layers์ 5๊ฐ์ Max pooling layers๋ฅผ ๊ฐ์ง๋ค. VGG-16๊ณผ ์ ์ฌํ๊ฒ ์ฃผ๋ก 3 x 3 ํํฐ๋ฅผ ์ฌ์ฉํ๋ฉฐ, ํ๋ง ๋จ๊ณ ์ดํ ์ฑ๋์ ๋ ๋ฐฐ์ฉ ์ฆ๊ฐ์ํจ๋ค. ๋ํ ๋ง์ง๋ง์ Global average pooling์ ์ฌ์ฉํจ์ผ๋ก์จ 3 x 3 ์ปจ๋ณผ๋ฃจ์
์ feature representation์ ์์ถํ๋ 1 x 1 ํํฐ๋ฅผ ์ฌ์ฉํ๋ค. ์ด๋ ๊ธฐ์กด์ Fully connected layer๋ฅผ ์ ๊ฑฐํ๊ณ Convolution ์ฐ์ฐ์ผ๋ก ๋์ฒดํ์ฌ ํ๋ผ๋ฏธํฐ ์๋ฅผ ์ค์ธ ๊ฒ์ด๋ค. ์ฆ ๊ฒฝ๋ CNN ์ํคํ
์ณ๋ฅผ ์ฌ์ฉํ์ฌ YOLOv1์์ ์๋๋ฅผ ๊ฐ์ ์ ์ด๋ฃฌ ๊ฒ์ด๋ค.
ย
ย
Stronger
์ด ์น์
์์๋ ๋ถ๋ฅ ๋ฐ์ดํฐ์
๊ณผ ํ์ง ๋ฐ์ดํฐ์
์ ์ด๋ป๊ฒ Joint training ์ํค๋์ง์ ๋ํ ์ด์ผ๊ธฐ๋ฅผ ํ๋ค. ์ฆ YOLOv2๊ฐ ์ด๋ป๊ฒ 9000๊ฐ๋ ๋๋ ํด๋์ค๋ฅผ ๋ถ๋ฅํด๋ด๋๊ฐ์ ๋ํ ์ค๋ช
์ ๋ค๋ฃจ๋ ๋ฐ์ด๋ค. ์ด ๋ถ๋ถ์ด์ผ๋ง๋ก ์ด ๋
ผ๋ฌธ์์ ๊ฐ์ฅ ํฅ๋ฏธ๋ก์ด ๋ถ๋ถ ์ค ํ๋์ธ ๊ฒ ๊ฐ๋ค.
1)Hierarchical classification
ํ์ง ๋ฐ์ดํฐ์
์ โ๊ฐโ๋ โ๋ณดํธโ์ ๊ฐ์ ์ผ๋ฐ ๋ ์ด๋ธ์ ๊ฐ์ง์ง๋ง, ๋ถ๋ฅ ๋ฐ์ดํฐ์
(ImageNet)์ โ๋
ธํฝ ํ
๋ฆฌ์ดโ, โ์ํฌ์
ํ
๋ฆฌ์ดโ, โ๋ฒ ๋ค๋งํด ํ
๋ฆฌ์ดโ์ ๊ฐ์ด ํจ์ฌ ๋ ๋๊ณ ๊น์ ๋ฒ์์ ๋ ์ด๋ธ์ ๊ฐ์ง๊ณ ์๋ค. ๋ฐ๋ผ์ ์ฐ๊ตฌ์ง์ ์ด ๊ฑฐ๋ํ ๋ฐ์ดํฐ์
์ ํ์ต์ํค๊ธฐ ์ํด ๊ณ์ธต์ ๋ถ๋ฅ๋ฅผ ์ํํด์ผํ๋ค๊ณ ์ ์ํ๋ค. ์ฌ๊ธฐ์ ์ ์๋ ๊ณ์ธต์ ๋ถ๋ฅ๋ Softmax funtion์ ์ํํ ๋ ์ ์ฒด Class์ ๋ํด ํ๊บผ๋ฒ์ ์ํํ์ง ์๊ณ , ๋๋ถ๋ฅ๋ณ๋ก Softmax๋ฅผ ์ฌ๋ฌ ๊ฐ ์ํํ๋ ๊ฒ์ด๋ค.
ย
2)Dataset combination with WorkTree
์์ ์ธ๊ธํ ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ์ด๋ฃจ๊ธฐ ์ํ์ฌ ์ฐ๊ตฌ์ง์ COCO ๋ฐ์ดํฐ์
๊ณผ ImageNet ๋ฐ์ดํฐ์
์ ์์ด ์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ ํธ๋ฆฌ๊ตฌ์กฐ๋ก ์ฌ๋ฐฐ์นํ๋ค.
ย
๋ฐ๋ผ์ ์ต์ข
Multi-label ๊ฒฐ๊ณผ์์ ํน์ ๋
ธ๋์ ๋ํ ์ต์ข
Class score๋ฅผ ๊ณ์ฐํ๊ณ ์ถ๋ค๋ฉด, ํธ๋ฆฌ๋ฅผ ํตํด ๋ฃจํธ ๋
ธ๋๊น์ง์ ๊ฒฝ๋ก๋ฅผ ๋ฐ๋ผ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ๊ณฑํด์ฃผ๋ฉด ๋๋ค. ์๋ฅผ ๋ค์ด ์ด๋ค ์ด๋ฏธ์ง๊ฐ ๋
ธํฝ ํ
๋ฆฌ์ด์ ํด๋นํ๋ ์ด๋ฏธ์ง์ธ์ง ์๊ณ ์ถ๋ค๋ฉด ์ ๊ทธ๋ฆผ๊ณผ ๊ฐ์ด ๊ตฌํ๋ฉด ๋๋ค.
๊ทธ๋ฆฌ๊ณ ํ์ต ์์ ๋ง์ฝ ๋ ์ด๋ธ์ด โ์ํฌ์
ํ
๋ฆฌ์ดโ๋ผ๊ณ ํ๋ค๋ฉด, ๋์์ ๋๋ถ๋ฅ ์นดํ
๊ณ ๋ฆฌ๋ฅผ ์๊ธฐ ์ํ์ฌ ์์์ ์์ฑํ ํธ๋ฆฌ๋ฅผ ์ญ์ถ์ ํ๋ ๋ฐฉ์์ผ๋ก Multi-label์ ํ์ต์ํฌ ์ ์๋ค.
3)Joint classificaion and detection
์ฐ๊ตฌ์ง์ COCO ๋ฐ์ดํฐ์
๊ณผ ImageNet ๋ฐ์ดํฐ์
์ ํผํฉํ์ฌ ๋ง๋ WordTree๋ฅผ ํตํด ์ด 9418๊ฐ์ ํด๋์ค๋ฅผ ๊ฐ์ง ๋ฐ์ดํฐ์
์ ํ๋ณดํด ๋๋ค. ๋ํ ImageNet์ด ํจ์ฌ ๋ ํฐ ๋ฐ์ดํฐ์
์ด๋ฏ๋ก COCO ๋ฐ์ดํฐ์
์ ๊ณผ๋ค์ํ๋งํ์ฌ 4:1๊น์ง ๋น์จ์ ์กฐ์ ํด์ค ๋ค ์์ 9000๊ฐ ํด๋์ค์ ๋ํ ํ์ต์ ์งํ์์ผฐ๋ค.
๋ชจ๋ธ์ ํ์ต์ํฌ ๋, Detection label์ ๋ํด์๋ ๊ธฐ์กด์ ์ฌ์ฉํ๋ ๋ฐฉ์์ ์ฌ์ฉํ๋ค. ํ์ง๋ง ๋ ์ด๋ธ์ด โdogโ์ธ ๊ฒฝ์ฐ, ์์๋
ธ๋๋ง ์กด์ฌํ๊ณ ํ์๋
ธ๋ ์ ๋ณด๋ ์กด์ฌํ์ง ์๋ ๊ฒ์ ํ์ธํ ์ ์๋ค. ์ด์ ๊ฐ์ ๊ฒฝ์ฐ์๋ โdogโ ๋ ์ด๋ธ ์ด์์ ๋ ์ด๋ธ๋ค์์๋ง loss๋ฅผ ์ญ์ ํํ๋ค. ๊ทธ๋ฆฌ๊ณ ํ์ ๋
ธ๋์ ๋ํด์๋ ๋ชจ๋ ํ๋ ธ๋ค๋ ์๋ฌ๊ฐ์ ๋ถ์ฌํ๋ค.
๋ฐ๋ผ์ ๋๋ฌผ์ ๋ํด ์ผ๋ฐํ๊ฐ ์ ๋์ด์๋ COCO ๋ฐ์ดํฐ์
์ ํน์ฑ์ผ๋ก ์ธํด ์๋ก์ด ๋๋ฌผ์ ํ์ตํ๋ ๊ฒ์ ๋งค์ฐ ์ฝ์ง๋ง, ์ญ์ผ๋ก COCO ๋ฐ์ดํฐ์
์ ์ด๋ ํ ์๋ณต์๋ ๋ฐ์ด๋ฉ๋ฐ์ค ์ ๋ณด๋ฅผ ๊ฐ์ง๊ณ ์์ง ์๊ธฐ ๋๋ฌธ์ โ์ ๊ธ๋ผ์คโ๋ โ์์๋ณตโ๊ณผ ๊ฐ์ ๋ฒ์ฃผ๋ฅผ ๋ชจ๋ธ๋งํ๋ ๋ฐ์๋ ์ด๋ ค์์ ๊ฒช๋๋ค.
Conclusion
YOLOv1์์ YOLOv2๋ก์ ๋ณํ๋ ๋งค์ฐ ์ฐฝ์์ ์ด๋ผ๊ณ ๋ณผ ์ ์๋ค. ๊ธฐ์กด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋ณํ์ํค๋ ๋ฐ์ ๊ทธ์น์ง ์๊ณ , ์ทจ๊ธํ Class ์๋ฅผ 9000๊ฐ๊น์ง ์ฆ๊ฐ์์ผฐ๊ธฐ ๋๋ฌธ์ด๋ค. ๋ํ ๊ณ์ธต์ ๊ตฌ์กฐ๋ฅผ ํ์ฉํ ๋ถ๋ฅ ๋ฐฉ๋ฒ ์ญ์ ์ฌ๋ฌ ๋๋ฉ์ธ์์ ์์ฃผ ์ ์ฉํ๊ฒ ์์ฉํ ๊ฒ์ด๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก YOLOv2๋ ํ์ง ๋ฐ ๋ถ๋ฅ๋ฅผ ๋ชจ๋ ์ต์ ํํ์ฌ 9000๊ฐ ์ด์์ ๊ฐ์ฒด ๋ฒ์ฃผ๋ฅผ ํ์งํด๋ด๋ ์ค์๊ฐ ํ๋ ์์ํฌ์ด๋ค. WorkTree๋ฅผ ์ฌ์ฉํ์ฌ ๋ค์ํ ์์ค์ ๋ฐ์ดํฐ์ ๊ณต๋ ์ต์ ํ ๊ธฐ์ ์ ๊ฒฐํฉํ์ฌ ImageNet๊ณผ COCO๋ฅผ ๋์์ ํ๋ จ์ํจ ๋ชจ๋ธ์ด๋ค. ์ฆ YOLO9000์ ํ์ง ๋ฐ ๋ถ๋ฅ ๋ฐ์ดํฐ์
์ฌ์ด์ ๋ฐ์ดํฐ ํฌ๊ธฐ ๊ฒฉ์ฐจ ๋ฌธ์ ๋ฅผ ํด์ํ ์ ์๋ ๊ฐ๋ ฅํ ์๋จ์ด๋ฉฐ, ์ด๋ ๋น์์ ๊ฐ์ฒด ๊ฒ์ถ ์์คํ
์ค ๊ฐ์ฅ ์ต์ฒจ๋จ์ ๋์ธ ๋ชจ๋ธ๋ก ๋ค๋ฅธ ์์คํ
๋ค๋ณด๋ค ์๋๊ฐ ๋น ๋ฅธ ์ฅ์ ์ ๊ฐ์ง๋ค.
ย
์ฐธ๊ณ ์๋ฃ
ย