YOLO9000: Better, Faster, Stronger
โšก

YOLO9000: Better, Faster, Stronger

Created
May 3, 2022
Editor
์ •๋ฏผ ์ง„
Tags
Vision
cleanUrl: "paper/YOLOv2"
๐Ÿ“„
๋…ผ๋ฌธ : YOLO9000: Better, Faster, Stronger ์ €์ž : Joseph Redmon, Ali Farhadi

๋…ผ๋ฌธ ์„ ์ • ๋ฐฐ๊ฒฝ

YOLOv1์— ์ด์–ด YOLOv2 ๋…ผ๋ฌธ์„ ์ฝ์œผ๋ฉด์„œ YOLO ๋ชจ๋ธ์— ๋Œ€ํ•œ ์ดํ•ด๋ฅผ ๋†’์ด๊ณ ์ž ์„ ํƒํ•˜๊ฒŒ ๋˜์—ˆ๋‹ค. YOLO์„ ๋ณด์™„ํ•˜์—ฌ, ์—ฌ๋Ÿฌ ์ฐธ์‹ ํ•œ ๊ธฐ๋ฒ•์„ ์ ์šฉํ•˜์—ฌ ์†๋„์™€ ์ •ํ™•์„ฑ์„ ๋ชจ๋‘ ์žก์€ real-time detector์ธ YOLOv2๋ฅผ ์†Œ๊ฐœํ•  ์˜ˆ์ •์ด๋‹ค.

Introduction

๋ฌด๋ ค 9000 ์ข…๋ฅ˜์˜ ๋ฌผ์ฒด๋ฅผ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ๋Š” real-time objector์ธ YOLO 9000 ๋ชจ๋ธ์„ ๊ณต๊ฐœํ–ˆ๋‹ค. ๊ธฐ์กด YOLO ๋ชจ๋ธ์— ๋‹ค์–‘ํ•œ ๋ฐฉ๋ฒ•์œผ๋กœ ๊ฐœ์„ ํ•˜์—ฌ YOLOv2 ๋ชจ๋ธ์„ ๋งŒ๋“ค์—ˆ์œผ๋ฉฐ dataset combination๋ฐฉ๋ฒ•๊ณผ joint training ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ด์šฉํ•˜์—ฌ ImageNet๊ณผ COCO ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ๋ถ€ํ„ฐ 9000 ์ข…๋ฅ˜๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ๋ชจ๋ธ์„ ํ›ˆ๋ จํ–ˆ๋‹ค. yolov2 ๋ชจ๋ธ์€ ๊ธฐ์กด yolov1 ๋ชจ๋ธ๋ณด๋‹ค better, faster, strongerํ•œ ๋ถ€๋ถ„์„ ์ œ์‹œํ•œ๋‹ค. Yolov2๋Š” PASCAL VOC์™€ COCO dataset์— ๋Œ€ํ•ด SOTA ๋ชจ๋ธ์ด๋ฉฐ speed์™€ accuracy๋ฅผ ๋ชจ๋‘ ๊ฐ€์ง€๋Š” ๋ชจ๋ธ์ด๋‹ค.

Better

๋‚ฎ์€ recall๊ณผ ๋งŽ์€ localization์„ ๊ฐ€์กŒ๋˜ YOLO๋ฅผ ๊ฐœ์„ ํ•˜๊ธฐ ์œ„ํ•ด YOLOv2๋Š” ๊ธฐ์กด YOLO ๋ชจ๋ธ์—์„œ ๋ถ„๋ฅ˜ ์ •ํ™•๋„๋ฅผ ์œ ์ง€ํ•˜๋ฉด์„œ recall๊ณผ localization์„ ํ–ฅ์ƒ์‹œํ‚ค๋Š” ๊ฒƒ์— ์ง‘์ค‘ํ–ˆ๋‹ค.
์ด๋ฅผ ์œ„ํ•ด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ๊ธฐ๋ฒ•์„ yolo ๋ชจ๋ธ์— ์ ์šฉํ•˜์˜€๋‹ค.
  • Batch Normalization
  • High Resolution Classifier
  • Convolutional With Anchor Boxes
  • Dimension Clusters
  • Direct location prediction
  • Fine-Grained Features
  • Multi-Scale Training

1)Batch Normalization

batch normalization์„ ์ •๊ทœํ™” ์—ญํ• ์„ ํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์˜ค๋ฒ„ํ”ผํŒ…์„ ๋ฐฉ์ง€ํ•œ๋‹ค.
YOLO์˜ ๋ชจ๋“  convolutional layer์— BN์„ ์ ์šฉํ•˜์—ฌ mAP๊ฐ€ 2%๊ฐ€ ์ƒ์Šนํ•˜์˜€๋‹ค.

2)High Resolution Classifier

๊ธฐ์กด์˜ YOLO๋Š” classification network๋ฅผ 224x224 ํฌ๊ธฐ์˜ ํ•ด์ƒ๋„๋กœ ํ•™์Šตํ•œ ํ›„, 448x448 ํฌ๊ธฐ์˜ ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด์„œ detection์„ ์ˆ˜ํ–‰ํ•˜๊ฒŒ ๊ตฌ์„ฑ๋˜์–ด ์žˆ์–ด ํ•ด์ƒ๋„๊ฐ€ ๋งž์ง€ ์•Š์•˜๋‹ค. ์ด๋ฅผ detection ํ•™์Šต ์ „์— Image Classification ๋ชจ๋ธ์„ ํฐ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€์— ๋Œ€ํ•ด์„œ fine-tuning ํ•จ์œผ๋กœ์จ ํ•ด๊ฒฐํ•˜์˜€์œผ๋ฉฐ, ์•ฝ 4% mAP๊ฐ€ ์ฆ๊ฐ€ํ–ˆ๋‹ค๊ณ  ํ•œ๋‹ค.

3)Convolutional With Anchor Boxes

YOLO๋Š” fully connected layer๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์ขŒํ‘œ๋ฅผ ์˜ˆ์ธกํ•˜๋Š”๋ฐ, Faster R-CNN ๊ณผ ๊ฐ™์€ region proposal network (RPN) ๊ณ„์—ด์€ convolution layer ๋งŒ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ตœ์ข… feature map ์˜ ๊ฐ ํ”ฝ์…€ ๋ณ„๋กœ ์•ต์ปค ๋ฐ•์Šค๋ฅผ ์„ค์ •ํ•˜๊ณ  ์ด์— ๋Œ€ํ•œ offset ๊ณผ confidence๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค. YOLO์™€ ๊ฐ™์ด ์ขŒํ‘œ๋ฅผ ์ง์ ‘ ํ•™์Šตํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ๋ฏธ๋ฆฌ ์ •์˜๋œ ์•ต์ปค ๋ฐ•์Šค์— ๋Œ€ํ•œ ๋น„์œจ์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ์ด ํ•™์Šต์ด ๋” ์‰ฝ๊ธฐ ๋•Œ๋ฌธ์— YOLOv2 ์—์„œ๋Š” RPN ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•œ๋‹ค. ๋”ฐ๋ผ์„œ YOLO ๋ชจ๋ธ์—์„œ fc layer๋ฅผ ์ œ๊ฑฐํ•˜์˜€๊ณ , ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค ์˜ˆ์ธก์„ ์œ„ํ•ด ์•ต์ปค ๋ฐ•์Šค๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค.
ย 
๋˜ํ•œ, feature map ํฌ๊ธฐ๋ฅผ ๋Š˜๋ฆฌ๊ธฐ ์œ„ํ•ด max-pooling layer ๋ฅผ ํ•˜๋‚˜ ์‚ญ์ œํ•˜๊ณ  ์ตœ์ข… feature map ํฌ๊ธฐ๊ฐ€ 13x13 ๊ฐ™์ด ํ™€์ˆ˜๋กœ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด ์ž…๋ ฅ ์ด๋ฏธ์ง€๋ฅผ 416x416 ํฌ๊ธฐ๋กœ ํ•˜์˜€๋‹ค. ์ด๋ฅผ ํ†ตํ•ด receptive ์†๋„๋„ ๋นจ๋ผ์ง€๊ณ , ์ตœ์ข…์ ์ธ grid cell์˜ receptive field๊ฐ€ ๋” ์ปค์ง„๋‹ค๊ณ  ํ•œ๋‹ค.
ย 
notion image
ย 
๐Ÿ’ฌ
Hyune Lee ์œ„ ๋‚ด์šฉ ์ค‘์—์„œ ์ตœ์ข… feature map์˜ ํฌ๊ธฐ๋ฅผ ํ™€์ˆ˜๋กœ ์žก๋Š” ์ด์œ ๊ฐ€ ์™€๋‹ฟ์ง€ ์•Š๋Š” ๊ฒƒ ๊ฐ™์Šต๋‹ˆ๋‹ค..!
์ •๋ฏผ ์ง„ convention์ด๋ผ๊ณ  ์ƒ๊ฐํ•˜๋ฉด ํŽธํ•ฉ๋‹ˆ๋‹ค. ๊ทธ๋Ÿฐ convention์ด ์ƒ๊ธด ์ด์œ ๋Š” cnn์€ ๊ธฐ๋ณธ์ ์œผ๋กœ ์ž…๋ ฅ์— ๋Œ€ํ•œ ์ธ์ฝ”๋”ฉ์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์ธ๋ฐ, ์ด๋•Œ ํ™€์ˆ˜๊ฐ€ ์•„๋‹Œ ์ง์ˆ˜์ธ feature map์œผ๋กœ ์ธ์ฝ”๋”ฉ์„ ํ•˜๋ฉด ์ž…๋ ฅ์— ๋Œ€ํ•œ ์ •๋ณด๊ฐ€ feature map์— ์ค‘์‹ฌ์œผ๋กœ ๋ถ€ํ„ฐ symmetricํ•˜๊ฒŒ ๋ถ„ํฌ๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค(์ง์ˆ˜๋Š” center point๊ฐ€ ๋ถˆ๋ช…ํ™•ํ•˜๋ฏ€๋กœ). ์ด๋กœ ์ธํ•ด ์ธ์ฝ”๋”ฉ์— ์™œ๊ณก์ด ๋ฐœ์ƒํ•˜๊ณ  ์ด๋Š” cnn layer๋ฅผ ์—ฌ๋Ÿฌ๊ฐœ ์ง€๋‚ ์ˆ˜๋ก ์‹ฌํ•ด์ง‘๋‹ˆ๋‹ค. ์ฆ‰ cnn์˜ ๊ฐ€์žฅ ํฐ ๊ฐ•์ ์ธ spatial information capturing ๋Šฅ๋ ฅ์ด ์ €ํ•˜๋˜๋Š” ๊ฒƒ ์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ์ž…๋ ฅ ์ •๋ณด์˜ ๊ณต๊ฐ„ ํŠน์„ฑ์„ ์ตœ๋Œ€ํ•œ ์œ ์ง€ํ•  ์ˆ˜ ์žˆ๋Š” ํ™€์ˆ˜ ํฌ๊ธฐ์˜ feature map์„ ์‚ฌ์šฉํ•˜๋Š”๊ฒŒ convention์ด ๋œ ๊ฒƒ์ž…๋‹ˆ๋‹ค.
Hyune Lee ์•„ํ•˜ ๊ทธ๋ ‡๊ตฐ์š”!! ์ดํ•ด ๋์Šต๋‹ˆ๋‹ค! ์ž์„ธํ•œ ์„ค๋ช… ๊ฐ์‚ฌ๋“œ๋ฆฝ๋‹ˆ๋‹ค๐Ÿ˜Š
ย 
๊ทธ๋ฆฌ๋“œ ์…€๋งˆ๋‹ค object๊ฐ€ ์กด์žฌํ•  ๊ฒƒ ๊ฐ™์€ 5๊ฐœ์˜ anchor box๋ฅผ ์ฐพ๊ณ , yolov1๊ณผ ๋‹ฌ๋ฆฌ anchor box ๋ณ„๋กœ ๋ฅผ ๊ณ„์‚ฐํ•œ๋‹ค. (YOLOv1์˜ ๊ฒฝ์šฐ ๊ฐ™์€ ๊ทธ๋ฆฌ๋“œ ์…€์—์„œ ์˜ˆ์ธกํ•œ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋Š” ๊ฐ™์€ ๋ฅผ ๊ฐ–๋Š”๋‹ค.)
yolo๋กœ๋Š” ํ•œ ์ด๋ฏธ์ง€ ๋‹น ์˜ค์ง 98๊ฐœ์˜ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋งŒ์„ ์˜ˆ์ธกํ•˜์ง€๋งŒ, yolov2๋Š” 1000๊ฐœ ์ด์ƒ์˜ ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค. ์ˆ˜์น˜์ƒ anchor box๋ฅผ ์ด์šฉํ•˜์ง€ ์•Š์€ ๊ฒฝ์šฐ mAP๋Š” 69.5, recall์€ 81%์ด๊ณ  Anchor box๋ฅผ ์ด์šฉํ•œ ๊ฒฝ์šฐ mAP๋Š” 69.2, recall์€ 88%์œผ๋กœ ๋น„๋ก mAP๋Š” ๊ฐ์†Œํ–ˆ์ง€๋งŒ recall์ด ๋†’์•„์กŒ์œผ๋ฏ€๋กœ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์˜ ์—ฌ์ง€๋ฅผ ๋งํ•ด์ค€๋‹ค.

4)Dimension Clusters

๊ธฐ์กด์—๋Š” anchor box ratio, size๋ฅผ ์‚ฌ์ „์— ๋ฏธ๋ฆฌ ์ •ํ–ˆ๋Š”๋ฐ(hand pick), ๋Œ€์‹ ์— YOLOv2์—์„œ๋Š” VOC data, COCO data์— ์กด์žฌํ•˜๋Š” object์˜ bounding box๋ฅผ clustering์„ ํ•˜์—ฌ scale๊ณผ ratio๋ฅผ ์ž๋™์œผ๋กœ ๊ฒฐ์ •ํ•˜๊ณ  ์ด๋ฅผ ํ†ตํ•ด groundtruth์™€ ๊ฐ€์žฅ ์œ ์‚ฌํ•œ optimal anchor box๋ฅผ ํƒ์ƒ‰ํ•œ๋‹ค.
๊ฑฐ๋ฆฌ๋ฅผ ์žด ๋•Œ ์ผ๋ฐ˜์ ์ธ Euclidean ๊ฑฐ๋ฆฌ๋ฅผ ์ค‘์‹ฌ์— ๋Œ€ํ•ด ์ ์šฉํ•˜๋ฉด, ground truth ์™€ ๋‹ค๋ฅธ ์—‰๋šฑํ•œ ์•ต์ปค๋ฐ•์Šค๊ฐ€ ๊ตฐ์ง‘ํ™”๋  ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค. ํŒŒ๋ž€์ƒ‰ ๋ฐ•์Šค๋Š” ground truth, ๋นจ๊ฐ„์ƒ‰ ๋ฐ•์Šค๋Š” ์•ต์ปค ๋ฐ•์Šค prior๋ผ ํ•  ๋•Œ ์™ผ์ชฝ์˜ ๊ฒฝ์šฐ๋Š” ๋งค์šฐ ๋น„์Šทํ•˜๋”๋ผ๋„ ์ค‘๊ฐ„๊ณผ ์˜ค๋ฅธ์ชฝ ์•ต์ปค ๋ฐ•์Šค prior ์— ๋น„ํ•ด ์ค‘์‹ฌ์  ์‚ฌ์ด์˜ ๊ฑฐ๋ฆฌ๊ฐ€ ๋ฉ€์–ด ๊ฐ™์€ ๊ตฐ์ง‘์œผ๋กœ ํ• ๋‹น๋˜์ง€ ๋ชปํ•  ์ˆ˜ ์žˆ๋‹ค.
notion image
Euclidean ๊ฑฐ๋ฆฌ๊ฐ€ ๊ฐ€๊นŒ์›€์—๋„ groundtruth์™€ ์•ต์ปค๋ฐ•์Šค๊ฐ€ ๋งŽ์ด ์ƒ์ดํ•  ์ˆ˜ ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋ฐ•์Šค ํฌ๊ธฐ์™€ ๋ฌด๊ด€ํ•˜๊ฒŒ IOU๊ฐ€ ๋†’์•„์ง€๋„๋ก ํ•˜๊ธฐ ์œ„ํ•ด
notion image
1-IOU(box,centroid)๋ฅผ Euclidean ๊ฑฐ๋ฆฌ ๋Œ€์‹  ์‚ฌ์šฉํ•œ๋‹ค.
notion image
์—ฌ๋Ÿฌ k๋ฅผ ์ ์šฉํ•ด๋ณธ ๊ฒฐ๊ณผ, k=5์ผ๋•Œ recall๊ณผ ๋ชจ๋ธ์˜ ๋ณต์žก์„ฑ์ด๋ผ๋Š” tradeoff ๊ด€๊ณ„์—์„œ ์ข‹์€ ๊ฒฐ๊ณผ๋ฅผ ์ฃผ์–ด k=5๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

5)Direct location prediction

YOLOv1์—์„œ๋Š” ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ (x,y)์ขŒํ‘œ(๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ์ค‘์‹ฌ์ขŒํ‘œ)๊ฐ€ randomํ•˜๊ฒŒ ์„ค์ •๋˜์–ด ์ดˆ๊ธฐ ํ•™์Šต์— ์–ด๋ ค์›€์ด ์žˆ์—ˆ๊ณ , region proposal network์—์„œ๋Š” ์•„๋ž˜์‹๊ณผ ๊ฐ™์ด , ๋ฅผ ์˜ˆ์ธกํ•˜๋Š”๋ฐ
notion image
๋งŒ์•ฝ ๊ฐ€ 1์ด๋ฉด prediction box๋Š” anchor box์˜ ๊ฐ€๋กœ๋งŒํผ ์˜ค๋ฅธ์ชฝ์œผ๋กœ ์ด๋™, -1์ด๋ฉด ์™ผ์ชฝ์œผ๋กœ ์ด๋™ํ•œ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋ฅผ ์‚ฌ์šฉํ•ด๋„ ์ดˆ๊ธฐ๊ฐ’์— ๋Œ€ํ•œ ๋ฌธ์ œ๋Š” ํ•ด๊ฒฐ์ด ๋˜์ง€์•Š๋Š”๋‹ค. ์˜ ์ œํ•œ๋œ ๋ฒ”์œ„๊ฐ€ ์—†๊ธฐ ๋•Œ๋ฌธ์— ํ›ˆ๋ จ ์ดˆ๊ธฐ์— ์•ต์ปค ๋ฐ•์Šค๊ฐ€ ์ด๋ฏธ์ง€ ์–ด๋””์—๋„ ์œ„์น˜ํ•  ์ˆ˜ ์žˆ์–ด ๋ชจ๋ธ์ด ๋žœ๋คํ•˜๊ฒŒ ์ดˆ๊ธฐํ™” ๋˜์—ˆ์„ ๋•Œ ์ˆ˜๋ ด์ด ์˜ค๋ž˜ ๊ฑธ๋ฆฌ๊ณ  ํ›ˆ๋ จ ์ดˆ๊ธฐ๊ฐ€ ๋ถˆ์•ˆ์ •ํ•ด์ง€๊ฒŒ ๋œ๋‹ค.
๋”ฐ๋ผ์„œ YOLOv2๋Š” YOLO ๋ชจ๋ธ์˜ ์ ‘๊ทผ์— region proposal network์—์„œ ์‚ฌ์šฉํ•œ ๋ฐฉ์‹์„ ์ˆ˜์ •ํ•˜์—ฌ ์‚ฌ์šฉํ•˜์˜€๋‹ค. ๊ธฐ์กด์˜ yolo๊ฐ€ ๊ทธ๋ฆฌ๋“œ์˜ ์ค‘์‹ฌ์ ์„ ์˜ˆ์ธกํ–ˆ๋‹ค๋ฉด, yolov2์—์„œ๋Š” left top ๊ผญ์ง€์ ์œผ๋กœ๋ถ€ํ„ฐ ์–ผ๋งŒํผ ์ด๋™ํ•˜๋Š” ์ง€๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค. YOLOv2๋Š” YOLO ์—์„œ์™€ ๊ฐ™์ด ๊ทธ๋ฆฌ๋“œ ์…€์˜ ์ƒ๋Œ€์ ์ธ ์œ„์น˜ ์ขŒํ‘œ๋ฅผ ์˜ˆ์ธกํ•œ๋‹ค. YOLOv1์—์„œ๋Š” (x,y)์˜ ์œ„์น˜๋ฅผ grid cell ์•ˆ์ชฝ์— ๋‘๊ณ , object๊ฐ€ ์žˆ์„๋•Œ๋Š” 1, ์—†์„๋•Œ๋Š” 0์œผ๋กœ ํŒ๋‹จํ•˜์˜€์ง€๋งŒ, YOLOv2์—์„œ๋Š” logistic activation์„ ์‚ฌ์šฉํ•˜์—ฌ 0๊ณผ 1์‚ฌ์ด์˜ ๊ฐ’์œผ๋กœ ํ‘œํ˜„์‹œํ‚จ๋‹ค.ย  ๊ฐ ๊ทธ๋ฆฌ๋“œ ์…€์—์„œ๋Š” 5๊ฐœ์˜ bounding box๋ฅผ ์˜ˆ์ธกํ•˜๊ณ , ๊ฐ bounding box์—๋Š” ๋กœ 5๊ฐœ ์”ฉ์˜ ์ •๋ณด๊ฐ€ ๋‹ด๊ฒจ์žˆ๋‹ค.
notion image
  • : grid cell์—์„œ ํ•ด๋‹น ํ”ฝ์…€์ด ์–ผ๋งˆ๋‚˜ ๋–จ์–ด์ ธ ์žˆ๋Š”์ง€ ๋‚˜ํƒ€๋‚ด๋Š” ์˜คํ”„์…‹
  • : ๊ตฐ์ง‘ํ™”๋กœ ์˜ˆ์ธกํ•œ ์•ต์ปค ๋ฐ•์Šค์˜ width์™€ height
์ด๋ฅผ ํ†ตํ•ด ๊ทธ๋ฆฌ๋“œ ์…€์— ๋ฐ”์šด๋”ฉ ๋ฐ•์Šค์˜ ์ค‘์‹ฌ์ขŒํ‘œ๊ฐ€ ์œ„์น˜ํ•˜๊ฒŒ ๋œ๋‹ค.
์ด ์‹์„ ์‚ฌ์šฉํ•˜์—ฌ location prediction์„ ๋”์šฑ ์‰ฝ๊ฒŒ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ๊ณ , dimension cluster์™€ ํ•จ๊ป˜ ์œ„์˜ ์‹์„ ์ ์šฉํ•œ ๊ฒฐ๊ณผ ์„ฑ๋Šฅ์ด 5% ์ด์ƒ ์ƒ์Šนํ•˜์˜€๋‹ค๊ณ  ํ•œ๋‹ค.
ย 
notion image
ย 

6)Fine-Grained Features

notion image
๊ธฐ์กด์˜ yolo์—์„œ๋Š” CNN์„ ํ†ต๊ณผํ•œ ๋งˆ์ง€๋ง‰ ๋ ˆ์ด์–ด์˜ ํ”ผ์ณ๋งต๋งŒ ์‚ฌ์šฉํ•˜์—ฌ ์ž‘์€ ๋ฌผ์ฒด์— ๋Œ€ํ•œ ์ •๋ณด๊ฐ€ ์‚ฌ๋ผ์ง„๋‹ค๋Š” ๋น„ํŒ์ด ์žˆ์—ˆ๋‹ค. yolov2์—์„œ๋Š” ์ƒ์œ„ ๋ ˆ์ด์–ด์˜ ํ”ผ์ณ๋งต์„ ํ•˜์œ„ ํ”ผ์ณ๋งต์— ํ•ฉ์ณ์ฃผ๋Š” passthrough layer๋ฅผ ๋„์ž…ํ–ˆ๋‹ค. high resolution๋ฅผ stackingํ•˜๋“ฏ, low resolution feature map๊ณผ concatenateํ•œ๋‹ค.
์œ„ ๊ทธ๋ฆผ์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด ๋†’์€ ํ•ด์ƒ๋„๋ฅผ ๊ฐ€์ง„ 26x26x256 ํ”ผ์ณ๋งต์„ 13x13x2048 ํฌ๊ธฐ๋กœ ๋ฆฌ์Šค์ผ€์ผํ•˜์—ฌ ๋‚ฎ์€ ํ•ด์ƒ๋„์˜ ํ”ผ์ณ๋งต๊ณผ ํ•ฉ์ณ 13x13x3072 ํฌ๊ธฐ์˜ ํ”ผ์ณ๋งต์„ ๋งŒ๋“ค์–ด ๋‚ด๋Š” ๋ชจ์Šต์„ ๋ณผ ์ˆ˜ ์žˆ๋‹ค.
์ด๋ฅผ ํ†ตํ•ด mAP ๊ฐ€ 1% ์ •๋„ ํ–ฅ์ƒ๋˜์—ˆ๋‹ค๊ณ  ํ•œ๋‹ค.

7)Multi-Scale Training

YOLOv2์—์„œ๋Š” fully-connected layer๋ฅผ ์—†์• ๊ณ  convolutional layer๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ž…๋ ฅ ์‚ฌ์ด์ฆˆ๋ฅผ ์ž์œ ๋กญ๊ฒŒ ์กฐ์ ˆํ•  ์ˆ˜ ์žˆ๋‹ค. ๋‹ค์–‘ํ•œ ์ž…๋ ฅ ์‚ฌ์ด์ฆˆ์— ๋Œ€ํ•ด robustํ•˜๊ฒŒ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด 10 epochs ๋งˆ๋‹ค ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ํฌ๊ธฐ๋ฅผ {320, 352, ..., 608} ์ค‘์—์„œ ๋žœ๋คํ•˜๊ฒŒ ์„ ํƒํ•˜์—ฌ ํ›ˆ๋ จํ•œ๋‹ค. (32๋งŒํผ downsamplingํ•˜๊ธฐ ๋•Œ๋ฌธ์— 32์˜ ๋ฐฐ์ˆ˜์—ฌ์•ผ ํ•œ๋‹ค) ๋”ฐ๋ผ์„œ ๊ฐ™์€ ๋ชจ๋ธ๋กœ ๋‹ค์–‘ํ•œ ํ•ด์ƒ๋„์— ๋Œ€ํ•ด ํ›ˆ๋ จํ•  ์ˆ˜ ์žˆ์–ด ๋” robustํ•ด์ง€๊ณ  ์ž‘์€ ํ•ด์ƒ๋„์— ๋Œ€ํ•ด์„œ๋„ ์†๋„์™€ ์ •ํ™•๋„๋ฅผ ๋†’์ผ ์ˆ˜ ์žˆ๋‹ค.
Table 3์€ multi-scale training ๊ธฐ๋ฒ•์„ ์ ์šฉํ•œ ํ›„ ํ…Œ์ŠคํŠธ ์‹œ์˜ ์ž…๋ ฅ ํ•ด์ƒ๋„๋งŒ ๋‹ฌ๋ฆฌํ•œ ๊ฒฐ๊ณผ์ด๋‹ค.
notion image
notion image
YOLOv2๋Š” accuracy์™€ speed ๋ผ๋Š” tradeoff ๊ด€๊ณ„์—์„œ ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚˜ํƒ€๋‚ด๋Š” ๋ชจ๋ธ์ž„์„ ๋ณด์—ฌ์ฃผ๊ณ  ์žˆ๋‹ค.

Faster

์ด ์„น์…˜์—์„œ๋Š” YOLOv2๊ฐ€ YOLOv1์— ๋น„ํ•ด ์–ด๋–ป๊ฒŒ ์†๋„ ์ธก๋ฉด์—์„œ ๊ฐœ์„ ์„ ์ด๋ฃจ์—ˆ๋Š”์ง€๋ฅผ ๋‹ค๋ฃฌ๋‹ค. YOLOv1์€ Googlenet์„ ์‚ฌ์šฉํ•˜์˜€๋Š”๋ฐ Googlenet์€ VGG-16์— ๋น„ํ•ด ์ •ํ™•๋„๋Š” ์•ฝ๊ฐ„ ๋–จ์–ด์ง€์ง€๋งŒ ์†๋„๋Š” ๋น ๋ฅด๋‹ค. ํ•˜์ง€๋งŒ Googlenet์€ ๋„คํŠธ์›Œํฌ๊ฐ€ ๋„ˆ๋ฌด ํฌ๊ณ  ๋ณต์žกํ•˜์—ฌ, YOLOv2์—์„œ๋Š” Fully connected layer๋ฅผ ์—†์• ๊ณ  Global average pooling์„ ์‚ฌ์šฉํ•˜๋Š” Darknet-19๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค.

Darknet-19

Darknet-19๋Š” YOLOv2๊ฐ€ ์‚ฌ์šฉํ•  ์ƒˆ๋กœ์šด ๋ถ„๋ฅ˜ ๋ชจ๋ธ์ด๋‹ค. ์ด ๋ชจ๋ธ์€ 19๊ฐœ์˜ Convolutional layers์™€ 5๊ฐœ์˜ Max pooling layers๋ฅผ ๊ฐ€์ง„๋‹ค. VGG-16๊ณผ ์œ ์‚ฌํ•˜๊ฒŒ ์ฃผ๋กœ 3 x 3 ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, ํ’€๋ง ๋‹จ๊ณ„ ์ดํ›„ ์ฑ„๋„์„ ๋‘ ๋ฐฐ์”ฉ ์ฆ๊ฐ€์‹œํ‚จ๋‹ค. ๋˜ํ•œ ๋งˆ์ง€๋ง‰์— Global average pooling์„ ์‚ฌ์šฉํ•จ์œผ๋กœ์จ 3 x 3 ์ปจ๋ณผ๋ฃจ์…˜์˜ feature representation์„ ์••์ถ•ํ•˜๋Š” 1 x 1 ํ•„ํ„ฐ๋ฅผ ์‚ฌ์šฉํ•œ๋‹ค. ์ด๋Š” ๊ธฐ์กด์˜ Fully connected layer๋ฅผ ์ œ๊ฑฐํ•˜๊ณ  Convolution ์—ฐ์‚ฐ์œผ๋กœ ๋Œ€์ฒดํ•˜์—ฌ ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ์ค„์ธ ๊ฒƒ์ด๋‹ค. ์ฆ‰ ๊ฒฝ๋Ÿ‰ CNN ์•„ํ‚คํ…์ณ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ YOLOv1์—์„œ ์†๋„๋ฅผ ๊ฐœ์„ ์„ ์ด๋ฃฌ ๊ฒƒ์ด๋‹ค.
ย 
notion image
ย 

Stronger

์ด ์„น์…˜์—์„œ๋Š” ๋ถ„๋ฅ˜ ๋ฐ์ดํ„ฐ์…‹๊ณผ ํƒ์ง€ ๋ฐ์ดํ„ฐ์…‹์„ ์–ด๋–ป๊ฒŒ Joint training ์‹œํ‚ค๋Š”์ง€์— ๋Œ€ํ•œ ์ด์•ผ๊ธฐ๋ฅผ ํ•œ๋‹ค. ์ฆ‰ YOLOv2๊ฐ€ ์–ด๋–ป๊ฒŒ 9000๊ฐœ๋‚˜ ๋˜๋Š” ํด๋ž˜์Šค๋ฅผ ๋ถ„๋ฅ˜ํ•ด๋‚ด๋Š”๊ฐ€์— ๋Œ€ํ•œ ์„ค๋ช…์„ ๋‹ค๋ฃจ๋Š” ๋ฐ”์ด๋‹ค. ์ด ๋ถ€๋ถ„์ด์•ผ๋ง๋กœ ์ด ๋…ผ๋ฌธ์—์„œ ๊ฐ€์žฅ ํฅ๋ฏธ๋กœ์šด ๋ถ€๋ถ„ ์ค‘ ํ•˜๋‚˜์ธ ๊ฒƒ ๊ฐ™๋‹ค.

1)Hierarchical classification

ํƒ์ง€ ๋ฐ์ดํ„ฐ์…‹์€ โ€œ๊ฐœโ€๋‚˜ โ€œ๋ณดํŠธโ€์™€ ๊ฐ™์€ ์ผ๋ฐ˜ ๋ ˆ์ด๋ธ”์„ ๊ฐ€์ง€์ง€๋งŒ, ๋ถ„๋ฅ˜ ๋ฐ์ดํ„ฐ์…‹(ImageNet)์€ โ€œ๋…ธํฝ ํ…Œ๋ฆฌ์–ดโ€, โ€œ์š”ํฌ์…” ํ…Œ๋ฆฌ์–ดโ€, โ€œ๋ฒ ๋“ค๋งํ„ด ํ…Œ๋ฆฌ์–ดโ€์™€ ๊ฐ™์ด ํ›จ์”ฌ ๋” ๋„“๊ณ  ๊นŠ์€ ๋ฒ”์œ„์˜ ๋ ˆ์ด๋ธ”์„ ๊ฐ€์ง€๊ณ  ์žˆ๋‹ค. ๋”ฐ๋ผ์„œ ์—ฐ๊ตฌ์ง„์€ ์ด ๊ฑฐ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ์…‹์„ ํ•™์Šต์‹œํ‚ค๊ธฐ ์œ„ํ•ด ๊ณ„์ธต์  ๋ถ„๋ฅ˜๋ฅผ ์ˆ˜ํ–‰ํ•ด์•ผํ•œ๋‹ค๊ณ  ์ œ์•ˆํ•œ๋‹ค. ์—ฌ๊ธฐ์„œ ์ œ์•ˆ๋œ ๊ณ„์ธต์  ๋ถ„๋ฅ˜๋Š” Softmax funtion์„ ์ˆ˜ํ–‰ํ•  ๋•Œ ์ „์ฒด Class์— ๋Œ€ํ•ด ํ•œ๊บผ๋ฒˆ์— ์ˆ˜ํ–‰ํ•˜์ง€ ์•Š๊ณ , ๋Œ€๋ถ„๋ฅ˜๋ณ„๋กœ Softmax๋ฅผ ์—ฌ๋Ÿฌ ๊ฐœ ์ˆ˜ํ–‰ํ•˜๋Š” ๊ฒƒ์ด๋‹ค.
notion image
ย 

2)Dataset combination with WorkTree

notion image
์•ž์„œ ์–ธ๊ธ‰ํ•œ ๊ณ„์ธต์  ๊ตฌ์กฐ๋ฅผ ์ด๋ฃจ๊ธฐ ์œ„ํ•˜์—ฌ ์—ฐ๊ตฌ์ง„์€ COCO ๋ฐ์ดํ„ฐ์…‹๊ณผ ImageNet ๋ฐ์ดํ„ฐ์…‹์„ ์„ž์–ด ์œ„ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์€ ํŠธ๋ฆฌ๊ตฌ์กฐ๋กœ ์žฌ๋ฐฐ์น˜ํ–ˆ๋‹ค.
ย 
notion image
๋”ฐ๋ผ์„œ ์ตœ์ข… Multi-label ๊ฒฐ๊ณผ์—์„œ ํŠน์ • ๋…ธ๋“œ์— ๋Œ€ํ•œ ์ตœ์ข… Class score๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ  ์‹ถ๋‹ค๋ฉด, ํŠธ๋ฆฌ๋ฅผ ํ†ตํ•ด ๋ฃจํŠธ ๋…ธ๋“œ๊นŒ์ง€์˜ ๊ฒฝ๋กœ๋ฅผ ๋”ฐ๋ผ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์„ ๊ณฑํ•ด์ฃผ๋ฉด ๋œ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด ์–ด๋–ค ์ด๋ฏธ์ง€๊ฐ€ ๋…ธํฝ ํ…Œ๋ฆฌ์–ด์— ํ•ด๋‹นํ•˜๋Š” ์ด๋ฏธ์ง€์ธ์ง€ ์•Œ๊ณ  ์‹ถ๋‹ค๋ฉด ์œ„ ๊ทธ๋ฆผ๊ณผ ๊ฐ™์ด ๊ตฌํ•˜๋ฉด ๋œ๋‹ค.
๊ทธ๋ฆฌ๊ณ  ํ•™์Šต ์‹œ์— ๋งŒ์•ฝ ๋ ˆ์ด๋ธ”์ด โ€œ์š”ํฌ์…” ํ…Œ๋ฆฌ์–ดโ€๋ผ๊ณ  ํ•œ๋‹ค๋ฉด, ๋Œ€์ƒ์˜ ๋Œ€๋ถ„๋ฅ˜ ์นดํ…Œ๊ณ ๋ฆฌ๋ฅผ ์•Œ๊ธฐ ์œ„ํ•˜์—ฌ ์œ„์—์„œ ์ƒ์„ฑํ•œ ํŠธ๋ฆฌ๋ฅผ ์—ญ์ถ”์ ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ Multi-label์„ ํ•™์Šต์‹œํ‚ฌ ์ˆ˜ ์žˆ๋‹ค.

3)Joint classificaion and detection

์—ฐ๊ตฌ์ง„์€ COCO ๋ฐ์ดํ„ฐ์…‹๊ณผ ImageNet ๋ฐ์ดํ„ฐ์…‹์„ ํ˜ผํ•ฉํ•˜์—ฌ ๋งŒ๋“  WordTree๋ฅผ ํ†ตํ•ด ์ด 9418๊ฐœ์˜ ํด๋ž˜์Šค๋ฅผ ๊ฐ€์ง„ ๋ฐ์ดํ„ฐ์…‹์„ ํ™•๋ณดํ•ด ๋ƒˆ๋‹ค. ๋˜ํ•œ ImageNet์ด ํ›จ์”ฌ ๋” ํฐ ๋ฐ์ดํ„ฐ์…‹์ด๋ฏ€๋กœ COCO ๋ฐ์ดํ„ฐ์…‹์„ ๊ณผ๋‹ค์ƒ˜ํ”Œ๋งํ•˜์—ฌ 4:1๊นŒ์ง€ ๋น„์œจ์„ ์กฐ์ •ํ•ด์ค€ ๋’ค ์ƒ์œ„ 9000๊ฐœ ํด๋ž˜์Šค์— ๋Œ€ํ•œ ํ•™์Šต์„ ์ง„ํ–‰์‹œ์ผฐ๋‹ค.
๋ชจ๋ธ์„ ํ•™์Šต์‹œํ‚ฌ ๋•Œ, Detection label์— ๋Œ€ํ•ด์„œ๋Š” ๊ธฐ์กด์— ์‚ฌ์šฉํ•˜๋˜ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ–ˆ๋‹ค. ํ•˜์ง€๋งŒ ๋ ˆ์ด๋ธ”์ด โ€œdogโ€์ธ ๊ฒฝ์šฐ, ์ƒ์œ„๋…ธ๋“œ๋งŒ ์กด์žฌํ•˜๊ณ  ํ•˜์œ„๋…ธ๋“œ ์ •๋ณด๋Š” ์กด์žฌํ•˜์ง€ ์•Š๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ๋‹ค. ์ด์™€ ๊ฐ™์€ ๊ฒฝ์šฐ์—๋Š” โ€œdogโ€ ๋ ˆ์ด๋ธ” ์ด์ƒ์˜ ๋ ˆ์ด๋ธ”๋“ค์—์„œ๋งŒ loss๋ฅผ ์—ญ์ „ํŒŒํ•œ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ํ•˜์œ„ ๋…ธ๋“œ์— ๋Œ€ํ•ด์„œ๋Š” ๋ชจ๋‘ ํ‹€๋ ธ๋‹ค๋Š” ์—๋Ÿฌ๊ฐ’์„ ๋ถ€์—ฌํ•œ๋‹ค.
๋”ฐ๋ผ์„œ ๋™๋ฌผ์— ๋Œ€ํ•ด ์ผ๋ฐ˜ํ™”๊ฐ€ ์ž˜ ๋˜์–ด์žˆ๋Š” COCO ๋ฐ์ดํ„ฐ์…‹์˜ ํŠน์„ฑ์œผ๋กœ ์ธํ•ด ์ƒˆ๋กœ์šด ๋™๋ฌผ์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์€ ๋งค์šฐ ์‰ฝ์ง€๋งŒ, ์—ญ์œผ๋กœ COCO ๋ฐ์ดํ„ฐ์…‹์€ ์–ด๋– ํ•œ ์˜๋ณต์—๋„ ๋ฐ”์šด๋”ฉ๋ฐ•์Šค ์ •๋ณด๋ฅผ ๊ฐ€์ง€๊ณ  ์žˆ์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์— โ€œ์„ ๊ธ€๋ผ์Šคโ€๋‚˜ โ€œ์ˆ˜์˜๋ณตโ€๊ณผ ๊ฐ™์€ ๋ฒ”์ฃผ๋ฅผ ๋ชจ๋ธ๋งํ•˜๋Š” ๋ฐ์—๋Š” ์–ด๋ ค์›€์„ ๊ฒช๋Š”๋‹ค.

Conclusion

YOLOv1์—์„œ YOLOv2๋กœ์˜ ๋ณ€ํ™”๋Š” ๋งค์šฐ ์ฐฝ์˜์ ์ด๋ผ๊ณ  ๋ณผ ์ˆ˜ ์žˆ๋‹ค. ๊ธฐ์กด ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๋ณ€ํ™”์‹œํ‚ค๋Š” ๋ฐ์— ๊ทธ์น˜์ง€ ์•Š๊ณ , ์ทจ๊ธ‰ํ•  Class ์ˆ˜๋ฅผ 9000๊ฐœ๊นŒ์ง€ ์ฆ๊ฐ€์‹œ์ผฐ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ๋˜ํ•œ ๊ณ„์ธต์  ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•œ ๋ถ„๋ฅ˜ ๋ฐฉ๋ฒ• ์—ญ์‹œ ์—ฌ๋Ÿฌ ๋„๋ฉ”์ธ์—์„œ ์•„์ฃผ ์œ ์šฉํ•˜๊ฒŒ ์ž‘์šฉํ•  ๊ฒƒ์ด๋‹ค.
๊ฒฐ๋ก ์ ์œผ๋กœ YOLOv2๋Š” ํƒ์ง€ ๋ฐ ๋ถ„๋ฅ˜๋ฅผ ๋ชจ๋‘ ์ตœ์ ํ™”ํ•˜์—ฌ 9000๊ฐœ ์ด์ƒ์˜ ๊ฐ์ฒด ๋ฒ”์ฃผ๋ฅผ ํƒ์ง€ํ•ด๋‚ด๋Š” ์‹ค์‹œ๊ฐ„ ํ”„๋ ˆ์ž„์›Œํฌ์ด๋‹ค. WorkTree๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋‹ค์–‘ํ•œ ์†Œ์Šค์˜ ๋ฐ์ดํ„ฐ์™€ ๊ณต๋™ ์ตœ์ ํ™” ๊ธฐ์ˆ ์„ ๊ฒฐํ•ฉํ•˜์—ฌ ImageNet๊ณผ COCO๋ฅผ ๋™์‹œ์— ํ›ˆ๋ จ์‹œํ‚จ ๋ชจ๋ธ์ด๋‹ค. ์ฆ‰ YOLO9000์€ ํƒ์ง€ ๋ฐ ๋ถ„๋ฅ˜ ๋ฐ์ดํ„ฐ์…‹ ์‚ฌ์ด์˜ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ ๊ฒฉ์ฐจ ๋ฌธ์ œ๋ฅผ ํ•ด์†Œํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ•๋ ฅํ•œ ์ˆ˜๋‹จ์ด๋ฉฐ, ์ด๋Š” ๋‹น์‹œ์˜ ๊ฐ์ฒด ๊ฒ€์ถœ ์‹œ์Šคํ…œ ์ค‘ ๊ฐ€์žฅ ์ตœ์ฒจ๋‹จ์— ๋†“์ธ ๋ชจ๋ธ๋กœ ๋‹ค๋ฅธ ์‹œ์Šคํ…œ๋“ค๋ณด๋‹ค ์†๋„๊ฐ€ ๋น ๋ฅธ ์žฅ์ ์„ ๊ฐ€์ง„๋‹ค.
ย 
์ฐธ๊ณ ์ž๋ฃŒ
ย 

๋‹ค์Œ ๊ธ€ ์ฝ๊ธฐ