๋
ผ๋ฌธ ์ ๋ชฉ | Prediction of Face Age Progression with Generative Adversarial Networks
์ ์ | Neha Sharma, Reecha Sharma, Neeru Jindal
์ผ์ | 2023.02.19
ย
50๋, 60๋, 70๋๊ฐ ๋์์ ๋ ์ด๋ค ๋ชจ์ต์ผ์ง ๊ถ๊ธํ์ง ์์ผ์ ๊ฐ์? ํน์ ์ฐ์ธ์ด๋ ๋ฐฐ์ฐ์๊ฐ ๋ฏธ๋์ ์ด๋ค ๋ชจ์ต์ผ๋ก ํจ๊ปํ ์ง ์๊ณ ์ถ์ง ์์ผ์ ๊ฐ์? ์ด์ ๋ AI ์๊ณ ๋ฆฌ์ฆ์ผ๋ก ์๋ฌผํ์ ์ธ ๋
ธํ ์์์ ์์ธกํ ์ ์๊ฒ ๋์์ต๋๋ค. ์ฌ๋ฌ ์ฑ์์ ๋
ธํ ์์ธก ํ
์คํธ๊ฐ ๋ง์ฐํ ๊ฐ์ด๋ฐ ์ด๋ป๊ฒ AI ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ด ์ด๋ฏธ์ง๋ฅผ ์์ธกํ๋์ง ์์๋ด
์๋ค.
์๊ฐ์ด ๋ถ์กฑํ๋ค๋ฉด ๐ย ์ธ์คํ ๊ฒ์๊ธ ๋งํฌ
ย
AbstractKeywords1. Introduction1.1. Face Age Progression with GANs2. Related Work3. The Proposed Work (Algorithm)4. Conclusion5. ๋
ผ๋ฌธ์ ํ์ฉ ๊ฐ์น
ย
Abstract
Face Age Progression์ ๋ชฉ์ ์ ํ์ฌ ์ผ๊ตด ์ด๋ฏธ์ง๋ฅผ ๋ฐํ์ผ๋ก ์๊ฐ์ด ํ๋ฌ ๋์ด๊ฐ ๋ ๋ค์์ ๋ ์ผ๊ตด์ด ์ด๋ป๊ฒ ๋ณํ๊ฒ ๋ ์ง ์์ธกํ๋ ๊ฒ์
๋๋ค. ๊ฐ์ธ์ ๊ณ ์ ํ ์๋ณ ์์คํ
์ ๋ํ ์๊ตฌ๊ฐ ์ฆ๊ฐํ๊ณ ์๋ ์ํฉ ์์์ ํ์ฌ Face Aging์ ์์ฒญ๋ ๊ด์ฌ์ ๋ฐ๊ณ ์์ต๋๋ค. ํ์ง๋ง ๊ธฐ์กด์ Face Age Progression ์ ๊ทผ ๋ฐฉ์์ ์ด๋ฏธ์ง ๋ฐ์ดํฐ๊ฐ ๋ถ์ถฉ๋ถํ์ฌ ๋
ธํ๋ ์ผ๊ตด ์ฌ์ง ์ถ๋ ฅ์ด ๋ถ์์ฐ์ค๋ฝ๋ค๋ ๋ฌธ์ ์ ์ด ์์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ณ ์ ์ฐ๊ตฌ์๋ค์ UTKFace, CACD, FGNET, IMDB-WIKI, CelebA ์ด 5๊ฐ์ ๊ณต๊ณต ๋ฐ์ดํฐ ์
(Publicly Datasets)์ ์ด์ฉํ์ฌ AttentionGAN๊ณผ SRGAN์ผ๋ก ์ ํํ Aged Faces๋ฅผ ์ถ๋ ฅํ๋ ค๊ณ ํ์์ต๋๋ค.
ย
Keywords
Generative Adversarial Networks(GANs)
์์ฑ ๋ชจ๋ธ์ ํ ์ข
๋ฅ๋ก ๋ฐ์ดํฐ๋ฅผ ์์ฑํ๋ ์์ฑ์(Generator)์ ๋ฐ์ดํฐ๋ฅผ ๊ตฌ๋ณํ๋ ํ๋ณ์(Discriminator)๊ฐ ๊ฒฝ์ํ๋ฉด์ ๋ฐ์ดํฐ๋ฅผ ํ์ตํฉ๋๋ค.
ย
Face Age Progression
Face Age Progression์ ๋ชฉํ๋ ํ์ฌ ์ผ๊ตด ์ด๋ฏธ์ง๋ฅผ ๋ฏธ๋์ ๋์ด๊ฐ ๋ค์์ ๋ ์ด๋ ํ ๋ชจ์ต์ผ์ง ์์ธกํ๋ ๊ฒ์
๋๋ค.
ย
Face Super-Resolution
Face Super-Resolution(FSR)์ ์ ํด์๋์ ์ผ๊ตด ์ด๋ฏธ์ง๋ฅผ ๊ณ ํด์๋๋ก ๋์ด๋ ๊ณผ์ ์
๋๋ค.
ย
Age Estimation
์์ฒด ์ธ์(Biometric Features)์ ๊ธฐ๋ฐ์ผ๋ก ์ฌ๋์ ๋์ด๋ฅผ ์ถ์ ํ๋ ๊ฒ์ ๋งํฉ๋๋ค.
ย
ย
1. Introduction
์ธ๊ฐ์ ๊ณ ์ ํ ์ ์ฒด์ฑ์ ์ ์งํ๋ฉด์๋ ๋ค์ํ ์ฐ๋ น๋์์ ๋ํ๋๋ ์ผ๊ตด์ ๋ชจ์ต(์ผ๊ตด ํ์, ํผ๋ถ ๊ฒฐ, ํผ๋ถ์ ๋ฑ)์ โ์ถ์ ์ง๋ณดโ์ ๋ฐ๋ผ์ ๋ณํํ๊ธฐ ๋๋ฌธ์ ์ผ๊ตด์ ๊ฐ์ธ์๊ฒ ์์ฒญ๋ ์ธ์ฆ(Authentication)๊ณผ ๋ณด์(Security)์ ๊ธฐ๋ฐ์ด ๋ฉ๋๋ค.
๊ทธ๋ ๊ธฐ ๋๋ฌธ์ Face Age Progression์ ํ์ฌ ๋๋ฆฌ ์ฌ์ฉ๋๊ณ ์๋ ๊ธฐ์ ์
๋๋ค. ์๋ฅผ ๋ค๋ฉด, ์ด ๊ธฐ์ ์ ๋ฒ ์งํ ๊ธฐ๊ด์์ ๋
ธํ ์ ํ ์ฌ์ง์ ๋ง๋ค๊ฑฐ๋ ์ ์ ์๊ฑฐ๋ ํ๋ซํผ๊ณผ ๊ฐ์ ์๋ฉด ๋ถ์ ๋ฑ์ ํตํด ์ค์ข
์๋์ด๋ ์ค์ข
์๋ฅผ ์ฐพ๋๋ฐ ๋ง์ด ์ฐ์ด๊ณ ์์ต๋๋ค. ํน์ ์ ๋ณด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ฌ๋์ ์๋ณํ๋ ์์ฒด ์ธ์ ์์คํ
์์๋ ์ผ๊ตด์ ๊ฐ์ฅ ๋ํ์ ์ธ ์ ์ฒด ๋ถ์์
๋๋ค. ํ์ง๋ง ์กฐ๋ช
, ์ฑ์ฅ์ ๋ฐ๋ฅธ ์ผ๊ตด์ ๋ณํ ๋๋ฌธ์ ์ผ๊ตด ๋
ธํ ๊ณผ์ (Face Age Progression)์ ์์ง ์ด๋ ค์ด ์์
์ ์ํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์ฝ๋ก๋19 ๋์ ํ์ผ๋ก ์ ์ด์ ํตํ ๊ฐ์ผ์ ์ต์ํํ๊ณ ์ ์ง๋ฌธ์ด ์์ด์ผ ํ๋ ์์ฒด ์ธ์ ์์คํ
๋์ ์ผ๊ตด ์ธ์ ์์คํ
์ด ์ ๊ทน ๋์
๋์์ต๋๋ค.
ย
1.1. Face Age Progression with GANs
์ด๋ฏธ์ง๋ฅผย ์
๋ ฅ์ผ๋ก ๋ฐ์ย ๋ ๋ค๋ฅธ ์ด๋ฏธ์ง๋ฅผย ์ถ๋ ฅ์ผ๋ก ๋ฐํํ๋ ํ์คํฌ๋ฅผ Image-to-Image Translation์ด๋ผ๊ณ ํฉ๋๋ค. GAN์ Image-to-Image Translation, Text-to-Speech Generation ๋ฑ ๋ง์ ๋ถ์ผ์์ ์ธ์์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํด๋ผ ์ ์์ ๋งํผ ๊ฐ๋ ฅํ ์ฑ๋ฅ์ ๋ฐํํ๋ ๋ชจ๋ธ์
๋๋ค. ๋ฐ๋ผ์ GAN์ ์ฌ์ฉํ ์ผ๊ตด ๋
ธํ ๊ณผ์ (Face Age Progression)์ ์ผ๊ตด ์๋ณ ์์คํ
(Facial Verification System)์์ ๋ง์ ์ฃผ๋ชฉ์ ๋ฐ์์ต๋๋ค. ๊ทธ๋ฌ๋ GAN์ ๊ฐ์ฅ ํฐ ๋จ์ ์ ๊ฐ์ง ๋ฏธ๋์ด ์ฝํ
์ธ ๋ฅผ ๋ง๋ค์ด๋ด๋ ๋ฐ์๋ ์ฌ์ฉ๋๋ค๋ ์ ์
๋๋ค. ๋ฐ๋ผ์ ์ฐ๊ตฌ์๋ค์ ์ดํด์๋(Super-Resolution) ์ผ๊ตด ๋
ธํ์ ์ด์ ์ ๋ง์ถ์๊ณ ํด๋น ๋
ผ๋ฌธ์ ์ฃผ๋ ๊ธฐ์ฌ ๋ฐฉ์(Main Contributions)์ ์๋์ ๊ฐ์ต๋๋ค.
- AttentionGAN๊ณผ SRGAN์ ํผํฉํ์ฌ Face Age Progression์ ์งํํ์๊ณ AttentionGAN์ด ์ฃผ์ํ ์ญํ ์ ํ์ต๋๋ค.
- ์ ๊ท ํํ์ ํํฐ(Regex Filter)๋ฅผ ์ฌ์ฉํ๋ฉด ํฉ์ฑ๋ ์ผ๊ตด ์ด๋ฏธ์ง๋ฅผ ์ ํํ์ฌ ํ๋ จ ์๊ฐ์ ์ค์ผ ์ ์์ ๋ฟ๋ง ์๋๋ผ ๊ณ์ฐ ๋ณต์ก์ฑ๋ ์ค์ผ ์ ์์ต๋๋ค.
- ๊ณต๊ฐ ๋ฐ์ดํฐ์ธ UTKFace, CACD, IMDB-WIKI, CelebA, FGNET Datasets๋ก ์ฑ๋ฅ์ ํ๊ฐํ์์ต๋๋ค.
- ํฌ์ฆ, ํ์ , ๋ฉ์ดํฌ์ , ์กฐ๋ช ๋ฑ ๋ค์ํ ์์ธ์ ๋ฐ์ํ์ฌ ์ฑ๋ฅ์ ๊ฒ์ฆํ์์ต๋๋ค.
ย
ย
2. Related Work
๊ธฐ์กด ์ผ๊ตด ๋
ธํ ๊ณผ์ (Face Age Progression) ์ฐ๊ตฌ๋ ์ผ๊ตด ์ฑ์ฅ(Geometric Growth of Face), ์ฃผ๋ฆ, ์ผ๊ตด ํ์ ์์ญ(Face Sub-Reagions), ๋ค์ํ ๊ธฐ์ ๋ฑ ์ผ๊ตด ์์ฑ(Facial Attributes)์ ์ค์ ์ ๋๊ณ ์ฐ๊ตฌ๋ฅผ ์งํํด ์์์ต๋๋ค. ๋
ธํ ๊ณผ์ (Aging Process)์๋ ๋ค์ํ ์ผ๊ตด ์ด๋ฏธ์ง ์๋ฃ๋ฅผ ์์งํ๋ ค๋ โAn Appearance-based Methodโ ๊ธฐ๋ฐ์ ๊ณ ์ ๋ฉด(Eigenfaces)๋ฅผ ์ฌ์ฉํ๋ค๊ณ ์๋ ค์ก์ต๋๋ค. ๊ณ ์ ๋ฉด์ด๋ ๊ฐ ์ผ๊ตด์ ์ด๋ฏธ์ง๋ฅผ ์ฝ๋ฉํ๊ณ ๋น๊ตํ๋ ๋ฐ ํ์ํ ์ ๋ณด์
๋๋ค. ๊ทธ ์ดํ ๋ฅ๋ฌ๋์ ์ปดํจํฐ ๋น์ ๋ถ์ผ์์ ์์ฒญ๋ ์ฃผ๋ชฉ์ ๋ฐ๊ธฐ ์์ํ์ต๋๋ค.
ํนํ, GAN์ ํ๋ จ ๊ณผ์ ์์ ์ฑ๋ฅ ํฅ์ ๋ฐฉ๋ฒ ๋ฐ GAN์ ์ค์ ์์ฉ ํ๋ก๊ทธ๋จ ์ ์ฉ ๋ฐฉ๋ฒ์ ๊ดํ ์ฐ๊ตฌ๊ฐ ํ๋ฐํ๊ฒ ์งํ๋๊ณ ์์ต๋๋ค. GAN์ ์ฃผ์ ๋ชฉํ๋ ์์ฑ์์ ๋ถํฌ๋ฅผ ํ๋ํ์ฌ ์ค์ ๋ฐ์ดํฐ ๋ถํฌ์ ๊ทผ์ ํ๋ ๊ฒ์ด๋ฉฐ, ์ด๋ ์งํ๋๋ ์ํ ์ผ๊ด์ฑ ์์ค(Cycle Consistency Loss)๋ ์ด๋ฏธ์ง์ ์ ์ฒด์ฑ(Identity)์ ์ ์งํ๋ฉด์ ํฉ์ฑ๋ ์ด๋ฏธ์ง์์ ์๋ ์
๋ ฅ๋ ๋ฐ์ดํฐ๋ฅผ ๋ค์ ์ป์ผ๋ ค๋ ๊ณผ์ ์
๋๋ค. GAN์ด ์ฌ์ฉ๋๋ ์ฌ๋ก๋ ์๋์ ๊ฐ์ต๋๋ค.
GAN์ด ํ์ฉ๋๋ Image-to-Image Conversion๊ณผ Pix2Pix๋ ์์ ์ด์ ๋ก ์์ ์ด๋ฃฌ ๋ฐ์ดํฐ ์ธํธ(Paired Dataset)๋ฅผ ์ฌ์ฉํฉ๋๋ค. ๋ํ, ์ด๋ฏธ์ง ํฉ์ฑ์ ์ฌ์ฉ๋๋ Spatial Fusion GAN์ Geometry Synthesizer์ Appearance Synthesizer๋ฅผ ๊ฒฐํฉํ์ฌ ๊ฐ ๋๋ฉ์ธ์์ ์ธ์์ ์ด์ง ์์ โํ์ค์ ์ธโ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ์์ต๋๋ค. ๊ทธ ๊ณผ์ ์์ ๊ธฐ์กด Face Image ํน์ง์ ๋ณด์กดํ๊ธฐ ์ํด Identity Loss๋ฅผ ์ฌ์ฉํ์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ํฉ์ฑ๋ ๋ง๋ง ์ด๋ฏธ์ง์ ๋ถํ ๋(Segmented) ๋ง๋ง ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ๋ฐ MI-GAN ํ๋ ์์ํฌ๊ฐ โ์ฌ์ค์ โ์ผ๋ก ํฉ์ฑํ๋ค๋ ์ ์ ๋ํด์ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ๋นํด ์ ์๋ฏธํ ๊ฒฐ๊ณผ๋ฅผ ๋์ถํ๊ธฐ๋ ํ์ต๋๋ค.
ย
3. The Proposed Work (Algorithm)
ํด๋น ๋
ผ๋ฌธ์์ ์งํ๋ ์ฐ๊ตฌ๋ ์
๋ ฅ๋ ์ผ๊ตด ์ด๋ฏธ์ง๋ฅผ ๊ถ๊ทน์ ์ผ๋ก ๋
ธํ ์ด๋ฏธ์ง๋ก ๋ณํํ๋ ๊ฒ์
๋๋ค. ๊ทธ ๊ณผ์ ์์ ํํฐ ๊ณผ์ (Filter Process)์ ๊ณ์ฐ ์๊ฐ(Computation Time)๊ณผ ์ ์ฅ ๊ณต๊ฐ์ ์ต์ํํ๋ฉด์ ์ด๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋ ์ญํ ์ ํฉ๋๋ค. ์ด๋ ์์ง ํฅ์(Edge Enhancement)์ ์งํํ๋ ์ด๋ฏธ์ง ์คํ๋(Image Sharpening)์ SRGAN์ ๋ ๋ช
ํํ ์ด๋ฏธ์ง๋ฅผ Inputํ๊ธฐ ์ํจ์
๋๋ค.
์ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๊ธฐ ์ํด์ ์ธ ๋จ๊ณ๊ฐ ์งํ๋ฉ๋๋ค. UTKFace์ CACD๋ผ๋ ๋๊ท๋ชจ ๊ณต๊ฐ ๋ฐ์ดํฐ ์ธํธ๋ฅผ ์ฌ์ฉํ์ฌ ํ๋ จํฉ๋๋ค. Inputํ๋ ์ผ๊ตด ์ด๋ฏธ์ง๋ ๋จผ์ UTKFace ๋ฐ CACD ๋ฐ์ดํฐ ์
์์ RGB 3์์์ ์ด๋ฏธ์ง๋ง์ ์ป๊ธฐ ์ํด ์ ์ฒ๋ฆฌ๋ ๊ฒ์
๋๋ค. ๊ทธ ์ดํ 0โ20, 21โ40, 41โ60, 60+์ ๋ค ๋ถ๋ฅ ๋์ด ๊ทธ๋ฃน์ผ๋ก ๋ถ๋ฆฌํ๊ณ Inputํ Training, Test, Validation ๋ฐ์ดํฐ ์
๊ณผ ์คํ ๊ฒฐ๊ณผ ๋์ถ์ ์ํ Target ์ด๋ฏธ์ง๋ฅผ ์ค๋นํฉ๋๋ค. ์ด๋ฏธ์ง์ ํฌ๊ธฐ๋ 100ร100 ํฌ๊ธฐ๋ก ์กฐ์ ๋์์ต๋๋ค.
ย
Stage 1
์ ์ฒ๋ฆฌ๋ ์ด๋ฏธ์ง๋ ์ผ๊ตด ๋
ธํ ๊ณผ์ (Face Age Progression)์ ํ๊ธฐ ์ํด Image-to-Image Conversion์ ์งํํ๋ AttentionGAN์ ์์ฑ์ G์๊ฒ ์ ๋ฌ๋ฉ๋๋ค. ์์ฑ์๋ ๋์ ํ๋ฆฌํฐ์ ์ผ๊ตด ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ธฐ ์ํด ๊ฐ์ธ์ ์ผ๊ตด ์ ์ฒด์ฑ์ ์ ์งํ๋ฉฐ ๋ฐฐ๊ฒฝ๊ณผ ์ ๊ฒฝ ์ ๋ณด๋ฅผ ์ต๋ํฉ๋๋ค. AttentionGAN์ ๊ณ ์ ํ ํน์ง์ ์์ฑ์๊ฐ ํ์ํ ์ด๋ฏธ์ง์ ์ ๊ฒฝ์ ์ด์ ์ ๋ง์ถ๋ฉด์ ๋์์ ์ดํ
์
๋ง์คํฌ(Attention Mask)์ ์ฝํ
์ธ ๋ง์คํฌ(Content Mask)์ ๋์์ผ๋ก Input ์ด๋ฏธ์ง์ ๋ฐฐ๊ฒฝ์ ๋ณด์กดํ๋ ๊ฒ์
๋๋ค.
๊ทธ๋ฌ๋ Input ์ด๋ฏธ์ง๋ Sub-Module Parametric Sharing Encoder์ธ GE, Content Mask Generator์ธ GC, ๊ทธ๋ฆฌ๊ณ Attention Mask Generator์ธ GA์๊ฒ ์ ๋ฌ๋ฉ๋๋ค. ๋ฐ๋ผ์ p-1 Content Masks๋ ์์ฑ์ GC์ ์ํด ์์ฑ๋ฉ๋๋ค. ๋ํ, ์ ๊ฒฝ Attention Masks์ ๋ฐฐ๊ฒฝ ์ดํ
์
๋ง์คํฌ(Attention Mask)๋ ์์ฑ์ GA์ ์ํด์ ๋์์ ๋ง๋ค์ด์ง๋๋ค. Attention Mask(A)์ Content Mask(C), Input ์ผ๊ตด ์ด๋ฏธ์ง(u)์ ๊ณฑํด์ง๊ณ G(u)์ธ Target Face Aged Image๋ฅผ ๋ง๋๋ ์๊ณ ๋ฆฌ์ฆ์ ์๋์ ๊ฐ์ต๋๋ค.
ย
์ํ ์ผ๊ด์ฑ ์์ค(Cycle Consistency Loss) ๊ณผ์ ์์๋ ์์ฑ๋ ๋
ธํ ์ด๋ฏธ์ง๋ ๋ค๋ฅธ ์์ฑ์ F์๊ฒ ์ ๋ฌ๋ฉ๋๋ค. ๋ฐ๋ผ์ F ์์ฑ์๋ ๋น์ทํ ๋ฐฉ์์ผ๋ก ๋ฐฐ๊ฒฝ ์ด๋ฏธ์ง์ ํจ๊ป ์ ๊ฒฝ์ Content Mask์ Attention Mask๋ฅผ ์์ฑํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์์ฑ์ G์ F๊ฐ ๋ง๋ ์ผ๊ตด ์ด๋ฏธ์ง๋ฅผ ํผํฉํฉ๋๋ค. ๋ค์ ์์ฑ์ F์์ Two Masks๋ ์ด๋ฏธ์ง ์ ๋ณด๋ฅผ ๋ณด์กดํ๊ณ ์ต์ํ์ ์์ค๋ง ์๋ ์ฑ Input Image๋ฅผ ๋ค์ ์ถ์ถํจ์ผ๋ก์จ ์ด๋ฏธ์ง๋ฅผ ๋ณด์กดํฉ๋๋ค. ์์ฑ๋ ์ด๋ฏธ์ง G(u)๋ฅผ ์๋ Input Image์ธ u๋ก ์ฌ๊ตฌ์ฑํ๋ ์๊ณ ๋ฆฌ์ฆ์ ์๋์ ๊ฐ์ต๋๋ค.
F(G(u))๋ ๊ธฐ์กด ์ด๋ฏธ์ง์ธ u์ ๋งค์ฐ ์ ์ฌํด์ผ ํ๋ ์ฌ๊ตฌ์ฑ๋ ์ด๋ฏธ์ง์
๋๋ค. F๋ ์์ฑ์ G์ ์ ์ฌํ Three Subnets Parametric Sharing Encoder์ธ FE, Attention Mask Generator์ธ FA, Content Mask Generator์ธ FC๋ก ๊ตฌ์ฑ๋ ์์ฑ์์
๋๋ค. FC๋ p-1 Content Mask๋ฅผ, FA๋ ์ ๊ฒฝ๊ณผ ๋ฐฐ๊ฒฝ์ p Attention Mask๋ฅผ ๋ง๋ญ๋๋ค. ๊ทธ ์ดํ Two Masks๋ ์ฌ์ฒ๋ฆฌ๋ ์ด๋ฏธ์ง๋ฅผ ์ป๊ธฐ ์ํด ์์ ์์์ฒ๋ผ ๊ณฑํด์ง๋๋ค.
ย
AttentionGAN Scheme II์ ๋ชฉ์ ํจ์๋ ์๋์ ๊ฐ์ด ์ํ์ ์ผ๋ก ๋ํ๋ผ ์ ์์ต๋๋ค.
Lgan์ GAN Loss์ด๋ฉฐ Lcycle์ Cyclic Loss์ด๊ณ Lid๋ Identity Preserving Loss, ๋๋ค ๊ด๋ จ ๋ถ๋ถ์ ํ๋ผ๋ฏธํฐ์
๋๋ค.
ย
ย
Stage 2 : AttentionGAN์ ๊ฒฐ๊ณผ๋ฌผ์ด ์ ๊ท์ ํํฐ(Regex Filter)๋ฅผ ์ ์ฉํ ์ง ์ฌ๋ถ๊ฐ ๊ฒฐ์ ๋๋ ์กฐ๊ฑด๋ถ ๋ธ๋ก(Conditional Block)์ ์ ๋ฌ๋ฉ๋๋ค.
์กฐ๊ฑด๋ถ ๋ธ๋ก ์ถ๋ ฅ์ด Yes์ด๋ฉด ์ ๊ท์ ํํฐ๋ AttentionGAN์์ ํฉ์ฑ๋ ์ผ๊ตด ๋
ธํ ์ด๋ฏธ์ง๋ฅผ ๊ฐ์ ธ์ต๋๋ค. AttentionGAN์ Output์ ํฉ์ฑ๋ ์ผ๊ตด ์ฌ์ง, ์ดํ
์
๋ง์คํฌ(Attention Mask)์ ์ฝํ
์ธ ๋ง์คํฌ(Content Mask)์
๋๋ค. ๋ฐ๋ผ์ ์ ๊ท์ ํํฐ ๊ณผ์ ์ ์ถ๊ฐํ๋ฉด SRGAN ํ๋ จ์ ํ์ํ ๊ณ์ฐ ์๊ฐ์ ์ค์ผ ์ ์์ต๋๋ค. ์ด๋ ๊ฒ ํํฐ๋ง๋ ํฉ์ฑ ์ผ๊ตด ์ด๋ฏธ์ง๋ ์์ง ํฅ์(Edge Enhancement)์ด๋ผ๋ ์ด๋ฏธ์ง ์คํ๋(Image Sharpening) ๊ณผ์ ์ ๊ฑฐ์น ๋ค SRGAN์ Input ๋ฉ๋๋ค. SRGAN์ ์ฃผ๋ก ๊ฐ์ฒด์ ๋ชจ์, ์ง๊ฐ, ์์์ ํ์ตํ๊ณ ์ด๋ฏธ์ง์ A Few Sharp Edges๋ฅผ ์์ ํ๊ธฐ๋ ํฉ๋๋ค. ์ด๋ ๊ฒ ์ ๋ช
ํ๋ ์ด๋ฏธ์ง๋ SRGAN์ ์ฃผ์ด์ง๊ณ ํํฐ ๊ณผ์ ์ ๊ฑฐ์น ๋๋ถ์ ๋ชจ๋ธ ํ๋ จ์ 2์๊ฐ ๋ง์ ์๋ฃ๋์์ต๋๋ค.
ย
์กฐ๊ฑด๋ถ ๋ธ๋ก ์ถ๋ ฅ์ด No์ด๋ฉด AttentionGAN์ output์ ๋ฐ๋ก SRGAN Training์ผ๋ก ์ด์ด์ง๋๋ค. ํ์ง๋ง ์ด ๊ฒฝ๋ก๋ก ์งํํ์ ๋ ์ฌ๋ฌ ์์น ์๋ ์ด๋ฏธ์ง๋ค(Content and Attention Masks of Aged Faces which are not required for SRGAN Training)์ด ์ ๊ฑฐ๋์ง ์์๊ธฐ ๋๋ฌธ์ ํ๋ จ ์๊ฐ์ 26์๊ฐ์ด ๊ฑธ๋ฆฌ๋ ๋ฌธ์ ์ ์ด ์์์ต๋๋ค. ์ต์ข
์ถ๋ ฅ๋ฌผ๋ก ๋
ธํ ์ด๋ฏธ์ง(Tace Aged Images)๊ฐ ๋์์ผ ํ๊ธฐ ๋๋ฌธ์
๋๋ค.
ย
Stage 3 : ์ต์ข
Output ์ด๋ฏธ์ง๋ฅผ ์ป๊ธฐ ์ํด Image Sharpening์ด ์งํ๋๋ SRGAN ํ๋ จ(๊ณ ํ์ง ํฉ์ฑ ์ด๋ฏธ์ง ์์ฑ)๊ณผ์ ์
๋๋ค. ์ด๋ ํ๋ จ ์๊ฐ๋ฟ๋ง ์๋๋ผ ๊ณ์ฐ ๋ณต์ก๋๊น์ง ์ค์ธ ๋จ๊ณ์
๋๋ค. ๊ทธ๋ฌ๋ Content and Attention Masks๋ฅผ SRGAN์ ์ง์ ์ ์ผ๋ก ์ฃผ์ด์ง๋ฉด ์ญํจ๊ณผ๊ฐ ๋ฐ์ํฉ๋๋ค.
SRGAN์์ ์์ฌ ๋ธ๋ก(Residual Blocks)์ ๋ฒ ์ด์ค ๋ชจ๋ธ ํ์ฑํ์ ๊ธฐ์ฌํ๊ธฐ ๋๋ฌธ์ ์ผ๊ตด ์ด๋ฏธ์ง์ ์๊ฐ์ ์ธ ํ๋ฆฌํฐ๋ฅผ ํฅ์ํ๋ ์ญํ ์ ํฉ๋๋ค. SRGAN์ ํ๋ จํ๋ ๋์ ์
๋ ฅ๋ ๊ณ ํด์๋ ์ผ๊ตด ์ด๋ฏธ์ง๋ฅผ ์ ํด์๋ ์ผ๊ตด ์ด๋ฏธ์ง๋ก ๋ค์ด ์ํ๋งํ์ฌ ์ดํด์๋ ์ด๋ฏธ์ง๋ฅผ ํฉ์ฑํฉ๋๋ค. ๊ทธ๋ฐ ๋ค์ ํ๋ณ์(Discriminator)๋ ํฉ์ฑ๋ ์ดํด์๋ ์ด๋ฏธ์ง์ ์ค์ ๊ณ ํด์๋ ์ด๋ฏธ์ง๋ฅผ ๊ตฌ๋ณํ๋ ค๊ณ ํฉ๋๋ค. ์ด๋ ์ง๊ฐ ์์ค(Perceptual Loss : GAN์์ ์ฌ์ฉ๋๋ loss ์ค ํ๋๋ก MAE, MSE๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ๋ง๋ค์ด์ง ์์คํจ์)๋ ์ฝํ
์ธ ์์ค(Content Loss : ์
๋ ฅ ์ด๋ฏธ์ง์ ๋์ ์ด๋ฏธ์ง์ ํฝ์
๋จ์์ ์ฐจ์ด)์ Adversarial Loss(์์ฑ์๋ก ํ์ฌ๊ธ ์ง์ง์ฒ๋ผ ๋ณด์ผ ์ ๋๋ก ์ฌ์ค์ ์ธ ๊ฐ์ง ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๋๋ก ํ์ต ์๊ณ ๋ฆฌ์ฆ)์ ๊ฐ์ค ํฉ๊ณ์ด๊ณ ์์์ ์๋์ ๊ฐ์ต๋๋ค.
Lp๋ Perceptual Loss, lc๋ Content Loss, 10โ3 ladv์ Adversarial Loss์
๋๋ค. Content Loss์ VGG Loss๊ณผ MSE Loss๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ๋จผ์ MSE Loss๋ ์ดํด์๋ ์์ฑ ์ด๋ฏธ์ง์ ์๋ณธ ์ด๋ฏธ์ง ์ฌ์ด์ ํฝ์
๋จ์ ์ค๋ฅ์
๋๋ค. VGG Loss๋ VGG19 ๋คํธ์ํฌ ์์์ m๋ฒ์งธ Maxpool ๋ ์ด์ด ์ด์ ์ n์ฐจ ์ปจ๋ณผ๋ฃจ์
์ ์ํด ์์ฑ๋ Feature Map์
๋๋ค. ฯ (m, n)๋ก ํ๊ธฐ๋ฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ Adversarial Loss์ ์์ฑ์(Discriminator)์ ์ผ๋ฐ์ ์ธ Training Samples Probabilites๋ฅผ ๋งํฉ๋๋ค. ์๋๋ ladv์ ๊ดํ ์๊ณ ๋ฆฌ์ฆ์
๋๋ค.
I lr ์ ์ ํด์๋์ Input Image์ด๊ณ , q = 1, . . ., Q๋ Training Samples, Log๋ฅผ ์ทจํด์ค ๊ดํธ ์์ ์์ ์ฌ๊ตฌ์ฑ๋ ์ด๋ฏธ์ง๊ฐ ๊ธฐ์กด์ ์ดํด์๋ ์ด๋ฏธ์ง์ผ ํ๋ฅ ์
๋๋ค.
ย
ย
4. Conclusion
์ด๊ณ ํด์๋ GAN์ธ AttentionGAN์ด โ๊ทธ๋ด๋ฏํโ ์ด๊ณ ํด์๋ ๋
ธํ ์ด๋ฏธ์ง(Super-Resolution Face Aged Images)๋ฅผ ์ป๋ ๋ฐ ์ฑ๊ณตํ์ต๋๋ค. ์ต์ข
์ ์ผ๋ก ์ค์ ์ด๋ฏธ์ง์ ์๊ฐ์ด ํ๋ฌ ๋์ด๊ฐ ๋ค์์ ๋์ ์ด๋ฏธ์ง ๊ฐ ์ค์ฐจ์จ์ 0.001%์ ๋ถ๊ณผํ์ต๋๋ค. ์ด์ ์ฐ์ํ ์์น๋ฅผ ์ด๋ป๊ฒ ์ผ๊ตด ๋
ธํ ๊ณผ์ (Face Age Progression)์ ์ ์ฉํ ์ ์์ ๊ฒ์ธ์ง๋ ๋ฏธ๋ ์ธ๋์ ๋ฌ๋ ค ์๋ค๊ณ ๋ณผ ์ ์์ต๋๋ค.
ย
5. ๋ ผ๋ฌธ์ ํ์ฉ ๊ฐ์น
๋ฅ๋ฌ๋์ ํฌ์ค ์ผ์ด ์ฐ์
์ด ๋ฐ์ ํ๋ ๋ฐ ๋ง์ ๋์์ด ๋์์ต๋๋ค. ์๋ฅผ ๋ค๋ฉด, ์ผ๊ตด ์ธ์์ ์ ๊ธฐ์ ์ผ๋ก ํ์์ ๊ฑด๊ฐ ์ํ๋ฅผ ํ์ธํ ์ ์๋๋ก ์๊ฒฉ ์ปจ์คํ
์ ํ๊ฑฐ๋ ๊ฑด๊ฐ ๋ณดํ ID๋ฅผ ๋ง๋๋ ํ ๋๊ฐ ๋๊ณ ์์ต๋๋ค. ๋จธ์ ๋ฌ๋ ๊ธฐ๋ฐ์ ์ผ๊ตด ๋
ธํ ๊ณผ์ (Face Age Progression)์ Banking ๋ถ์ผ์๋ ์ฐ์ผ ์ ์๊ธฐ ๋๋ฌธ์ ์ฌ์ง ์
๋ฐ์ดํธ์ ํ์ํ ๋ฐฉ๋ฌธ์ ์ค์ผ ์ ์์ด ํธ๋ฆฌํ๋ค๋ ์ ์์ ์์ผ๋ก ๋ง์ ์๋น์ค๋ฅผ ๊ธฐํํ๋ ๋ฐ ๋ฐํ์ด ๋ ๊ฒ์ผ๋ก ์๊ฐํฉ๋๋ค.
ย
ย
ย
ย
ย
ย
๋ฌธ์์ฌํญ manager@deepdaiv.com
ย