์ฐ๋ฆฌ๊ฐ ์ฌ์ฉํ๋ ์์ฐ์ด์ธ ํ
์คํธ๋ฅผ ํ๋ก๊ทธ๋จ์ด ์ดํดํ๊ณ ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ ์ฌ์ฉํ๊ธฐ ์ํด์๋ ์ด๋ฅผ ์์นํํ๋ ๊ณผ์ ์ด ํ์ํฉ๋๋ค. ์ฃผ๋ก ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ ํ
์คํธ๋ฅผ ๋จ์ด ๋จ์๋ก ๊ตฌ๋ถํ์ฌ ํ์ต๊ณผ ๋ถ์์ ํ์ฉํฉ๋๋ค. ์ปดํจํฐ๊ฐ ํจ์จ์ ์ผ๋ก ์ฐ์ฐ์ ์ํํ ์ ์๋ ํ๋ ฌ์ ํํ๋ก ๋ฐ์ดํฐ๋ฅผ ๊ตฌ์ฑํ๊ธฐ ์ํด, NLP ๋ถ์ผ์์๋ ๋จ์ด๋ฅผ ๋ฒกํฐ๋ก ํํํ๋ ๋ฐฉ์์ ์ฃผ๋ก ์ฌ์ฉํฉ๋๋ค.
๋จ์ด๋ฅผ ๋ฒกํฐ์ ํํ๋ก ํํํ๊ธฐ ์ํด ์ ํต์ ์ผ๋ก๋ ์-ํซ ์ธ์ฝ๋ฉ์ ํตํ ๋ฒกํฐํ ๋ฐฉ์์ ์ฌ์ฉํ์์ต๋๋ค.
์ ํต์ ์ธ ๋ฐฉ์ : ์-ํซ ๋ฒกํฐ ํํ (One-Hot Encoding)
์-ํซ ๋ฒกํฐ ํํ๋ฐฉ์์ ๋จ์ด๋ง๋ค ๋์ํ๋ ๋ฒกํฐ๋ฅผ ํ๋์ฉ ๋ง๋๋ ๋ฐฉ์์
๋๋ค. ์ผ์ข
์ ์ดํ ์ฌ์ ์ ๋ง๋ค๋ฉด์ ๊ฐ ๋จ์ด์ ๋์ํ๋ ์๋ฏธ๋ฅผ ํ๋์ฉ ๋ง๋๋ ๊ฒ๊ณผ ๋น์ทํฉ๋๋ค.
ย
๋ค์ ๋ฌธ์ฅ์ ์-ํซ ๋ฒกํฐ ํํ ๋ฐฉ์์ผ๋ก ๋ํ๋ด๋ณด๊ฒ ์ต๋๋ค.
Letโs study with Deep Daiv
ย
์ค๋ฅธ์ชฝ ํ์์ ๋ณผ ์ ์๋ ๊ฒ ์ฒ๋ผ, ๋ฌธ์ฅ์ ๋ฑ์ฅํ๋ ๋จ์ด์ ์ข
๋ฅ๋งํผ 0์ผ๋ก ์ฑ์์ง ๋ฒกํฐ๊ฐ ์์ฑ๋๊ณ , ๊ฐ ๋จ์ด๋ง๋ค ๊ณ ์ ํ๊ฒ ๋ถ์ฌ๋๋ 1์ ์์น์ ์ํด ๋จ์ด๋ฅผ ๊ตฌ๋ถํ ์ ์์ต๋๋ค.
๋ง์ฝ โDaivโ ๋ผ๋ ๋จ์ด์ ๋ฒกํฐ๋ง ํ์ธํ๋ค๋ฉด ์ค๋ฅธ์ชฝ์ ๋ฒกํฐ์ฒ๋ผ, ํ๋์ ์ฐจ์๋ง 1์ด๊ณ ๋๋จธ์ง๋ 0์ ๊ฐ๋ ๋ฒกํฐ์ ํํ๋ก ํํ๋ ๊ฒ์
๋๋ค.
ย
์-ํซ ๋ฒกํฐ ๋ฐฉ์์ผ๋ก ํํํ๋ค๋ฉด ๋จ์ด์ ์๋ฏธ๋ฅผ ๋ด๊ณ ์๋ ๊ฐ์ค์น ํ๋ ฌ์์ ํ๋ ฌ๊ณฑ๋ง์ผ๋ก๋ ํด๋น ๋จ์ด์ ์๋ฏธ๋ฅผ ์ฝ๊ฒ ๊ฐ์ ธ์ฌ ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ๊ทธ๋ฌ๋, ๋จ์ด๋ง๋ค ๋ฒกํฐ์ ๊ธธ์ด๊ฐ ํ๋์ฉ ์ฆ๊ฐํ๊ธฐ ๋๋ฌธ์, ์ฌ๋ฌ ๋ฌธ์์ ๋ฑ์ฅํ๋ ๋จ์ด๋ค์ ๋ชจ๋ ์-ํซ ์ธ์ฝ๋ฉ์ผ๋ก ๋ฒกํฐํํ๋ฉด ์๋ฏธ ์๋ ๊ฐ์ด ๋๋ฌด ๋ง์ ํฌ์ ํํ์ด ๋์ด๋ฒ๋ฆฐ๋ค๋ ๋จ์ ์ด ์์ต๋๋ค.
ย
์-ํซ ์ธ์ฝ๋ฉ ๋ฐฉ์์์๋ ๊ฐ ๋จ์ด๋ง๋ค ์๋ฆฌ๊ฐ(ํน์ ๋ฒํธ๊ฐ) ์ ํด์ ธ์์ผ๋, ์ด๋ฅผ ์ด์ฉํด ๋ฌธ์ฅ์ด๋ ๋ฌธ์์ ์ด๋ค ๋จ์ด๋ค์ด ์ผ๋ง๋ ๋ค์ด๊ฐ๋์ง์ ๋ํ ๋น๋ ์ ๋ณด๋ฅผ ํ์ฉํ ์๋ ์์ต๋๋ค.
ย
์ด๋ฒ์๋ Letโs study with Deep Daiv machine learning study ๋ผ๋ ๋ฌธ์ฅ๊ณผ ๋ค๋ฅธ ๋ฌธ์ฅ์์ ์ถ๊ฐ๋ก ์ธ์ฝ๋ฉํ ๋จ์ด๋ค์ด ํฌํจ๋ ์-ํซ ๋ฒกํฐ ๋ฆฌ์คํธ๊ฐ ์๋ค๊ณ ํฉ์๋ค. ์ ๋ฌธ์ฅ์ ์๋์ ๊ฐ์ ๋ฒกํฐ๋ก ํํํ ์๋ ์์ต๋๋ค. ์ด๋ฅผ ๋ฌธ์ ๋น๋(Term-Frequency / TF) ๋ผ๊ณ ํํํฉ๋๋ค. ๊ฐ ๋จ์ด๊ฐ ๋ฌธ์ฅ์์ 0ํ, 1ํ, ๋๋ 2ํ ๋ฑ์ฅํ์๊ณ ์ด ์ ๋ณด๋ฅผ ํ์ฉํ์ฌ ๋ฌธ์ฅ์ ๋ฒกํฐ๋ก ํํํ ์ ์์ต๋๋ค. ๊ฐ ๋จ์ด๊ฐ ๋ฑ์ฅํ ํ์๋ฅผ ์ธ์ด(count) ๋ฒกํฐ๋ก ํํํ๊ธฐ ๋๋ฌธ์, TF ๊ธฐ๋ฐ์ ํํ ๋ฐฉ์์ ์นด์ดํธ ๊ธฐ๋ฐ ํํ์ด๋ผ๊ณ ๋งํฉ๋๋ค.
ย
ย
TF ๋ฐฉ์์ ํตํด ๋ฌธ์ฅ์ ๋ฒกํฐ๋ก ํํํ๋ค๋ฉด ์๋ก ๋ค๋ฅธ ๋ฌธ์ฅ์ด ๋๊ฐ์ ๋จ์ด๋ฅผ ์ผ๋ง๋ ๋ง์ด ํฌํจํ๋์ง์ ๋ํ ์ ๋ณด๋ฅผ ํตํ์ฌ, ์์ ํ์ธํ ์-ํซ ์ธ์ฝ๋ฉ ๋ฐฉ์์์๋ ์ฐพ์ ์ ์์๋ ์๋ก ๋ค๋ฅธ ๋ฌธ์ฅ ๊ฐ์ โ์ ์ฌ์ฑ'์ ํํํ ์ ์๊ฒ๋ฉ๋๋ค.
ย
๋จ์ด ์๋ฒ ๋ฉ
์์ ์ดํด๋ณธ ์นด์ดํธ ๊ธฐ๋ฐ์ TF ๋ฐฉ์์์๋ ๋ฌธ์ฅ์ด๋ ๋จ์ด์ ์ค์ํ ์๋ฏธ๋ ๋ด์ฉ์ด ์ฌ๋ฌ ์ฐจ์์ ๋ถ์ฐ๋์ด์ ํํ๋ฉ๋๋ค. TF ๋ฐฉ์์์ ํ ๋ฌธ์ฅ์ ์ฌ๋ฌ ์ฐจ์์ ๋ถ์ฐ๋์ด ํํ๋ ๊ฒ ์ฒ๋ผ, ๋จ์ด ์ญ์ ๋จ์ํ ํ ์ฐจ์์ ๋งคํ๋๋ ๊ฒ์ด ์๋๋ผ, ๊ทธ ์๋ฏธ๊ฐ ์ฌ๋ฌ ์ฐจ์์ ๋ถ์ฐ๋์ด ํํ๋ ์ ์์ต๋๋ค. ์ด๋ฌํ ๋ฐฉ์์ผ๋ก ๋จ์ด๋ ๋ฌธ์ฅ์ ํํํ๋ ๊ฒ์ ๋ถ์ฐ์ ํํ(distributional representation)์ด๋ผ๊ณ ์นญํ๋ฉฐ, ๋จ์ด๋ฅผ ๋ ์ ์ ์ฐจ์์ ๋ถ์ฐํ์ฌ ์๋ฏธ๋ฅผ ํํํด๋ด๋ ๊ฒ์ ๋จ์ด ์๋ฒ ๋ฉ(word embedding)์ด๋ผ๊ณ ํฉ๋๋ค.
ย
๊ฐ ๋จ์ด๋ฅผ ํ๋์ ์ฐจ์์ ๋งคํํ์ฌ ๋ฒกํฐ๋ก ํํํ๋ ๊ฒ์ด ์๋๋ผ ์ฌ๋ฌ ์ฐจ์์ ์๋ฏธ๋ ์์ฑ์ ๋ถ์ฐํ์ฌ ๋ด๊ณ ํํํ๋ค๋ฉด, ๋๊ฐ์ ๊ฐ์์ ๋จ์ด๋ฅผ ํจ์ฌ ๋ฎ์ ์ฐจ์์ผ๋ก ํํ์ด ๊ฐ๋ฅํฉ๋๋ค. ์-ํซ ์ธ์ฝ๋ฉ ๋ฐฉ์์์ 100๊ฐ์ ์ฐจ์์ผ๋ก 100๊ฐ์ ๋จ์ด์ ์๋ฏธ๋ฅผ ํํํ ์ ์์๋ค๋ฉด, ๋ถ์ฐ์ ํํ ๋ฐฉ์์์๋ 100๊ฐ์ ์ฐจ์์ผ๋ก 10,000๊ฐ~100,000๊ฐ์ ๋จ์ด์ ์๋ฏธ๋ฅผ ํํํด๋ผ ์ ์์ต๋๋ค.
ย
์ค๋ฅธ์ชฝ ์ด๋ฏธ์ง์ฒ๋ผ, ์๋ฒ ๋ฉ๋ ๋จ์ด๋ ์์ ๋ณธ Daiv ๋จ์ด์ ์-ํซ ๋ฒกํฐ์ ๋ค๋ฅด๊ฒ, ๋ชจ๋ ์ฐจ์์ ๊ฑธ์ณ ๋จ์ด์ ์๋ฏธ๋ฅผ ํํํ๊ณ ์์ต๋๋ค. ์ด์ฒ๋ผ ๋ชจ๋ ์ฐจ์์ 0์ด ์๋ ์ค์๊ฐ์ ๊ฐ๋ ํํ ๋ฐฉ์์ ๋ฐ์ง ํํ(dense representation) ์ด๋ผ๊ณ ํฉ๋๋ค.
ย
๋จ์ด ์๋ฒ ๋ฉ์ ๋ฐฐ์ฐ๋ ์ด์
์ ์ ์ฐจ์ ๋ด์์ ๋จ์ด๋ฅผ ๋ฐ์ง ํํ์ผ๋ก ๋ํ๋ธ๋ค๋ฉด ์ ํต์ ์ธ ์-ํซ ์ธ์ฝ๋ฉ ๋ฑ์ ๋ฐฉ์๊ณผ ๋น๊ตํด ๋ช๊ฐ์ง ์ฅ์ ์ ๊ฐ์ง๋๋ค.
1. ๊ณ์ฐ์ด ํจ์จ์ ์ด๋ค.
์ฐ์ฐ์ ์ํํด์ผ ํ๋ ๋ฒกํฐ์ ํ๋ ฌ์ ์ฐจ์์ ์ค์ฌ์, ์ฐ์ฐ๋์ ํฌ๊ฒ ๊ฐ์์์ผ ๊ณ์ฐ์ ํจ์จ์ ์ด๊ณ ๋น ๋ฅด๊ฒ ์ํํ ์ ์์ต๋๋ค. ๋จ์ํ ์๊ฐํด๋ด๋, 100x100 ํฌ๊ธฐ๋ฅผ ๊ฐ๋ ํ๋ ฌ 2๊ฐ๋ฅผ ๋ด์ ํ๋ ์ฐ์ฐ๊ณผ 10x10 ํฌ๊ธฐ์ ๋ ํ๋ ฌ์ ๋ด์ ์ฐ์ฐ์ ์ฐ์ฐ๋์ 1,000๋ฐฐ๋ ์ฐจ์ด๋ฉ๋๋ค.
ย
2. ํต๊ณ์ ์ฅ์ ์ ๊ณต์ ํ๊ธฐ ์ํํ๋ค.
์ผ๋ฐ์ ์ธ ๋ฌธ์ฅ์ด๋ ๋ฌธ์์์๋ ์ฌ์ ์ ์๋ ๋๋ถ๋ถ์ ๋จ์ด๋ฅผ ์ฌ์ฉํ์ง ์์ ๊ฒ์ด๊ธฐ ๋๋ฌธ์, ๋ฌธ์๋น๋(TF)๋ฅผ ํตํด ์ฌ๋ฌ ๋ฌธ์ฅ ๋๋ ๋ฌธ์์ ๋จ์ด ํต๊ณ๋ฅผ ๋ถ์ํ ๋, ๋ฌธ์ฅ์ ๋ํ TF ๋ฒกํฐ๋ ํฌ์ํ๋ ฌ(์ ์๋ฏธํ ๊ฐ๋ณด๋ค 0์ธ ๊ฐ์ด ๋ ๋ง์ ํ๋ ฌ)์ผ ๊ฐ๋ฅ์ฑ์ด ๋งค์ฐ ๋์ต๋๋ค. ์ด๋ฌํ ๊ฒฝ์ฐ์๋ ๊ณ์ฐ๋๋ ๋ง์ด ์ก์๋จน๊ณ ๋ฉ๋ชจ๋ฆฌ๋ ๋ญ๋นํ๊ฒ ๋์ด ๋งค์ฐ ๋นํจ์จ์ ์ด๊ฒ ๋ฉ๋๋ค.
๋จ์ด ์๋ฒ ๋ฉ์ ํตํด ์ฐจ์์ ์ถ์ํ ๊ฒฝ์ฐ, ํน์ด๊ฐ ๋ถํด ๋ฑ์ ์ํ์ ๊ธฐ๋ฒ์ ํตํด ํต๊ณ ์ ๋ณด๋ฅผ ๋ถ์ํ๊ณ ํ์ฉํ๋ ๊ฒ์ด ๋์ฑ ํจ์จ์ ์ด๊ฒ ๋๋ค.
ย
3. ์ต์ ํ๊ฐ ๊ฐ๋ฅํ๋ค.
์-ํซ ์ธ์ฝ๋ฉ ๋ฐฉ์์ฒ๋ผ ๋๋ฌด ๋ง์ ์ฐจ์์ ๊ฐ์ง ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ฉด ์ฐจ์์ ์ ์ฃผ ๋ฑ์ ๋ฌธ์ ๋ก ๋จธ์ ๋ฌ๋์ ์ต์ ํ์์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์์ต๋๋ค. ๋จ์ด ์๋ฒ ๋ฉ์ ํตํด ์ฐจ์์ ์ถ์ํ์ฌ, ์ ์ฐจ์์ ๋ฐ์ดํฐ๋ฅผ ์
๋ ฅ์ผ๋ก ๋ฃ์ด์ผ ์ํํ ํ์ต ๋ฐ task์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํฉ๋๋ค.
์ฐจ์์ ์ ์ฃผ
์ฐจ์์ ์ ์ฃผ๋ ํ์ต ๋ฐ์ดํฐ์ ์๋ณด๋ค ์ฐจ์์ ์๊ฐ ๋ ๋ง์์ง๋ฉด์ ์ฑ๋ฅ์ด ์ ํ๋๋ ํ์์ ๋งํฉ๋๋ค. ๋ฐ์ดํฐ์ ์์ ๋นํด ์ฐจ์์ด ์ธ๋ฐ์์ด ๋ง์์ง๊ฒ ๋๋ฉด ๊ทธ๋งํผ ๋ฐ์ดํฐ ํํ์์ ๋น ๊ณต๊ฐ์ด ๋ง์์ง๋ฉด์ ๊ณ์ฐ ์ฑ๋ฅ๋ ๋จ์ด์ง๊ณ , ๋ฐ์ดํฐ์ ๋ํ ์ค๋ช
๋ ๋ถ์กฑํด์ง๊ฒ ๋ฉ๋๋ค.
์ผ๋ฐ์ ์ผ๋ก ์ฐจ์์ ์ ์ฃผ๋ฅผ ํน์ด๊ฐ ๋ถํด(SVD)๋ ์ฃผ์ฑ๋ถ ๋ถ์(PCA) ๋ฑ์ ์ฐจ์ ์ถ์ ๊ธฐ๋ฒ์ ํตํด ํด๊ฒฐํ์ง๋ง, ์ฐจ์์ ๊ฐ์๊ฐ ์ผ๋ฐ์ ์ผ๋ก ์๋ฐฑ๋ง๊ฐ๊ฐ ๋์ด๊ฐ๋ NLP ๋ถ์ผ์์๋ ์ด๋ฌํ ํด๊ฒฐ ๋ฐฉ์์ด ์ ์ ์ฉ๋์ง ์์ต๋๋ค.
ย
๋จ์ด๋ฅผ ์๋ฒ ๋ฉํ์ ๋, ๊ฐ ๋จ์ด ๋ฒกํฐ๋ ์ ์ฌํ ์๋ฏธ๋ฅผ ๊ฐ๋ ๋จ์ด๋ผ๋ฆฌ ๊ฐ์ ๊ณต๊ฐ ๋ด์ ์ ์ฌํ ์์น์ ๋์ด๊ฒ ๋ฉ๋๋ค. ๋, ๋จ์ด๋ผ๋ฆฌ์ ๊ด๊ณ๋ ๋จ์ด๊ฐ์ ๋ฐฉํฅ๊ณผ ๊ฑฐ๋ฆฌ์ ์ํด ๋ํ๋ด์ง ์ ์์ต๋๋ค. ์๋ ๊ทธ๋ฆผ์ 2์ฐจ์์ผ๋ก ์ถ์ํ์ฌ ๊ฐ๋ตํ๊ฒ ๋จ์ด ์๋ฒ ๋ฉ์ ์ค๋ช
ํ๊ธฐ ์ํ ๊ทธ๋ฆผ์
๋๋ค.
์ ๊ทธ๋ฆผ์์ ๋ณผ ์ ์๋ฏ์ด, ๋๋ฌผ์ ๋ํ ๋จ์ด๋ ๋๋ฌผ๋ผ๋ฆฌ, ๋๋ผ์ ๋ํ ๋จ์ด๋ ๋๋ผ๋ผ๋ฆฌ, ๊ฐ์กฑ ๋ช
์นญ์ ๋ํ ๋จ์ด๋ ๊ฐ์กฑ ๋ช
์นญ๋ผ๋ฆฌ ๋ชจ์ฌ์๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. ์ ์ฌํ ์นดํ
๊ณ ๋ฆฌ์ ๋จ์ด๋ค์ ๋น์ทํ ์๋ฏธ๋ฅผ ๊ฐ๋๋ค๊ณ ํ๋จํ์ฌ, ๊ทผ์ฒ์ ๋ฐฐ์น๋๊ฒ ๋ฉ๋๋ค.
๋, ๋จ์ด๊ฐ์ ๊ด๊ณ๋ ๋ ๋จ์ด ์ฌ์ด์ ๋ฐฉํฅ๊ณผ ๊ฑฐ๋ฆฌ์ ์ํด ๋ํ๋ด์ด์ง๋๋ค. ๊ฐ์ด๋ฐ ์๋์ ๋ณด์ด๋ he-himself ๋จ์ด๊ฐ์ ๊ด๊ณ๋ she-herself์ ๋์ผํ๋ฏ๋ก, ๋ ๋จ์ด์ ์ฌ์ด์ ์ ์ ๋ฐฉํฅ๊ณผ ํฌ๊ธฐ๊ฐ ๋น์ทํ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. ์ด๋ ์ค๋ฅธ์ชฝ์ ํ์ฉ์ฌ์ ์๊ธ/๋น๊ต๊ธ/์ต์๊ธ์ด๋ ์ผ์ชฝ์ man-king, woman-queen์์๋ ํ์ธํ ์ ์์ต๋๋ค.
ย
์๋ ๋งํฌ์ ํํ์ด์ง๋ ํ๊ตญ์ด๋ก ๊ตฌํํ ๋จ์ด ์๋ฒ ๋ฉ์ ๋ํ ๋ฐฉ์์
๋๋ค. ์ง์ ํด๋ณผ ์ ์์ผ๋, ์ฌ๋ฏธ๋ก ํ ๋ฒ ๋จ์ด๊ฐ์ ๋ง์
๊ณผ ๋บ์
์ ์๋ํด๋ณด๊ธธ ๋ฐ๋๋๋ค!
ย
๋ค์ ๊ธ์์๋ ๋จ์ด ์๋ฒ ๋ฉ์ ๋ํด ์ง์ ์ฝ๋๋ฅผ ์์ฑํ๊ณ ๊ตฌํํ์ฌ ์๋ํด๋ณผ ๊ฒ์
๋๋ค.
ย
ย
ย
๋ค์ ๊ธ ์ฝ๊ธฐ
ย