cleanUrl: "paper/fasttext"
๋
ผ๋ฌธ : Fasttext : Enriching Word Vectors with Subword Information
์ ์ : Piotr Bojanowski, Edouard Grave, Armand Joulin, Tomas Mikolov
๋
ผ๋ฌธ ์ ์ ์ด์ Abstract IntroductionModel 1. General model (= word2vec)2. Subword modelExperimentsBaseline Optimization Implementation detailsDatasetsResults1. ์ฌ๋์ ์ ์ฌ๋ ํ๊ฐ์ ๋จ์ด ๋ฒกํฐ ์ ์ฌ๋์ correlation ๋น๊ต2. ์ ์ถ ๋ฌธ์ Word Analogy3. Comparison with Morphological Representations4. Effect of the Size of the Training Data5. Effect of the Size of N-grams6. Language ModelingQualitative analysis1. ์์ฃผ ๋ฑ์ฅํ์ง ์๋ ๋จ์ด์ ๋ํ Nearest Neighbors2. Character N-grams and Morophemes3. Word Similarity for OOV WordsConclusionReferences์ด์ ๊ธ ์ฝ๊ธฐ
๋ ผ๋ฌธ ์ ์ ์ด์
๋ณธ ๋
ผ๋ฌธ์ Word2Vec์์ ์ ์ํ๋ skip-gram์ ํ์ฅ์์ผ, ํ์๋จ์ด๋ฅผ ๋ฌธ์ n-gram์ผ๋ก ํํํ ํ ์ด๋ฅผ sumํ์ฌ ํํ์๋ฅผ ๋ณด์กดํ๋ ๋ฐฉ์์ธ Fasttext๋ฅผ ์ ์ํฉ๋๋ค.
์ด์ ์ ๊ณต๋ถํ๋ Word2Vec์ ๊ฒฝ์ฐ, ๊ฐ ๋จ์ด๋ฅผ ํ๋์ ๋ฒกํฐ๋ก ํํํ์ฌ ๋จ์ด์ morphology(ํํ์)๋ฅผ ๊ณ ๋ คํ์ง ์๋๋ค๋ ๋จ์ ์ด ์กด์ฌํฉ๋๋ค. ์ด์, Fasttext์์๋ word2vec์ ์ด๋ป๊ฒ ํ์ฅ์์ผ ๋ด๋ถ ๊ตฌ์กฐ ์ ๋ณด๋ฅผ ๋ด์ ๋ด๋ ค ํ๋์ง ์์๋ณด๊ณ ์ ๋ณธ ๋
ผ๋ฌธ์ ์ ํํ์์ต๋๋ค.
Word2Vec์ ๋ํ ์์ธํ ์ค๋ช
์ ์ด์ ํฌ์คํธ Efficient Estimation Of Word Representations In Vector Space (Word2Vec) (1) ๋ฅผ ์ฐธ๊ณ ํด์ฃผ์ธ์.
Abstract
์ ๋ช
ํ ๊ธฐ์กด ๋ชจ๋ธ๋ค์ ๊ฒฝ์ฐ ๊ฐ ๋จ์ด๋ง๋ค ๋ค๋ฅธ ๋ฒกํฐ๋ฅผ ํ ๋น ํ์ฌ, ๋จ์ด์ ํํ๋ฅผ ๋ฌด์ํฉ๋๋ค. ์ด๋ฌํ ๋ฌธ์ ์ ์ ํด๊ฒฐํ๊ธฐ ์ํด ํด๋น ๋
ผ๋ฌธ์์๋ Skip-gram์ ๊ธฐ๋ฐ์ผ๋ก ํ์ฌ ๊ฐ ๋จ์ด๋ฅผ character n-gram ๋ฒกํฐ์ ์กฐํฉ์ผ๋ก ํํํ์์ต๋๋ค.
ํด๋น ๋ฐฉ์์ ํฐ corpora(๋จ์ด ๋ง๋ญ์น)์ ๋ํด์๋ ํ์ต ์๋๊ฐ ๋น ๋ฅด๊ณ , ํ์ต ๋ฐ์ดํฐ์ ๋ฑ์ฅํ์ง ์์ ๋จ์ด๋ ํํ์ด ๊ฐ๋ฅํด์ก์ต๋๋ค. ๋ํ, 9๊ฐ ์ธ์ด์ ๋ํด ์ ์ฌ๋ ๋ฐ ์ถ๋ก task๋ฅผ ํตํด ํ๊ฐํ์๋๋, SOTA๋ฅผ ๋ฌ์ฑํ์์ต๋๋ค.
ย
Introduction
๋ง๋์์ด ๋จ์ด๋ฅผ ํํํ๋ representation๋ ์ ํ์ ์ผ๋ก ๋์๋ฐ์ํ๋ฅ ์ ์ด์ฉํ์ฌ, ๋ผ๋ฒจ์ด ์๋ ํฐ corpora์์ ํ์๋ฉ๋๋ค. ๋ถํฌ์๋ฏธํ์์๋ ์ด๋ฌํ ๋ฐฉ์์ ํน์ง์ ๊ณต๋ถํด์ค๊ณ ์์ต๋๋ค. neural network ์ปค๋ฎค๋ํฐ์์๋, ์๋ฐฉํฅ ์ ๊ฒฝ๋ง์ ์ด์ฉํ word embedding ๋ฐฉ์(์ข์ฐ ๊ฐ๊ฐ 2๊ฐ์ ๋จ์ด๋ค์ ๊ทผ๊ฑฐํจ)์ ์ ์ํ์ต๋๋ค. ๋ ์ต๊ทผ์๋, ๋งค์ฐ ํฐ corpora์ ๋ํ์ฌ ํจ์จ์ ์ผ๋ก ํ์ตํ๊ธฐ ์ํด ๊ฐ๋จํ log-bilinear ๋ชจ๋ธ์ ์ ์ํ์์ต๋๋ค.
์์ ๊ฐ์ ๊ธฐ์ ๋ค์ ๋๋ถ๋ถ vocabulary ๋ด ๊ฐ ๋จ์ด๋ฅผ parameter๋ฅผ ๊ณต์ ํ์ง ์๊ณ ๋ถ๋ฆฌ๋ vector๋ก ํํํฉ๋๋ค. ํนํ, ๋จ์ด๋ค์ ๋ด๋ถ ๊ตฌ์กฐ๋ฅผ ๋ฌด์ํ๋๋ฐ, ์ด๋ Turkish๋ Finnish์ ๊ฐ์ด ํํํ์ ์ผ๋ก ํ๋ถํ ๋จ์ด๋ค์๊ฒ ๊ต์ฅํ ํฐ ํ๊ณ์ ์ด ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, French๋ Spanish์๋ ๋์ฌ์ 40๊ฐ ์ด์์ ๋ค๋ฅธ ํํ๋ฅผ ๊ฐ์ง๊ณ ์๊ณ , Finnish๋ 15๊ฐ์ ๋ช
์ฌ ํํ๊ฐ ์กด์ฌํฉ๋๋ค. ์ด๋ฌํ ์ธ์ด๋ค์ ํ์ต์ ์ฐ์ด๋ corpus์๋ ๊ฑฐ์ ๋ํ๋์ง ์๋ ๋จ์ด ํํ๋ค์ ๊ฐ์ง๊ณ ์์ด, ์ข์ representation์ ํ์ตํ๊ธฐ๊ฐ ์ด๋ ต์ต๋๋ค. ๋ง์ ๋จ์ด์ ํํ๊ฐ ๊ท์น์ ๋ฐ๋ฅด๊ณ ์๊ธฐ ๋๋ฌธ์, ๋ฌธ์ ์์ค์ ์ ๋ณด๋ฅผ ํ์ฉํ๋ฉด ๋ฒกํฐ ํํ์ ๊ฐ์ ์์ผ ํํํ์ ์ผ๋ก ํ๋ถํ ๋จ์ด๋ฅผ ํํํ๋ ๊ฒ์ด ๊ฐ๋ฅํด์ง๋๋ค.
ํด๋น ๋
ผ๋ฌธ์์๋, character n-gram์ ํตํด representation์ ํ์ตํ๊ณ , n-gram vector์ ํฉ์ผ๋ก ๋จ์ด๋ฅผ ํํํฉ๋๋ค. ์ฐ๋ฆฌ๋ skip-gram ๋ชจ๋ธ์ ํ์ฅ์ ์๊ฐํ๊ณ , ํ์ ๋จ์ด์ ์ ๋ณด๋ฅผ ๊ณ ๋ คํฉ๋๋ค. ๋ค๋ฅธ ํํ๋ฅผ ๋๋ 9๊ฐ์ ์ธ์ด์ ๋ํด ๋ชจ๋ธ์ ํ๊ฐํ๊ณ , ์ฅ์ ์ ์๊ฐํฉ๋๋ค.
ย
Model
โํํโ๋ฅผ ๊ณ ๋ คํ๋ฉด์ word representation์ ํ์ตํ๋ ๋ชจ๋ธ์ ์ ์ํฉ๋๋ค. ํ์๋จ์ด unit์ ๊ณ ๋ คํ๋ฉด์ ํํ๋ฅผ ๋ง๋ค๊ณ , ์ด๋ฌํ character(์ํ๋ฒณ) n-gram์ ํฉ์ผ๋ก ๋จ์ด๋ฅผ ํํํฉ๋๋ค. ๋จ์ด vector๋ฅผ ํ์ตํ๋๋ฐ ์ฌ์ฉํ๋ ํ๋ ์์ํฌ์ ํ์๋จ์ด ๋ชจ๋ธ์ ์ด๋ช
ํ๊ณ , character n-gramdml dictionary๋ฅผ ์ด๋ป๊ฒ ํ์ฉํ๋์ง ์ค๋ช
ํ๊ฒ ์ต๋๋ค.
1. General model (= word2vec)
๋จผ์ , skip-gram์ ์ง๊ณ ๊ฐ์ผํฉ๋๋ค.
์ฌ์ด์ฆ๊ฐ W์ธ vocabulary๊ฐ ์ฃผ์ด์ก์๋, ๊ฐ ๋จ์ด w์ index๋ {} ์ด๊ณ , ํด๋น ๋ชจ๋ธ์ ๋ชฉํ๋ ๊ฐ ๋จ์ด w์ ๋ฒกํฐ ํํ์ ํ์ตํ๋ ๊ฒ์
๋๋ค. word representation์ ํด๋น ๋ฌธ๋งฅ์์ ๋ํ๋๋ ๋จ์ด๋ค์ ์ ์์ธกํ๊ธฐ ์ํด ํ์ต๋ฉ๋๋ค.
๊ณต์์ผ๋ก ํํํ๋ฉด, skip-gram์ ๋ชฉํ๋ ๋จ์ด ๊ฐ ์ฃผ์ด์ก์ ๋ ๋ฌธ๋งฅ ๋จ์ด ์ ์ด๋ค ๋จ์ด๊ฐ ์์ผ์ง ํ๋ฅ ์ด ๊ฐ์ฅ ๋์์ง๋ ์ง ์ต์ ํํ๋ ๊ฒ์
๋๋ค.
: ๋ฅผ ๋๋ฌ์ธ๊ณ ์๋ ๋จ์ด๋ค์ index set(์ค์ฌ ๋จ์ด๊ฐ ์๋ ๋ฌธ๋งฅ ๋จ์ด)
: corpus ๋ด ๋จ์ด ์
ย
context ๋จ์ด๋ฅผ ๊ฐ์ง๊ณ ํ๋ฅ ์ ํํํ๋ ๋ฐฉ๋ฒ ์ค ํ๋๋ softmax ํจ์๋ฅผ ์ด์ฉํ๋ ๊ฒ์
๋๋ค.
s : (word,context)์์ ๋งคํํ๋ scoring function
๋ถ์ : ๊ฐ ์ฃผ์ด์ก์ ๋ ์ค์ ์ ๋ต์ธ ๊ฐ ๋์ฌ ํ๋ฅ
๋ถ๋ชจ : ๊ฐ ์ฃผ์ด์ก์ ๋ ๋ค๋ฅธ ๋ชจ๋ ๋จ์ด๋ค์ด ๋ฑ์ฅํ ํ๋ฅ ์ ํฉ
ย
๊ทธ๋ฌ๋, softmaxํจ์๋ ๊ฐ ์ฃผ์ด์ก์ ๋ ํ๋์ ๋ํด์๋ง ์์ธกํ๊ธฐ ๋๋ฌธ์, ํ๋๋ฅผ ์์ธกํ๊ธฐ ์ํด ๋ชจ๋ ๋จ์ด๋ฅผ ๊ณ ๋ คํ์ฌ ๊ณ์ฐ ํจ์จ์ด ๋จ์ด์ง๋ค๋ ๋จ์ ์ด ์์ด ๋ณธ ๋
ผ๋ฌธ์ ์ผ์ด์ค์ ์ ๋ง์ง ์์ต๋๋ค. ๋ฐ๋ผ์, softmax ๋์ negative sampling์ ์ฌ์ฉํฉ๋๋ค.
context words๋ฅผ ์์ธกํ๋ multi label classification ๋ฌธ์ ๋ฅผ ๋
๋ฆฝ์ ์ผ๋ก context words ์ธ์ง, ์๋์ง๋ฅผ ์์ธกํ๋ binary classification task๋ก ๋ฐ๊ฟ ์ ์์ต๋๋ค. ์์น์ ์๋ ๋จ์ด์ ๋ํด ๋ชจ๋ context words๋ฅผ positive example๋ก ๊ณ ๋ คํ๊ณ , dictionary๋ก๋ถํฐ ๋๋คํ๊ฒ negative example์ ์ถ์ถํฉ๋๋ค. ์์น์ ์๋ context์ ๋ํ์ฌ, binary logistic loss๋ฅผ ์ด์ฉํ์ฌ ๋ค์๊ณผ ๊ฐ์ negative log-likelihood๋ฅผ ๊ณ์ฐํ ์ ์์ต๋๋ค.
: vocabulary์์ ์ถ์ถ๋ negative samples
์ข์ธก: ๊ฐ ์ฃผ์ด์ก์ ๋, ๊ฐ ์ ๋ต์ด๋ผ๋ฉด ๋ ๋ฒกํฐ์ ์ ์ฌ๋๋ฅผ ๋์ด๊ณ , ํฉ์ด ์ต๋ํ ๋๋ค.
์ฐ์ธก: ๊ฐ ์ฃผ์ด์ก์ ๋, ์ค์ ์ ๋ต์ด ์๋ n์ ๋ํด์๋ ๋ ๋ฒกํฐ์ ์ ์ฌ๋๋ฅผ ๋ฎ์ถ๊ณ , -1์ด ๊ณฑํด์ ธ ์์ด ํฉ์ด ์ต์ํ ๋๋ค.
์์ ๊ฐ์ ํ์์ ์ด์ฉํ์ฌ ๋ค์ ํํํ๋ฉด ์๋์ ๊ฐ์ต๋๋ค.
ย
2. Subword model
๊ฐ ๋จ์ด๊ฐ ๋ถ๋ฆฌ๋ ๋ฒกํฐ ํํ์ ์ฌ์ฉํ๋ฉด์, skip-gram ๋ชจ๋ธ์ ๋จ์ด์ ๋ด๋ถ ๊ตฌ์กฐ๋ฅผ ๋ฌด์ํฉ๋๋ค. ์ฐ๋ฆฌ๋ ๋ด๋ถ ์ ๋ณด๋ฅผ ๊ณ ๋ คํ๊ธฐ ์ํด ๋ค๋ฅธ scoring function s๋ฅผ ์ ์ํฉ๋๋ค.
๊ฐ ๋จ์ด w๋ ๋ฌธ์ n-gram์ ์งํฉ์ผ๋ก ํํ๋ฉ๋๋ค. ๋จ์ด ์ฒ์๊ณผ ๋์ <,>๋ฅผ ์ถ๊ฐํ์ฌ ์ ๋์ฌ์ ์ ๋ฏธ์ฌ๋ฅผ ๋ค๋ฅธ ๋ฌธ์ sequence์ ๊ตฌ๋ถํ๊ธฐ๋ก ํฉ๋๋ค. ๋ํ, ์ฐ๋ฆฌ๋ n-grams ์งํฉ์ ๋จ์ด w ์์ ๋ ์ถ๊ฐ์ํต๋๋ค.
ย
e.g. where๋ผ๋ ๋จ์ด์์ n = 3 ์ผ ๋, ๋จ์ด n-gram :
<wh, whe, her, ere, re>
special sequence :
<where>
- ๋จ์ด her์์ ๋์จ <her>๊ณผ where์์ ๋์จ <her>์ ๋ค๋ฆ ๋๋ค
ย
๋จ์ด๋ ํด๋น ๋จ์ด์ ๋ํ n-gram์ ํฉ์ผ๋ก ํํํ ์ ์๊ณ , scoring function์ ์๋์ ๊ฐ์ต๋๋ค.
: ๊ฐ n-gram g์ ๋ํ ๋ฒกํฐ ํํ
: ๋จ์ด w์์ ๋์ฌ ์ ์๋ ๋ชจ๋ n-gram ์งํฉ
: ๋ฌธ๋งฅ ๋จ์ด ์ ๋ฒกํฐ
ย
๋จ์ด๋ค๋ผ๋ฆฌ representation์ ๊ณต์ ๋ ๊ฐ๋ฅํด์ง๊ณ , ์ด๋ก์จ ์์ํ ๋จ์ด์ ๋ํด์๋ ๋ฏฟ์๋งํ representation์ ํ์ตํ ์ ์๊ฒ ๋์์ต๋๋ค. ์๋ฅผ ๋ค์ด, eats, eating๊ณผ ๊ฐ์ด eat์ด๋ผ๋ ์๋ ๋จ์ด์์ ํ์๋ ๋จ์ด๋ค์ ํํ์ ๊ณต์ ํ๊ณ ํ์ต์์ผฐ๋ค๊ณ ํ ์ ์์ต๋๋ค.
๋ฅผ ๋ง๋๋ ๊ฒ์ ๋ฐ์ดํฐ์ ํฌ๊ธฐ๋ฅผ ํฌ๊ฒ ๋ง๋๋ ์ผ์ด๊ธด ํฉ๋๋ค. ์ ์๋ ๋ฉ๋ชจ๋ฆฌ ์ฌ์ฉ๋์ ์ค์ด๊ณ ๊ณ์ฐ์ ํจ์จ์ ์ผ๋ก ํ๊ธฐ ์ํด, n-gram๋ค์ 1๋ถํฐ K๊น์ง์ ์ ์๋ก ๋งคํํ๋ ํด์ฑํจ์๋ฅผ ์ฌ์ฉํ์์ต๋๋ค. Fowler-Noll-Vo ํด์ฑํจ์๋ฅผ ์ฌ์ฉํ์๊ณ , K๋ฅผ ์ดํ๋ก ์ค์ ํ์์ต๋๋ค. ๊ถ๊ทน์ ์ผ๋ก, ๋จ์ด๋ word dictionary์์ ์์ ์ Index์ ๊ทธ ๋จ์ด๊ฐ ๊ฐ์ง๊ณ ์๋ hashed n-gram์ ์งํฉ์ผ๋ก ํํ๋ฉ๋๋ค.
Experiments
Baseline
๋ณธ ๋
ผ๋ฌธ์ ๋ชจ๋ธ์ word2vec ํจํค์ง์ skip-gram, CBOW(Continuous Bag-Of-Words)๊ณผ ๋น๊ตํฉ๋๋ค.
Optimization
์์์๋ negative log likelihood์ SGD(stochastic gradient descent)๋ฅผ ์ ์ฉ์์ผ ์ต์ ํ๋ฌธ์ ๋ฅผ ํด๊ฒฐํฉ๋๋ค. ๋ฒ ์ด์ค๋ผ์ธ์ธ skip-gram์์๋, ์ ํ ๊ฐ์ํ๋ step size๋ฅผ ์ฌ์ฉํฉ๋๋ค.T๊ฐ์ ๋จ์ด๊ฐ ํฌํจ๋ training set๊ณผ, data ์ ๋ฐ์ ๋ํด ํต๊ณผํ๋ ์๊ฐ P์ ๋์ผํ๋ค๊ณ ์ฃผ์ด์ก์ ๋, ์๊ฐ t์์์ step size๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
: fixed parameter
ย
์ต์ ํ๋ฅผ ๋ณ๋ ฌ์ ์ผ๋ก ์ํํ๊ธฐ ์ํด, Hogwild๋ฅผ ์ฌ์ฉํฉ๋๋ค. ๋ชจ๋ ์ฐ๋ ๋๋ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ณต์ ํ๊ณ , ๋น๋๊ธฐ์ ์ธ ๋ฐฉ์์ผ๋ก ๋ฒกํฐ๋ฅผ ์
๋ฐ์ดํธ ํฉ๋๋ค.
ย
Implementation details
word vector์ ์ฐจ์์ 300์
๋๋ค. positive example์ ๋ํด, uni-gram(n=1)์ ๋น๋์ ๋ํด ์ ๊ณฑ๊ทผํ ๊ฐ๊ณผ ๋น๋กํ๋ ํ๋ฅ ๋ก ๋๋คํ๊ฒ 5๊ฐ์ negatives๋ฅผ ์ํ๋งํ์์ต๋๋ค. context window size์ ๊ฒฝ์ฐ c๋ก ์ค์ ํ์๋๋ฐ, c์ ๊ฐ์ 1๊ณผ 5 ์ฌ์ด์์ ๊ท ์ผํ๊ฒ ์ํ๋งํ์์ต๋๋ค. ๊ฐ์ฅ ๋น๋ฒํ ๋จ์ด๋ค์ ์ผ๋ถ๋ง ์ทจํ๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ rejection threshold๋ฅผ ๋ก ์ค์ ํ์์ต๋๋ค. word dictionary๋ฅผ ๋ง๋ค ๋, ๋จ์ด๊ฐ training set์ ์ ์ด๋ 5๋ฒ ์ด์์ ๋ํ๋๋๋ก ํ์์ต๋๋ค. step size์ ์ skip-gram์ 0.025, ๋
ผ๋ฌธ์์ ์ ์ํ ๋ชจ๋ธ๊ณผ CBOW๋ 0.05๋ก ์ค์ ํ์์ต๋๋ค. ์ด๋ word2vec ํจํค์ง์ ๋ํดํธ ๊ฐ์ด๊ณ ํด๋น ๋ชจ๋ธ์๋ ์ ์ ์ฉ๋ฉ๋๋ค.
English ๋ฐ์ดํฐ์ ๋ํด ์ธํ
ํ ๋, ๋ณธ ๋
ผ๋ฌธ์ ๋ชจ๋ธ์ ์ฝ 1.5๋ฐฐ ๋๋ฆฌ๊ฒ ํ์ต๋ฉ๋๋ค. ์ฐ๋ฆฌ์ ๋ชจ๋ธ์ C++์์ ์คํ๋๊ณ , ๊ณต๊ณต์ผ๋ก ์ฌ์ฉ๊ฐ๋ฅํฉ๋๋ค.
ย
Datasets
Wikipedia ๋ฐ์ดํฐ์ ๋ํด ๋ชจ๋ธ์ ํ์ตํ์์ต๋๋ค. ์ด 9๊ฐ์ ์ธ์ด(Arabic, Czech, German, English, Spanish, French, Italian, Romanian, Russian)๋ก ๊ตฌ์ฑ๋์ด ์์ต๋๋ค.
Matt Mahoney์ ์ ์ฒ๋ฆฌ ์คํฌ๋ฆฝํธ๋ฅผ ์ด์ฉํ์ฌ ์ํคํผ๋์ ๋ฐ์ดํฐ๋ฅผ ์ ๊ทํํ์์ต๋๋ค. ๋ชจ๋ ๋ฐ์ดํฐ๋ ๋ฌด์์๋ก ์์ฌ์๊ณ , 5๊ฐ์ฉ ํจ์คํ๋ฉด์ ํ์ต์ ์์ผฐ์ต๋๋ค.
ย
Results
5๊ฐ์ experiments๋ฅผ ํตํด ๋ชจ๋ธ์ ํ๊ฐํ์ต๋๋ค. ๋ณธ ๋
ผ๋ฌธ์ ๋ชจ๋ธ์ sisg(Subword Information Skip Gram)๋ก ๋ํ๋์ต๋๋ค.
ย
1. ์ฌ๋์ ์ ์ฌ๋ ํ๊ฐ์ ๋จ์ด ๋ฒกํฐ ์ ์ฌ๋์ correlation ๋น๊ต
cbow์ skipgram(cbow and sg)์ ํ์ต๋ฐ์ดํฐ์ ๋ํ๋์ง ์์ ๋จ์ด์ ๋ํด์ ๋จ์ด ๋ฒกํฐ๋ฅผ ๋์ถํ ์ ์๊ธฐ ๋๋ฌธ์ ์ด ๋จ์ด์ ๋ํด์๋ null vector(sisg-)๋ฅผ ๋ง๋ค์์ต๋๋ค. ๋ณธ ๋
ผ๋ฌธ์ ๋ชจ๋ธ sisg(Subword Information Skip Gram)์ subword ์ ๋ณด๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ย ๋ชจ๋ฅด๋ ๋จ์ด(OOV)์ ๋ํด์๋ ํ๋นํ ๋จ์ด๋ฒกํฐ๋ฅผ ๋ํ๋ผ ์ ์์ต๋๋ค.
English WS353์ ์ ์ธํ๊ณ ๋ชจ๋ ๋ฐ์ดํฐ์์ baseline๋ณด๋ค sisg๊ฐ ์ฑ๋ฅ์ด ์ข์ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ๋ ๋ชจ๋ฅด๋ ๋จ์ด๋ฅผ ๋จ์ด ๋ฒกํฐ๋ก ๋ํ๋ธ sisg๊ฐ null๋ก ๋ํ๋ธ sisg-๋ณด๋ค ๊ฐ๊ฑฐ๋ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์คย subword ์ ๋ณด์ ์ฅ์ ์ ์ฆ๋ช
ํด์ค๋๋ค.
Arabic, German ๊ทธ๋ฆฌ๊ณ Russian์ด ๋ค๋ฅธ ์ธ์ด๋ณด๋ค ๋ ํจ๊ณผ์ ์ธ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. German์ 4๊ฐ์ง Russian์ 6๊ฐ์ง ๋ฌธ๋ฒ์ ์ดํ๋ณํ๋ฅผ ๋ณด์ด๊ณ Russian์ ํฉ์ฑ์ด๊ฐ ๋ง๊ธฐ ๋๋ฌธ์ย ํํ๋ก ์ ์ ๋ณด๊ฐ ์ค์ํ๊ธฐ ๋๋ฌธ์ธ ๊ฒ์ผ๋ก ๋ณด์
๋๋ค.
English์์ Rare Words dataset (RW)๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง WS353์์๋ ๋ฎ๊ฒ ๋ํ๋๋์ต๋๋ค. ์ด ๋ฐ์ดํฐ ์
์ ์์ฃผ ๋ฑ์ฅํ๋ ๋จ์ด๋ก ๊ตฌ์ฑ๋์ด์์ด subword ์ ๋ณด๊ฐ ์ค์ํ์ง ์์๊ธฐ ๋๋ฌธ์
๋๋ค.
ย
2. ์ ์ถ ๋ฌธ์ Word Analogy
A : B = C : D์ ๊ด๊ณ ์์ ๋ชจ๋ธ์ ํตํด D๋ฅผ ์์ธกํ๋ ๊ฒ์ด ๋ชฉํ์
๋๋ค. ํ์ต๋ฐ์ดํฐ์ ๋ํ๋์ง ์์ ๋จ์ด๊ฐ ํฌํจ๋ questions์ ์ ์ธํ์ต๋๋ค.
syntacticย information์์ ๋๋ ทํ ์ฑ๋ฅ ๊ฐ์ ์ ๋ณด์ฌ์ค๋๋ค. ๋์กฐ์ ์ผ๋กย semantic์์๋ ์ฑ๋ฅ ๊ฐ์ ์ด ๋ํ๋์ง ์์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ดํ์ ๋์ฌ ์คํ(5)์์ ๋ณด์ฌ์ฃผ๋ฏ์ด character n-gram์ ๊ธธ์ด ์กฐ์ ์ ํตํด์ semantic์์๋ ์ฑ๋ฅ์ ๊ฐ์ ํ ์ ์์์ต๋๋ค. ํํ๋ก ์ ์ ๋ณด๊ฐ ํ๋ถํ Czech(CS) ๊ทธ๋ฆฌ๊ณ German(DE)์์ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค.
ย
3. Comparison with Morphological Representations
RNN, cbow, morphological transformation of Soricut and Och, log-bilinear language ๋ชจ๋ธ์ ๋ณธ ๋
ผ๋ฌธ์์ ์ ์ํ ๋ชจ๋ธ sisg์ ์ ์ฌ์ฑ task์ ๋ํด ๋น๊ตํ์ต๋๋ค. ํํ๋ก ์ ์ ๋ณด์ ๊ธฐ๋ฐํ ๋ชจ๋ธ๋ก ์ฐ์ํ ์ฑ๋ฅ์ ๊ฐ์ง๊ณ ์์ต๋๋ค.
ํํ๋ก ์ ๋ณํ์ ์ฌ์ฉํ Soricut and Och(2015)๋ณด๋ค๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋๋ค. Soricut and Och(2015)์์๋ noun compounding์ ํ์ง ์์๊ธฐ ๋๋ฌธ์ ํนํ German์์ ํฐ ๊ฐ์ ์ ๋ณด์ฌ์ค๋๋ค.
ย
4. Effect of the Size of the Training Data
์ฐ๋ฆฌ๋ ๋จ์ด๊ฐ์ character-level ์ ์ฌ์ฑ์ ์ด์ฉํ๊ธฐ ๋๋ฌธ์ ์์ฃผ ๋ฑ์ฅํ์ง ์๋ ๋จ์ด์ ๋ํด์๋ ์ ํ์ต์ํฌ ์ ์์ต๋๋ค. ๋ฐ๋ผ์ ํ์ต๋ฐ์ดํฐ์ ์ฌ์ด์ฆ์ robust ํด์ผํฉ๋๋ค.ย OOV์ ๋น์จ์ ๋ฐ์ดํฐ์
์ด ์ค์ด๋ค์๋ก ์ฆ๊ฐํ ๊ฒ์
๋๋ค. ๋ฐ๋ผ์ sisg-์ cbow๋ ์ฑ๋ฅ์ด ์๋์ ์ผ๋ก ๋ฎ์ ๊ฒ ์
๋๋ค.ย ๋จ์ด ์ฌ์ด์ฆ์ ์์กดํ๋์ง ํ๊ฐํ๊ธฐ ์ํด cbow ๋ชจ๋ธ๊ณผ ๋น๊ตํ์ต๋๋ค.
๊ฒฐ๊ณผ,ย ๋ชจ๋ ๋ฐ์ดํฐ์
์์, ๋ชจ๋ ์ฌ์ด์ฆ์์ sisg๊ฐ ๋์ ์ฑ๋ฅ์ ๋ณด์
๋๋ค. cbow ๋ชจ๋ธ์ ๋ฐ์ดํฐ ์ฌ์ด์ฆ๊ฐ ์ฆ๊ฐํ ์๋ก ์ข์ ์ฑ๋ฅ์ ๋ณด์ด๋ ๋ฐ๋ฉด์ sisg๋ ๋ฐ์ดํฐ ์ฌ์ด์ฆ์ ์ฆ๊ฐ๊ฐ ํญ์ ์ฑ๋ฅ ์ฆ๊ฐ๋ฅผ ๋ถ๋ฌ์ค์ง๋ ์์์ต๋๋ค.ย
์์ฃผ ์์ ํ์ต๋ฐ์ดํฐ์
์๋ sisg๋ ๋์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. German GUR350์์ sisg๊ฐ ๋ฐ์ดํฐ์
์ 5%๋ง ์ฌ์ฉํ์ ๋ ์ฑ๋ฅ์ 66์ผ๋ก cbow๋ก ์ ์ฒด ๋ฐ์ดํฐ์
์์ ํ์ตํ ์ฑ๋ฅ 62๋ณด๋ค ๋์์ต๋๋ค. ๋ํ English RW์์ sisg๊ฐ ๋ฐ์ดํฐ์
์ 1%๋ง ์ฌ์ฉํ์ ๋ ์ฑ๋ฅ์ 45์ผ๋ก cbow๋ก ์ ์ฒด ๋ฐ์ดํฐ์
์์ ํ์ตํ ์ฑ๋ฅ 43๋ณด๋ค ๋์์ต๋๋ค. ๋ฐ๋ผ์ย ์ ํ๋ ์ฌ์ด์ฆ์ ๋ฐ์ดํฐ ์
์์๋ ๋จ์ด๋ฒกํฐ๊ฐ ํ์ต๋ ์ ์๊ณ ์ด์ ์ ๋ฑ์ฅํ์ง ์์ ๋จ์ด์ ๋ํด์๋ ์ฌ์ ํ ์ ํ์ต๋๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ํ์ฉ์ ํ์ํ relevent task-specific data๋ ์์ด ๋ง์ง ์์๋ฐ, ์ด ๋ชจ๋ธ์ ํตํด ์ ์ ํ์ต๋ฐ์ดํฐ๋ก ํ์ตํ ์ ์๋ค๋ ๊ฒ์ ํฐ ์ฅ์ ์
๋๋ค.
ย
5. Effect of the Size of N-grams
์์ ๋ชจ๋ธ์์ ์ค๋ช
ํ๋ฏ์ด n-gram์ ๊ธฐ๋ณธ size์ 3-6์ผ๋ก ์ค์ ํ์ต๋๋ค. n size๊ฐ ์ด๋ค ์ํฅ์ ์ฃผ๋์ง ์์๋ณด๊ธฐ ์ํด ์คํ์ ์งํํ ๊ฒฐ๊ณผ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
English ๊ทธ๋ฆฌ๊ณ German์์ 3-6์ ํฉ๋ฆฌ์ ์ธ ์ ํ์ด์์์ ๋ณด์ฌ์ค๋๋ค. ๋ฒ์์ ๊ธธ์ด๋ task์ language์ ๋ฐ๋ผ ์์์ ์ผ๋ก ์กฐ์ ํด์ผํฉ๋๋ค. ์ด5, 6์์ ๊ฐ์ฅ ์ข์ ๊ฒฐ๊ณผ๊ฐ ๋ํ๋ฌ์ต๋๋ค. long n-gram์ ํฌํจํ๋ ๊ฒ์ด ์ค์ํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ์ ์ถ task์์ longer n-grams๊ฐ semantic ์ ์ถ๋ฅผ ๋์์ค๋๋ค.
n-gram์ ์ฌ์ฉํ ๋, ๊ธฐํธ <, >๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ n = 2๋ก ํ๋ฉด ํ๋๋ proper character์ด๊ณ ๋ค๋ฅธ ํ๋๋ positional one์ธ ๊ฒ์ด ์๊ธฐ๊ธฐ ๋๋ฌธ์ 2๋ณด๋ค๋ ์ปค์ผํ๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค.
ย
6. Language Modeling
without using pre-trained word vectors (LSTM), with pre-trained word vectors without subword information(sg), ๊ทธ๋ฆฌ๊ณ ๋
ผ๋ฌธ์์ ์ ์ํ ๋ชจ๋ธ(sisg)์ ๋น๊ตํ์ต๋๋ค.
pre-trained word vectors์ผ ๋ test perplexit๊ฐ ๊ฐ์ ๋์์ต๋๋ค. subword๋ฅผ ์ฌ์ฉํ์ ๋, plain skipgram model๋ณด๋ค ๋ ๋ฎ์ test perplexit์ ๋ณด์ฌ์ค๋๋ค.
ย
ย
Qualitative analysis
1. ์์ฃผ ๋ฑ์ฅํ์ง ์๋ ๋จ์ด์ ๋ํ Nearest Neighbors
์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ํตํด ์์ฃผ ๋ฑ์ฅํ์ง ์์ ๋จ์ด์ ๋ํ Nearest neighbors๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. ๋ฒ ์ด์ค๋ผ์ธ์ธ skipgram๋ณด๋ค ๋ณธ ๋ชจ๋ธ(sisg)์ด ๋ ํฉ๋ฆฌ์ ์ผ๋ก ์ฃผ๋ณ ๋จ์ด๊ฐ ๋ํ๋ฌ์ต๋๋ค.
ย
2. Character N-grams and Morophemes
๊ฐ ๋จ์ด์ ์ค์ํ n-gram์ ์ฐพ๊ณ ์ ํฉ๋๋ค. w์ ๋จ์ด์ n-grams์ ํฉ์ด๊ณ ๊ฐ n-gram g์ ๋ํด์ restricted representation์ ์ ์ํฉ๋๋ค.
u_w์ u_w/g๊ฐ์ ์ฝ์ฌ์ธ ๊ฐ์ ์ค๋ฆ์ฐจ์์ผ๋ก n-gram์ ์์๋ฅผ ์ ํฉ๋๋ค. ranked n-grams๋ ๋ค์ ํ๋ก ๋ณด์ฌ์ค๋๋ค.
์๋ฅผ ๋ค์ด Autofahrer (car driver)์ ์ค์ํ n-grams๋ Auto (car) ๊ทธ๋ฆฌ๊ณ Fahrer (driver)๋ก ํฉ๋ฆฌ์ ์ธ ๊ฒฐ๊ณผ์
๋๋ค. ๋ํ starfish์ star๊ณผ fish, lifetime์ life์ time์ด ๋์ถ๋์์ต๋๋ค.
ย
3. Word Similarity for OOV Words
๋ณธ ๋
ผ๋ฌธ์ ๋ชจ๋ธ์ OOV์ ๋ํ ๋จ์ด ๋ฒกํฐ๋ฅผ ๋ง๋๋ ๊ฒ์ด ๊ฐ๋ฅํฉ๋๋ค. OOV ๋จ์ด์ n-grams ํ๊ท ์ผ๋ก vector representation์ ๊ตฌํฉ๋๋ค. ์ด ๋จ์ด ๋ฒกํฐ๊ฐ ๋จ์ด์ ์๋ฏธ๋ฅผ ์ ๋ํ๋ด๋์ง ํ๊ฐํ๊ธฐ ์ํด ํ๋์ OOV ๋จ์ด์ ํ์ต๋ฐ์ดํฐ ๋ด์ ๋จ์ด๋ฅผ pair๋ก ๋ ๋จ์ด๊ฐ์ ์ฝ์ฌ์ธ ์ ์ฌ๋๋ฅผ ๊ตฌํ์ต๋๋ค.
ย
๋ค์ ๊ทธ๋ฆผ์์ x์ถ์ด OOV ๋จ์ด์
๋๋ค. ๋นจ๊ฐ์์ ์์ ์ฝ์ฌ์ธ, ํ๋์์ ์์ ์ฝ์ฌ์ธ์ ์๋ฏธํฉ๋๋ค.
๋จ์ด rarity์ scarceness์์ -ness์ -ity๊ฐ ๋์ ์ ์ฌ๋๋ฅผ ๋ณด์
๋๋ค. ๋ํ ๋จ์ด preadolescent๋ -adolesc-๋ผ๋ subword ๋๋ถ์ ๋จ์ด young๊ณผ ์ ๋งค์น๋ฉ๋๋ค. ๋ฐ๋ผ์ OOV ๋จ์ด๋ ์๋ฏธ๋ฅผ ์ ๋ํ๋ด๋ ๋จ์ด๋ฒกํฐ๋ฅผ ๋ง๋ค ์ ์์ต๋๋ค.
ย
Conclusion
Fasttext๋ character n-grams๊ณผ skipgram์ ๊ฒฐํฉํ ๋ชจ๋ธ์
๋๋ค. subword ์ ๋ณด๋ฅผ ํตํด ๋จ์ด๋ฒกํฐ๋ฅผ ๋ํ๋
๋๋ค. ์ด ๋ชจ๋ธ์ ํ์ต์ ๋น ๋ฅด๊ฒ ํ๊ณ ์ฌ์ ์ฒ๋ฆฌ๋ ๊ฐ๋
์ด ํ์ํ์ง ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ์ด์ ์ ํ์ต๋์ง ์์ ๋จ์ด์ ๋ํด์๋ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ค๋๋ค. ๊ฒฐ๋ก ์ ์ผ๋ก ๋ค์ํ task์์ ๋ฒ ์ด์ค๋ผ์ธ์ ๋ฐ์ด๋๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ๊ณ ํํ๋ก ์ ์ ๋ณด๋ฅผ ํฌํจํ๋ ๋ชจ๋ธ์
๋๋ค.
ย
References
Enriching Word Vectors with Subword Information (Piotr Bojanowski,ย Edouard Grave,ย Armand Joulin,ย Tomas Mikolov) https://arxiv.org/abs/1607.04606
Efficient Estimation of Word Representations in Vector Space (Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey Dean) https://arxiv.org/abs/1301.3781
Distributed Representations of Words and Phrases and their Compositionality (Tomas Mikolov,ย Ilya Sutskever,ย Kai Chen,ย Greg Corrado,ย Jeffrey Dean) https://arxiv.org/abs/1310.4546
[์์ฐ์ด์ฒ๋ฆฌ][paper review] FastText: Enriching Word Vectors with Subword Information https://supkoon.tistory.com/15
Fowler-Noll-Vo hash function https://en.m.wikipedia.org/wiki/FowlerโNollโVo_hash_function