cleanUrl: "/paper/glove"
๋
ผ๋ฌธ : GloVe: Global Vectors for Word Representation
์ ์ : Jeffrey Pennington, Richard Socher, Christopher D.Manning
๋
ผ๋ฌธ ์ ์ ์ด์ Introduction1) global matrix factoriztion methods (ex. LSA)2) local context window methids (ex. Skip-gram)The GloVe Model๋์ ๋ฑ์ฅ ํ๋ฅ co-occurrence probabilityRelationship to Skip-gramComplexity of the modelExperimentsEvaluation methods1. Word analogy ๋จ์ด ์ ์ถ2. Word similarity ๋จ์ด ์ ์ฌ๋3. Named entity recognition ๊ฐ์ฒด๋ช
์ธ์Corpora and training details Results1. Analogy Task ๋จ์ด ์ ์ถ2. Word similarity ๋จ์ด ์ ์ฌ๋3. Named Entity Recognition ๊ฐ์ฒด๋ช
์ธ์Model Analysis1. Vector Length and Context Size 2. Corpus Size 3. Run-time 4. Comparison with word2vecConclusionReference
๋ ผ๋ฌธ ์ ์ ์ด์
๋ณธ ๋
ผ๋ฌธ์ Matrix factorization๊ณผ local context window ๋ฐฉ์์ ์ฅ์ ๋ง์ ์ฐจ์ฉํ ๋ชจ๋ธ์ธ GloVe๋ฅผ ์ ์ํฉ๋๋ค. ์ด์ ์ ๊ณต๋ถํ๋ Word2vec์ ๊ฒฝ์ฐ window ๋จ์์ ํ์ต์ผ๋ก ๋จ์ด๋ฅผ ํํํ๊ฑฐ๋ ์ ์ถํ๋๋ฐ์๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์ด์ง๋ง ์ ์ฒด์ ์ธ ํต๊ณ ์ ๋ณด๋ฅผ ์ ๋ํ๋ด์ง ๋ชปํ๋ค๋ ํ๊ณ๊ฐ ์กด์ฌํฉ๋๋ค. ์ด์, GloVe๊ฐ word2vec์ ์ด๋ค ์ ์ ์ด๋ป๊ฒ ๊ฐ์ ์ํค๋ ค ํ๋์ง ์์๋ณด๊ณ ์ ๋ณธ ๋
ผ๋ฌธ์ ์ ํํ์์ต๋๋ค.
Introduction
์๋ฏธ ๋ฒกํฐ ๊ณต๊ฐ ๋ชจ๋ธ์์ ๊ฐ ๋จ์ด์ ์๋ฏธ๋ ๋ฒกํฐ๋กย ํํ๋ฉ๋๋ค. ์ด์ ์ ๋ฒกํฐ ๋ฐฉ๋ฒ๋ก ์ ๋จ์ด ๊ฐ์ ๊ฑฐ๋ฆฌ๋ ๊ฐ์ผ๋ก ๋จ์ด๋ฅผ ํํํ์ง๋ง Word2Vec์์ ๋ค์ํ ์ฐจ์์ ์ฐจ์ด๋ก ๋จ์ด๋ฅผ ํํํ๋ ๋ฐฉ๋ฒ์ ๋์
ํ์ต๋๋ค. ์๋ฅผ ๋ค์ด์ "King is to queen as man is to woman" ์์ king - queen = man - woman์ ๋ฒกํฐ ํํ์ด ๊ฐ๋ฅํฉ๋๋ค.
ย
๋จ์ด ๋ฒกํฐ๋ฅผ ํ์ตํ๋ ๋ ๋ฉ์ธ ๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
1) global matrix factoriztion methods (ex. LSA)
LSA๋ ๋จ์ด์ ๋น๋์๋ฅผ ์นด์ดํธํด์ ๊ตฌํ ๋จ์ด-๋ฌธ๋งฅ ํ๋ ฌ์ ์ฐจ์์ถ์ํด, ์ ์ฒด ์ฝํผ์ค์ ํต๊ณ ์ ๋ณด๋ฅผ ์ด๋์ด๋ด๋ ๋ฐฉ๋ฒ์
๋๋ค.๋จ์ด์ ๋น๋์ ๊ธฐ๋ฐํ๊ธฐ ๋๋ฌธ์ ์ ์ฌ๋ ์ธก์ ์์ ์ฑ๋ฅ์ด ์ข์ง ์๋ค๋ ๋จ์ ์ด ์์ต๋๋ค. ์๋ฅผ ๋ค์ด "or" , "the"์ ๊ฐ์ ๋จ์ด๋ ๋น๋๊ฐ ๋ง์ ์ ์ฌ๋ ์ธก์ ์ ํฐ ์ํฅ์ ์ฃผ์ง๋ง ์๋ฏธ์ ์ฐ๊ด์ ๊ฑฐ์ ์์ต๋๋ค.
ย
2) local context window methids (ex. Skip-gram)
Skip gram์ local context ๋ด์์ ์ค์ฌ ๋จ์ด๋ฅผ ํตํด ์ฃผ๋ณ ๋จ์ด๋ฅผ ์์ธก์ ํ๋ ๋ฐฉ๋ฒ์
๋๋ค. ๋จ์ด ๋ฒกํฐ๊ฐ์ ์ ํ ๊ด๊ณ๋ก ์ธ์ด ํจํด์ ํ์ตํฉ๋๋ค. ๋ฐ๋ผ์ ์ ์ฌ์ฑ ์ธก์ ์ ์์ด์ LSA๋ณด๋ค ์ฑ๋ฅ์ด ๋ ์ข์ง๋ง ์๋์ฐ ๋ด์ ์ฃผ๋ณ ๋จ์ด๋ก ํ์ตํ๊ธฐ ๋๋ฌธ์ ์ ์ฒด ์ฝํผ์ค์ ํต๊ณ ์ ๋ณด(statistical information)๋ฅผ ๋ฐ์ํ๊ธฐ ์ด๋ ต๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค.
ย
์ด ๋ ๋ชจ๋ธ์ ๋จ์ ์ ๋ณด์ํ๊ณ ๊ฒฐํฉํ ๊ฒ์ด Glove ์
๋๋ค. ๋ณธ ๋
ผ๋ฌธ์ global word-word co-occurrence counts์์ ํต๊ณ๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ฉํ๋ ๊ตฌ์ฒด์ ์ธ ๊ฐ์ค ์ต์ ์ ๊ณฑ ๋ชจํ์ ์ ์ํ๋ ๊ฒ์ ๋ชฉ์ ์ผ๋ก ํฉ๋๋ค. ์ฆ ์ ์ฒด ์ฝํผ์ค์ ํต๊ณ ์ ๋ณด๋ฅผ ๋ฐ์ํ๋ฉด์ ๋์ ์ฑ๋ฅ์ ์ ์ฌ๋ ์ธก์ ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ๋ชจ๋ธ์ ์ ์ํ๋ ๊ฒ์ด ๋ชฉํ์
๋๋ค.
ย
The GloVe Model
์ฝํผ์ค(corpus)์์์ ๋จ์ด ์ถํ ํต๊ณ๋ ๋จ์ด์ ์๋ฏธ๋ฅผ ํ์ตํ๋ ๋น์ง๋ ํ์ต์์ ์ค์ํ ์ ๋ณด์
๋๋ค.ย ์ด์ ์๋ ๋จ์ด์ ์๋ฏธ๋ฅผ ๋ํ๋ด๋ ๋ชจ๋ธ์ ์์์ง๋ง ์ด๋ป๊ฒ ์ด๋ฌํ ํต๊ณ๋ก ๋ถํฐ ์๋ฏธ๊ฐ ๋ง๋ค์ด์ก๋์ง,ย ๊ทธ๋ฆฌ๊ณ ์ด๋ป๊ฒ ๋จ์ด ๋ฒกํฐ๊ฐ ์ด๋ฌํ ์๋ฏธ๋ฅผ ๋ํ๋ด๋์ง์ ๋ํ ์๋ฌธ์ ๋จ์์์์ต๋๋ค. ๊ทธ๋์ ์๋ก์ด word representation model์ธย GloVe๋ฅผ ์ ์ํ์ต๋๋ค. Glove๋ ์ ์ญ์ ์ธ ์ฝํผ์ค(global corpus)์ ํต๊ณ๋ฅผ ๋ํ๋ผ ์ ์์ต๋๋ค.
ย
๋์ ๋ฑ์ฅ ํ๋ฅ co-occurrence probability
X : ๋จ์ด-๋จ์ด ๋์ ๋ฑ์ฅ ๋น๋ ํ๋ ฌ (matrix of word-word co-occurrence counts)
X_ij : X ํ๋ ฌ์ ๊ธฐ๋ณธ๋จ์, ๋จ์ด i ๋ฌธ๋งฅ์์ j ๋จ์ด๊ฐ ๋ฑ์ฅํ ํ์
X_i : ๋จ์ด i ๋ฌธ๋งฅ์์ ๋จ์ด๊ฐ ๋ฑ์ฅํ ํ์
ย
GloVe๋ ๋์ ๋ฑ์ฅ ํ๋ฅ ๋ก ๋จ์ด์ ์๋ฏธ๋ฅผ ๋ํ๋
๋๋ค. ์ด๋ป๊ฒ ํน์ ์๋ฏธ๊ฐ ๋์ ๋ฑ์ฅ ํ๋ฅ ์์ ์ถ์ถ๋ ์ ์๋์ง ์์๋ฅผ ํตํด ์์๋ณด๊ฒ ์ต๋๋ค. ๋จ์ดย i = ice, ๋จ์ดย j = steamย ๋ ๋จ์ดย k(various probe words)๋ฅผ ํตํด ์๋ฏธ ๊ด๊ณ๋ฅผ ํ์
ํ ์ ์์ต๋๋ค.
ย
(1) ice์ ๊ด๋ จ๋ ๋จ์ด, k = solid
P(k|ice) / P(k|steam)์ ๋น์จ์ 8.9๋ก 1๋ณด๋ค ํจ์ฌ ํฐ ๊ฐ์ ๊ฐ์ง๋๋ค. steam ๋ณด๋ค ice ๋ฌธ๋งฅ์์ solid๊ฐ ๋ฑ์ฅํ ํ๋ฅ ๋ ๋๊ธฐ ๋๋ฌธ์
๋๋ค.
(2) steam๊ณผ ๊ด๋ จ๋ ๋จ์ด, k = gas
P(k|ice) / P(k|steam)์ ๋น์จ์ 0.085๋กย 1๋ณด๋ค ์์ ๊ฐ์ ๊ฐ์ง๋๋ค. steam ๋ณด๋ค ice ๋ฌธ๋งฅ์์ gas๊ฐ ๋ฑ์ฅํ ํ๋ฅ ๋ ๋ฎ๊ธฐ ๋๋ฌธ์
๋๋ค.
(3) ice์ steam ๋ชจ๋์ ๊ด๋ จ๋ ๋จ์ด, k = water
P(k|ice) / P(k|steam)์ ๋น์จ์ 1.36์ผ๋ก 1์ ๊ฐ๊น์ต๋๋ค. water๊ฐ ๊ฐ๊ฐ์ ๋ฌธ๋งฅ์์ ๋ฑ์ฅํ ํ๋ฅ ์ด ๋น์ทํ๊ธฐ ๋๋ฌธ์
๋๋ค.
(4) ice์ steam ๋ชจ๋์ ๊ด๋ จ์๋ ๋จ์ด, k = fashion
P(k|ice) / P(k|steam)์ ๋น์จ์ 0.96์ผ๋ก 1์ ๊ฐ๊น์ต๋๋ค. water๊ฐ ๊ฐ๊ฐ์ ๋ฌธ๋งฅ์์ ๋ฑ์ฅํ ํ๋ฅ ์ด ๋น์ทํ๊ธฐ ๋๋ฌธ์
๋๋ค.
ย
์ ํ์ ๋ฐ๋ผ ๋์ ๋ฑ์ฅ ํ๋ฅ ๋ณด๋คย ๋์ ๋ฑ์ฅ ํ๋ฅ ๋น์จ์ ์ฌ์ฉํ์ ๋, ๊ด๋ จ์ด ์๋ ๋จ์ด๋ฅผ ๊ตฌ๋ณํด๋ด๊ธฐ๊ฐ ๋ ์ ํฉํ๋ค๋ ๊ฒ์ ์ ์ ์์ต๋๋ค. ์ด๋ฅผ ํ์ฉํด ๋จ์ด ๋ฒกํฐ๋ฅผ ํ์ตํ ๊ฒ ์
๋๋ค. ์ฐ์ ๋์ ๋ฑ์ฅ ํ๋ฅ ๋น์จ์ ๋จ์ด i, j, ๊ทธ๋ฆฌ๊ณ k์ ์์กดํ๊ธฐ ๋๋ฌธ์ ๋ค์๊ณผ ๊ฐ์ด ์์์ ํจ์ F๋ก ๋ํ๋ธ ์ผ๋ฐ์ ์ธ ๋ชฉ์ ํจ์๋ฅผ ์ค์ ํฉ๋๋ค. (w : ๋จ์ด ๋ฒกํฐ)
๋ฒกํฐ ๊ณต๊ฐ์ ์ ํ๊ตฌ์กฐ์ด๊ธฐ ๋๋ฌธ์ย ๋ฒกํฐ๊ฐ์ ์ฐจ์ด๋ก ๋จ์ด๊ฐ์ ๊ด๊ณ, ์ฆ ๋์ ๋ฑ์ฅ ํ๋ฅ ์ ํฌ๊ธฐ ๊ด๊ณ ๋น์จ์ ๋ฒกํฐ๊ณต๊ฐ์ ์ธ์ฝ๋ฉํฉ๋๋ค. ๊ทธ๋ฌ๋ฉด ์ข๋ณ์ F ํจ์๋ ๋ฒกํฐ ๊ฐ์ด๊ณ ์ฐ๋ณ์ ์์์
๋๋ค.
F ๋ฅผ ์ ๊ฒฝ๋ง์ ์ฌ์ฉํด ๋ณต์กํ ํจ์๋ก ๋ง๋ค์๋ ์์ง๋ง ๊ทธ๋ ๊ฒ ํ๋ฉด ์ ํ ๊ตฌ์กฐ๋ฅผ ๋ถ๋ช
๋ฃํ๊ฒ ํ๊ธฐ ๋๋ฌธ์ ์ ํ๊ณต๊ฐ์์ ๋จ์ด์ ์๋ฏธ ๊ด๊ณ๋ฅผ ํํํ๊ธฐ ์ํด ๋ด์ (dot product) ์ฌ์ฉํด ๋ํ๋
๋๋ค.
๋จ์ด(a word)์ ๋ฌธ๋งฅ ๋จ์ด(context word)๊ฐ์ ๊ธฐ์ค์ด ์์์ ์ด๊ธฐ ๋๋ฌธ์ย ๊ตํ๊ฐ๋ฅํด์ผ ํฉ๋๋ค. (3)์ ๊ตํ ๊ฐ๋ฅํ์ง ์๊ธฐ ๋๋ฌธ์ ๋จผ์ F๋ ์ค๋์ฑ(homomorphism)์ ๋ง์กฑ์์ผ์ผํฉ๋๋ค. F(a+b) = F(a)F(b)
์ด ์ค๋ํ์์ ๋ง์กฑ์ํค๋ F๋ exp ์
๋๋ค. ๋ฐ๋ผ์ (6) ๊ณผ ๊ฐ์ ์์ด ๋ง๋ค์ด์ง๋๋ค.
(6) ์์ log(X_i)ํญ ๋๋ฌธ์ ๊ตํ๊ฐ๋ฅํ์ง ์์ ํํ์
๋๋ค. ์ด ํญ์ k์ ๋
๋ฆฝ์ ์ด๊ธฐ ๋๋ฌธ์ b ํธํฅ์ด๋ผ๋ ์์ํญ์ผ๋ก ๋์ฒดํฉ๋๋ค. ํธํฅ์ ๋ํด์ฃผ๋ฉด์ ๊ตํ๊ฐ๋ฅํ ๋์นญ์ ์ธ ๊ด๊ณ๊ฐ ์ฑ๋ฆฝํ๊ฒ ๋์์ต๋๋ค.
log(X_ik) ํญ์์ X_ik๊ฐ 0์ด๋๋ฉด ๋ฐ์ฐํ๋ค๋ ๋ฌธ์ ๊ฐ ์์ด log(X_ik +1)๋ก ๋ณํํด X์ ํฌ์์ฑ(sparsity)๋ฅผ ๋ณด์กดํ๋ฉด์ ๋ฐ์ฐํ๋ ๊ฒ์ ๋ฐฉ์งํฉ๋๋ค. ์ข๋ณ์ ๋ฏธ์ง์์ด๊ณ ์ฐ๋ณ์ ํน์ ์๋์ฐ ์ฌ์ด์ฆ๋ฅผ ๋๊ณ ์ฝํผ์ค ์ ์ฒด์์ ๋จ์ด๋ณ ๋ฑ์ฅ ๋น๋๋ฅผ ๊ตฌํ co-occurrence matrix์ ๋ก๊ทธ๋ฅผ ์ทจํด์ค ํ๋ ฌ๋ก ์ฐ๋ฆฌ๊ฐ ์๊ณ ์๋ ๊ฐ์
๋๋ค. ๋ฐ๋ผ์ ์ข๋ณ๊ณผ ์ฐ๋ณ์ ์ฐจ์ด์ ์ ๊ณฑ์ด ์์คํจ์๋ก ๋ชจ๋ธ์ ํ์ตํ๋ฉด์ ์ด ๊ฐ์ ์ต์ํํ๊ฒ ํ๋ w, b๋ฅผ ์ฐพ์ต๋๋ค.
๋ฑ์ฅ๋น๋๊ฐ ๋ฎ์ ๊ฐ์ ์ ๋ณด์ ๊ฑฐ์ ๋์์ ์ฃผ์ง ์์ต๋๋ค. ์ฝํผ์ค์ ๋ฐ๋ผ Xํ๋ ฌ์์ 0์ธ ๊ฐ์ด ์ ์ฒด ํ๋ ฌ์ 75-95% ์ธ ๊ฒฝ์ฐ๋ ์์ต๋๋ค. ์ ์์ ๊ฑฐ์ ๋ฑ์ฅํ์ง ์๋ ๋จ์ด์์ ๋์ผํ ๊ฐ์ค์น๋ฅผ ์ค๋ค๋ ๋ฌธ์ ๊ฐ ์์ต๋๋ค. ๋ฐ๋ผ์ ๋ณธ ๋
ผ๋ฌธ์ ์ ๋น์ฉ ํจ์์ ๊ฐ์ค์น ํจ์, f(X_ij)๋ฅผ ๊ณฑํ ์๋ก์ด ๊ฐ์ค ์ต์ ์ ๊ณฑ ํ๊ท ๋ชจ๋ธ(weighted least squares regression model)์ ์ ์ํฉ๋๋ค. ๋ฐ๋ผ์ ๊ตฌํ๊ณ ์ ํ๋ ์ต์ข
์์คํจ์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค. (V : ๋จ์ด ํฌ๊ธฐ)
ย
f(x) ๊ฐ์ค์น ํจ์๋ ๋ค์์ ์กฐ๊ฑด์ ๋ง์กฑํด์ผ ํฉ๋๋ค.
(1) f(0) = 0. ์ฐ์ํจ์์ด๋ฉด x โ 0 ์๋ ดํด์ผํฉ๋๋ค.
(2) ๋น๋๊ฐ ์ ์ co-occurrence์ ๋ง์ ๊ฐ์ค์น๋ฅผ ์ฃผ์ง ์๊ธฐ ์ํด f(x)๋ non- decreasing์ด์ฌ์ผํฉ๋๋ค.
(3) ๋น๋๊ฐ ๋ง์ co-occurrence์ ๋๋ฌด ๋ง์ ๊ฐ์ค์น๋ฅผ ์ฃผ์ง ์๊ธฐ ์ํด f(x)๋ ํฐ x ๊ฐ์ ๋ํด์ ์๋์ ์ผ๋ก ์์์ผ ํฉ๋๋ค. (it, or ๊ฐ์ ๋จ์ด๊ฐ ๋๋ฌด ํฐ ๊ฐ์ค์น๋ฅผ ๊ฐ๊ฒ ํ์ง ์๊ธฐ ์ํด)
ย
๋ฐ๋ผ์ ์ด ์กฐ๊ฑด๋ค์ ๋ง์กฑํ๋ ๋ค์๊ณผ ๊ฐ์ ๊ฐ์ค์น ํจ์๋ฅผ ์ฌ์ฉํฉ๋๋ค.
X_ij ๊ฐ์ด ์ปค์ง๋ฉด์ ๊ฐ์ค์น๊ฐ ์ฆ๊ฐํฉ๋๋ค. ๋ํ ๋น๋๊ฐ ๋์ ๊ฒฝ์ฐ ์ง๋์น๊ฒ ๋์ ๊ฐ์ค์น๋ฅผ ์ฃผ์ง ์๋๋ก X_max๋ฅผ ๊ธฐ์ค์ผ๋ก ํจ์๊ฐ์ ์ต๋๊ฐ์ด ์ ํด์ ธ ์์ต๋๋ค.
ย
Relationship to Skip-gram
๋จ์ด ๋ฒกํฐ๋ฅผ ํ์ตํ๋ ๋น์ง๋ ํ์ต ๋ชจ๋ธ์ ๊ถ๊ทน์ ์ผ๋ก ์ฝํผ์ค์ ๋ฑ์ฅ ํต๊ณ(occurrence statistics)์ ๊ธฐ๋ฐํฉ๋๋ค. ๋ฐ๋ผ์ ๋ชจ๋ธ ๊ฐ์ ๊ณตํต์ ์ด ์์ต๋๋ค. Word2Vec์ Skip-gram๊ณผ GloVe์ ๊ด๊ณ๋ฅผ ๋ณด๊ฒ ์ต๋๋ค.
ย
์ฐ์ i ๋จ์ด ๋ฌธ๋งฅ์์ ๋จ์ด j๊ฐ ๋ฑ์ฅํ ํ๋ฅ ์ ๋ชจ๋ธ์ Softmax๋ผ๊ณ ํฉ๋๋ค.
์๋์ฐ ์ฌ์ด์ฆ๋ฅผ ๋๊ณ ์ ์ฒด ์ฝํผ์ค์ ๋ํด ํ์ตํ ๋ ๋ก๊ทธ ํ๋ฅ ์ ์ต๋ํํ๋ ค๋ ์๋์
๋๋ค. ๋ฐ๋ผ์ global objective function์ ์์ ๋ก๊ทธ ์ฐ๋ํจ์๋ก (11)๊ณผ ๊ฐ์ต๋๋ค.
(11)์์ ๊ฐํญ์ ๋ํด ์ํํธ๋งฅ์ค ์ ๊ทํ ๊ณ์๋ฅผ ๊ตฌํ๋ ๊ฒ์ ๊ณ์ฐ ๋น์ฉ์ด ๋ง์ด ๋ญ๋๋ค. ํจ์จ์ ์ผ๋ก ํ์ตํ๊ธฐ ์ํด์ Skip-gram์ ์ ๊ทผ์ฌํ ๋ชจ๋ธ์ ์๊ฐํฉ๋๋ค. ๊ทธ๋ฌ๋ term์ ์๊ฐ ๋์ ๋ฑ์ฅ ํ๋ ฌ X์ ์ฃผ์ด์ง๊ธฐ ๋๋ฌธ์ ์(12)์์ ์ฒ๋ผ i์ j๊ฐ ๊ฐ์ ๊ฒฝ์ฐ๋ฅผ ๊ทธ๋ฃน์ง์ผ๋ฉด ๋ ํจ์จ์ ์ผ๋ก ๊ณ์ฐ ๊ฐ๋ฅํฉ๋๋ค. skip-gram์ ์ฃผ๋ณ ๋จ์ด์ ํ๋ฅ ์ ์ต๋ํํ๋๋ฐ, ๋์ ๋ฑ์ฅ ํ๋ ฌ์์ ์ฃผ๋ณ ๋จ์ด๊ฐ ์ฃผ์ด์ง ํ๋ฅ ์ฆ i์ j๊ฐ ๊ฐ์ ๊ฒฝ์ฐ()๋ฅผ ๊ตฌํ ์ ์๊ธฐ ๋๋ฌธ์ ๊ฐ ๋ฏธ๋ฆฌ ์ฐ์ฐ๋์ด ์์ด ๊ณ์ฐ ์๋๊ฐ ๋นจ๋ผ์ก์ต๋๋ค.
์์ ์ ์ํ ์์ ๋ฐ๋ผ = P_ij x X_i์ด๊ณ H(P_i, Q_i)๋ P, Q์ Cross entropy์
๋๋ค. Cross entropy๋ distance๋ฅผ ์ธก์ ํ๋ ๋ฐฉ๋ฒ์
๋๋ค.
Cross entropy๋ ๊ผฌ๋ฆฌ๊ฐ ๊ธด ํ๋ฅ ๋ถํฌ์ ๊ฒฝ์ฐ ์์ฃผ ๋ฐ์ํ์ง ์๋ ์ฌ๊ฑด์ ๋ํด ๋งค์ฐ ํฐ ๊ฐ์ค์น๋ฅผ ๋ถ์ฌํ๋ ๊ฒฝ์ฐ๊ฐ ์๊ธธ ์ ์์ด P์ Q์ ์ ๊ทํ ๊ณ์๋ฅผ ๋ฌด์ํ ์ ์๋ ์ต์์ ๊ณฑ์ ์ ํํฉ๋๋ค.
ย
์ฌ๊ธฐ์ ๊ฐ ๋๋ฌด ํฐ ๊ฐ์ ๊ฐ์ ธ ์ต์ ํํ๊ธฐ๊ฐ ์ด๋ ต๋ค๋ ๋ฌธ์ ๊ฐ ์๊น๋๋ค. ๊ทธ๋์ P์ Q์ ๋ก๊ทธ๋ฅผ ์ทจํด ์ ๊ณฑ์ค์ฐจ์ ๊ฐ์ ์ค์ฌ์ค๋๋ค.
๋ง์ง๋ง์ผ๋ก ๊ฐ ๋ฏธ๋ฆฌ ๊ฒฐ์ ๋ ๊ฐ์ค์น ๊ฐ์ผ๋ก ์ต์ ํ๊ฐ ๋ณด์ฅ๋์ง ์์ต๋๋ค. Mikolov๋ ๋ฐ์ดํฐ๋ฅผ ํํฐ๋งํ์ฌ ์ฑ๋ฅ์ ํฅ์์ํฌ ์ ์๋ค๋ ๊ฒ์ ์์๋๊ณ ๋ฌธ๋งฅ ๋จ์ด์ ์์กดํ์ง ์๋ ๋ ์ผ๋ฐ์ ์ธ ๊ฐ์ค ํจ์๋ฅผ ์ ์ํ์ต๋๋ค.
๋ฐ๋ผ์ GloVe์ ์์คํจ์์ ๊ฐ์ ํํ๊ฐ ๋์์ต๋๋ค.
ย
Complexity of the model
๋ชจ๋ธ์ ๊ณ์ฐ ๋ณต์ก์ฑ์ X ํ๋ ฌ์์ 0์ธ ์๋ ๊ฐ(nonzero elements)์ ์์กดํฉ๋๋ค. ๋ฐ๋ผ์ 0์ด ์๋ ๊ฐ์ ํฌ๊ธฐ๋ ์ ์ฒด ์ฝํผ์ค ํฌ๊ธฐ๋ณด๋ค ํญ์ ์๊ธฐ ๋๋ฌธ์ ์ ์ฒด ์ฝํผ์ค ํฌ๊ธฐ์ ์์กดํ๋ ์๋์ฐ๊ธฐ๋ฐ์ ๋ชจ๋ธ์ ๋นํด ํฐ ํฅ์์
๋๋ค. Glove์ ๊ณ์ฐ ๋ณต์ก์ฑ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
ย
Experiments
Evaluation methods
1. Word analogy ๋จ์ด ์ ์ถ
โa๊ฐ b์ผ ๋, c๋ __ ์ด๋ค?โ
์์ ๊ฐ์ question์ด 19,544๊ฐ๋ก ๊ตฌ์ฑ๋์ด ์๊ณ , semantic๊ณผ syntatic์ผ๋ก ๋๋์ด์ ธ ์์ต๋๋ค.
semantic
: ์ฌ๋์ด๋ ์ฅ์์ ๊ด๋ จ๋ ์ง๋ฌธ
e.g. โAthens is to Greece as Berlin is to ____?โ
syntatic
: ๋์ฌ ์์ ๋ ํ์ฉ์ฌ์ ํํ
e.g. โdance is to dancing as fly is to ____?โ
โa is to b as c is to ___?โ์ ๋ํ ๋ต์ผ๋ก d๋ฅผ ์ฐพ๊ธฐ ์ํด ์ฐ๋ฆฌ๋ cosine ์ ์ฌ๋์ ๋ฐ๋ผ ๊ฐ๊ณผ ๊ฐ์ฅ ์ ์ฌํ ์ ๊ฐ์ ์ฐพ์ต๋๋ค.
ย
2. Word similarity ๋จ์ด ์ ์ฌ๋
๋จ์ด ์ ์ถ๊ฐ ์ฃผ๋ task์ด๊ธด ํ์ง๋ง, ๋ค์ํ ํํ์ ๋จ์ด ์ ์ฌ๋ task์๋ ๋ชจ๋ธ์ ํ๊ฐํ์์ต๋๋ค. WordSim-353, MC, RG, SCWS, RW๋ฑ์ด ํฌํจ๋ฉ๋๋ค.
ย
3. Named entity recognition ๊ฐ์ฒด๋ช ์ธ์
NER์ฉ CoNLL-2003 ์๋ฌธ ๋ฒค์น๋งํฌ ๋ฐ์ดํฐ์
์ ์ฌ๋, ์ฅ์, ์กฐ์ง, ๊ธฐํ ๋ฑ 4๊ฐ์ง ๊ฐ์ฒดํ์
์ ๋ํด ํ๊ธฐ๋ ๋ฌธ์์งํฉ์
๋๋ค. CoNLL-03 ํ๋ จ ๋ฐ์ดํฐ์ ๋ํ์ฌ ํ๋ จ์ํค๊ณ , 3๊ฐ์ง ๋ฐ์ดํฐ์ ๋ํ์ฌ ํ
์คํธํฉ๋๋ค.
- CoNLL-03 ํ ์คํธ ๋ฐ์ดํฐ
- ACE Phase2(2001-02), ACE-2003 ๋ฐ์ดํฐ
- MUC7 Formal Run ํ ์คํธ ๋ฐ์ดํฐ
BIO2 annotation standard๋ฅผ ๋ฐ๋ฅด๊ณ , Wang and Manning์ ๊ธฐ์ ๋ ์ ์ฒ๋ฆฌ ๊ณผ์ ์ ๊ฑฐ์นฉ๋๋ค.
437,905๊ฐ์ ๋ณ๋ ํน์ง์ด CoNLL-2003 ํ๋ จ ๋ฐ์ดํฐ์
์ผ๋ก๋ถํฐ ์์ฑ๋์๊ณ , 5๋จ์ด context ๋ด ๊ฐ ๋จ์ด์ ๋ํด 50์ฐจ์์ ๋ฒกํฐ๊ฐ ์ถ๊ฐ๋์ด, ์ด๋ ์ฐ์ํน์ง์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค. ์ด๋ฌํ ํน์ง๋ค์ด ์
๋ ฅ์ผ๋กย Wang and Manning์ย ๋ชจ๋ธ๊ณผ ๋์ผํ ์ค์ ์ผ๋ก CRF(Conditional Random Field)๋ฅผ ํ๋ จํ์์ต๋๋ค.
ย
Corpora and training details
๋ค์ํ ์ฌ์ด์ฆ๋ฅผ ๊ฐ์ง 5๊ฐ์ ๋ง๋ญ์น๋ฅผ ๋ชจ๋ธ์ ํ์ตํ์์ต๋๋ค.
- 10์ต token์ 2010 Wikipedia
- 16์ต token์ 2014 Wikipedia
- 43์ต token์ Gigaword5
- Gigaword5 + Wikipedia2014
- 420์ต token์ Common Crawl
ย
Stanford tokenizer๋ฅผ ์ด์ฉํ์ฌ ๋ง๋ญ์น๋ฅผ ํ ํฐํํ๊ณ ์๋ฌธ์๋ก ๋ฐ๊ฟ์ค ๋ค ๊ฐ์ฅ ์์ฃผ ๋ฑ์ฅํ 400,000๊ฐ์ ๋ํ voabulary๋ฅผ ์์ฑํ์ฌ ๋์๋ฐ์ํ์ ํ๋ ฌ X๋ฅผ ๋ง๋ค์์ต๋๋ค. X๋ฅผ ์์ฑํ ๋, context window์ ํฌ๊ธฐ์ ์ผ์ชฝ context์ ์ค๋ฅธ์ชฝ context๋ฅผ ๊ตฌ๋ถํ ์ง์ ๋ํ ๊ฒ์ ๊ฒฐ์ ํด์ผ ํฉ๋๋ค.
๋ชจ๋ ๊ฒฝ์ฐ์์ ๊ฐ์ํ๋ ๊ฐ์ค์น ํจ์๋ฅผ ์ฌ์ฉํ๋ฏ๋ก d๋งํผ ๋จ์ด์ง ๋จ์ด์์ ์ด ํ์์ 1/d ๋งํผ ๊ธฐ์ฌํฉ๋๋ค. ์ด๋ ๊ฑฐ๋ฆฌ๊ฐ ๋จผ ๋จ์ด์์ ๋จ์ด ๊ฐ ๊ด๊ณ์ ๋ํด ๊ด๋ จ์ฑ์ด ๋ฎ์ ์ ๋ณด๋ฅผ ๋ด๊ณ ์์ ๊ฒ์ผ๋ก ์์๋๋ ์ด์ ๊ฐ ๋ฉ๋๋ค.
ย
๋ชจ๋ ์คํ์์ย ๋ก ์ ํ๊ณ , AdaGrad๋ฅผ ์ด์ฉํด ๋ชจ๋ธ์ ํ๋ จํ์์ต๋๋ค.(X์ 0์ด ์๋ ์์์ ๋ํด stochasticํ๊ฒ ์ํ๋งํ๊ณ , ์ด๊ธฐ ํ์ต๋ฅ ์ 0.05๋ก ์ค์ ํ์์ต๋๋ค.) 300์ฐจ์๋ณด๋ค ์์ ๋ฒกํฐ์ ๋ํด์๋ 50๋ฒ, ๋ฐ๋์ ๊ฒฝ์ฐ๋ 100๋ฒ ๋ฐ๋ณตํ์์ต๋๋ค. ๋ณ๋ค๋ฅธ ์ธ๊ธ์ด ์์๋, ์ผ์ชฝ์์ 10๊ฐ์ ๋จ์ด, ์ค๋ฅธ์ชฝ์์ 10๊ฐ์ ๋จ์ด๋ฅผ context๋ก ์ฌ์ฉํ์์ต๋๋ค.
ย
๋ชจ๋ธ์ ๋ ๊ฐ์ ๋จ์ด๋ฒกํฐย ๋ฅผ ์์ฑํฉ๋๋ค. X๊ฐ ๋์นญํ๋ ฌ์ด๋ฉด ย ๋ ๋๋ค์ผ๋ก ์ด๊ธฐํํ๋ ๋ถ๋ถ๋ง ๋นผ๊ณ ๋์ผํฉ๋๋ค. ๋ ๋ฒกํฐ์ ๋๋ฑํ ์ฑ๋ฅ์ ๊ฐ์ง๋๋ค.
๋ฐ๋ฉด์ ํน์ ์ ๊ฒฝ๋ง์ ๊ฒฝ์ฐ, ๋คํธ์ํฌ์ ์ฌ๋ฌ ์ธ์คํด์ค๋ฅผ ํ๋ จํ ๋ค ๊ฒฐ๊ณผ๋ฅผ ๊ฒฐํฉํ๋ฉด ๊ณผ์ ํฉ๊ณผ noise๋ฅผ ์ค์ด๊ณ ์ผ๋ฐ์ ์ผ๋ก๋ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ์ํจ๋ค๊ณ ํฉ๋๋ค. ๊ทธ๋์ ์ฐ๋ฆฌ๋ย ๋ฅผ ๋จ์ด๋ฒกํฐ๋ก ์ฌ์ฉํ์ฌ ํฉ์ฐํ๊ธฐ๋ก ํ์์ต๋๋ค. ์ด๋ ๊ฒํ๋ฉด ์ฑ๋ฅ์ ์ํญ ํฅ์๋๊ณ semantic analogy task(์๋ฏธ์ ์ ์ถ) ๊ฒฐ๊ณผ์์ ๊ฐ์ฅ ํฌ๊ฒ ๊ฐ์ ๋๋ค๊ณ ํฉ๋๋ค.
ย
๋ค์ํ SOTA ๋ชจ๋ธ์ ๊ฒฐ๊ณผ์, Word2Vec๋ฅผ ์ฌ์ฉํ์ฌ ๋ง๋ค์ด์ง ๊ฒฐ๊ณผ๋ฅผ SVD๋ฅผ ์ด์ฉํ ๋ค์ํ ๋ฒ ์ด์ค๋ผ์ธ๊ณผ ๋น๊ตํด๋ณด๊ธฐ๋ก ํฉ๋๋ค. word2vec์์๋ย ์์ 400,000๊ฐ์ ์ต๋น ๋จ์ด๋ค๊ณผ context window size๋ 10์ผ๋ก ํด์ skip_gram์ CBOW๋ชจ๋ธ๋ก 60์ต๊ฐ์ ๋ง๋ญ์น๋ฅผ ํ์ตํ์์ต๋๋ค. SVD ๋ฒ ์ด์ค๋ผ์ธ์ ๋ํด์๋ 10,000๊ฐ์ ์ต๋น๋จ์ด๋ฅผ ์ด์ฉํ์ฌ ๊ฐ ๋จ์ด๊ฐ ์ผ๋ง๋ ์์ฃผ ๋ฐ์ํ๋ ์ง์ ๋ํ ์ ๋ณด๋ฅผ ์ ์งํ๋ ์๋ฆฐ ํ๋ ฌย ์ ์์ฑํ์์ต๋๋ค. ์ด ํ๋ ฌ์ ๋จ์ผ ๋ฒกํฐ๋ baseline SVD๋ฅผ ๊ตฌ์ฑํฉ๋๋ค. ๋ํ SVD-S(), SVD-L(์ ๋ ๋ฒ ์ด์ค๋ผ์ธ๋ ํ๊ฐํ๋๋ฐ, ๋ ๋ฐฉ๋ฒ ๋ชจ๋ X๊ฐ์ ๋ฒ์๋ฅผ ์์ถ์ํต๋๋ค.
ย
Results
1. Analogy Task ๋จ์ด ์ ์ถ
analogy task์ ๋ํด percent accuracy๋ก ํํํ table๋ก, ๋ฐ์ค์น ๊ฐ์ ๋น์ทํ ์ฌ์ด์ฆ์ ๋ชจ๋ธ ๊ทธ๋ฃน์์ ๊ฐ์ฅ ์ข์ ์ ์๋ฅผ, bold ๊ฐ์ ์ ์ฒด์์ ๊ฐ์ฅ ์ข์ ์ ์๋ฅผ ๋ํ๋
๋๋ค. Skip-gram , CBOW๋ word2vec์ ์ด์ฉํ์์ต๋๋ค.
๋ ์์ vector size์ corpora์๋ ๋ถ๊ตฌํ๊ณ , ๋ค๋ฅธ baseline ๋ชจ๋ธ๋ค์ ๋นํด GloVe๊ฐ ํจ์ฌ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์
๋๋ค. ๋ํ ํด๋น ๋ชจ๋ธ์ 420์ต token์ ํฐ ๋ง๋ญ์น๋ ์ฝ๊ฒ ํ์ตํ์ฌ ์ค์ง์ ์ธ ์ฑ๋ฅ ํฅ์์ ๋ณด์ผ ์ ์์์ต๋๋ค. ๋ฐ๋ฉด์ ๋ค๋ฅธ ๋ชจ๋ธ์์๋ ๋ง๋ญ์น ํฌ๊ธฐ๋ฅผ ์ฆ๊ฐ์ํค๋ ๊ฒ์ด ์ฑ๋ฅ ํฅ์์ ๋ณด์ฅํ์ง๋ ์์์ต๋๋ค. (SVD-L์ ์ ํ๋ ์ฑ๋ฅ์ ํตํด์ ํ์ธํ ์ ์์ต๋๋ค.) ์ด๋ ์ฐ๋ฆฌ ๋ชจ๋ธ์์ ์ ์ํ weighting schema์ ํ์์ฑ์ ๋์ฑ ๊ฐ๋ ฅํ๊ฒ ๋ดํฌํ๊ณ ์์ต๋๋ค.
ย
2. Word similarity ๋จ์ด ์ ์ฌ๋
5๊ฐ์ ๋ค๋ฅธ ๋จ์ด์ ์ฌ๋ ๋ฐ์ดํฐ์
์ ๋ํ ์คํผ์ด๋ง ์์ ์๊ด์ผ๋ก, ๋ชจ๋ ๋ฒกํฐ์ ์ฐจ์์ 300์
๋๋ค.
- ์คํผ์ด๋ง ์์ ์๊ด : ๋ ๊ณ๋ํ ๋ณ์ ๋๋ ์์ํ ๋ณ์ ์ฌ์ด์ ๋จ์ ๊ด๊ณ๋ฅผ ํ๊ฐํฉ๋๋ค. ์์ ๋ฐ์ดํฐ๊ฐ ์๋๋ผ ๊ฐ ๋ณ์์ ๋ํด ์์๋ฅผ ๋งค๊ธด ๊ฐ์ ๊ธฐ๋ฐ์ผ๋ก ํฉ๋๋ค.
์ ์ฌ๋ ์ ์๋ ๋จผ์ ๊ฐ feature๋ฅผ vocabulary์ ๋ํ์ฌ normalizeํ ํ cosine ์ ์ฌ๋๋ฅผ ์ด์ฉํ์ฌ ๊ณ์ฐ๋์์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ํด๋น ์ ์์ ์ธ๊ฐ์ ๊ฒฐ์ ์ฌ์ด์ ์คํผ์ด๋ง ์์ ์๊ด ๊ณ์๋ฅผ ์ธก์ ํ์์ต๋๋ค. ์ ๊ฒฝ์ฐ ๋ณด๋ค ์์ size์ corpus๋ฅผ ์ฌ์ฉํ์์๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์
๋๋ค.
ย
3. Named Entity Recognition ๊ฐ์ฒด๋ช ์ธ์
50์ฐจ์์ ๋ฒกํฐ๋ก NER task์ ๋ํ์ฌ F1 score๋ฅผ ์ธก์ ํ ํ์
๋๋ค. Discrete์ด word vector๊ฐ ์๋ baseline์
๋๋ค. ์ฐ๋ฆฌ๋ ๊ณต๊ฐ์ ์ผ๋ก ์ฌ์ฉ ๊ฐ๋ฅํ HPCA, HSMN, CW๋ฅผ ์ฌ์ฉํ์์ต๋๋ค.
GloVe ๋ชจ๋ธ์ CoNLL test set์ ์ ์ธํ๊ณ ๋ชจ๋ evaluation metrics์ ๋ํ์ฌ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. CoNLL test set์ HPCA ๋ฐฉ๋ฒ์ด ์กฐ๊ธ ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์
๋๋ค.
GloVe ๋ฒกํฐ๋ downstream NLP task์ ์ ์ฉํ๋ค๊ณ ๊ฒฐ๋ก ๋ด๋ฆด ์ ์์ต๋๋ค.
- downstream task : ๊ตฌ์ฒด์ ์ผ๋ก ํ๊ณ ์ถ์ ๋ฌธ์
์ต๊ทผ ์์ฐ์ด ์ฒ๋ฆฌ๋ถ์ผ์์๋ ์ธ์ด๋ชจ๋ธ์ย pre-train ๋ฐฉ์์ ์ด์ฉํด ํ์ต์ ์งํํ๊ณ , ๊ทธ ํ์ ์ํ๊ณ ์ ํ๋ ํ์คํฌ๋ฅผย fine-tuning ๋ฐฉ์์ ํตํด ๋ชจ๋ธ์ ์
๋ฐ์ดํธ ํ๋ ๋ฐฉ์์ ์ฌ์ฉํ๋๋ฐ ์ด๋, ํ์คํฌ๋ฅผ ๋ค์ด์คํธ๋ฆผ ํ์คํฌ๋ผ๊ณ ํฉ๋๋ค.
ย
Model Analysis
1. Vector Length and Context Size
vector size์ window size/ type์ ๋ฐ๋ฅธ analogy task์ accuracy์
๋๋ค. 60์ต token ๋ง๋ญ์น๋ก ํ์ตํ์๊ณ , (a)์์ window size๋ 10, (b), (c)์์ vector size๋ 100์
๋๋ค.
- Symmetric : window size๊ฐ ์ข์ฐ ์์ชฝ์ผ๋ก ํ์ฅ๋๋ ๊ฒ
- Asymmetric : window size๊ฐ ์ผ์ชฝ์ผ๋ก๋ง ํ์ฅ๋๋ ๊ฒ
ย
(a)์์๋ ์ฝ 200์ฐจ์ ์ด์์ด ๋๋ฉด ์๋ ดํ๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค.
(b)์ (c)๋ฅผ ํตํด, syntatic task์ ๋ํด์๋ ์๊ณ asymmetricํ context window๊ฐ ์ ํฉํ๋ฐ, ์ด๋ syntatic information์ด ์ฆ๊ฐ์ ์ธ context๋ฅผ ํตํด ์ป์ด์ง๊ณ , ๋จ์ด์ ์์์ ๊ฐํ๊ฒ ์์กดํ๋ค๋ ๊ฒ์ ์๋ฏธํฉ๋๋ค. ๋ฐ๋๋ก semantic information์ ๋ ์์ฃผ ์ง์ญ์ ์ด์ง ์๊ณ , ๋ ํฐ window size์์ ํฌ์ฐฉ๋ฉ๋๋ค.
ย
2. Corpus Size
๋ค๋ฅธ corpora์ ๋ํ์ฌ ํ์ต๋ 300์ฐจ์์ ๋ฒกํฐ๋ค์ ์ด์ฉํ์ฌ analogy task์ ๋ํ accuracy๋ฅผ ์ธก์ ํ์์ต๋๋ค.
syntatic task์ ๊ฒฝ์ฐ, ๋ง๋ญ์น์ ํฌ๊ธฐ๊ฐ ์ฆ๊ฐํ ์๋ก ๊ฐ์ด ๋จ์กฐ ์ฆ๊ฐํฉ๋๋ค. ์ด๋ ๋ ํฐ ๋ง๋ญ์น๊ฐ ์ ํ์ ์ผ๋ก ๋ ์ข์ ํต๊ณ๋ฅผ ๋ณด์ธ๋ค๊ณ ๊ธฐ๋ํ ์ ์์ต๋๋ค.
semantic task์ ๊ฒฝ์ฐ syntatic์ trend์๋ ๋ค๋ฅด๊ฒ, ํฐ ์ฌ์ด์ฆ์ Gigaword ๋ง๋ญ์น๋ณด๋ค Wikipedia ๋ง๋ญ์น๋ก ํ์ตํ ๋ชจ๋ธ์ด ๋ ์ข์ ์ฑ๋ฅ์ ๋ณด์์ต๋๋ค. ์ ์ถ dataset์์ ์ ์ถํด์ผ ํ ๋์์ ๋๋ผ ๋ฐ์ดํฐ ์๊ฐ ๋ง๊ณ , Wikipedia๋ ๋์ฒด์ ์ผ๋ก ํฌ๊ด์ ์ธ ๊ธฐ์ฌ๋ค์ ๋ง์ด ๊ฐ์ง๊ณ ์์ด์ ๊ทธ๋ฐ ๊ฒ ๊ฐ์ต๋๋ค. ๋ํ Wikipedia๋ ์๋ก์ด ์ง์๋ค๋ก ์
๋ฐ์ดํธ ๋๋๋ฐ์ ๋ฐํด Gigaword๋ ๊ธฐ๊ฐ์ด ์ง๋ news๋ค์ ๊ณ ์ ์ ์ฅํ๊ณ ์๋ง๋ ๋ถ์ ํํ ์ ๋ณด๋ ๋ด๊ณ ์๊ธฐ์ ์์ ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์๋ค๊ณ ํ ์ ์์ต๋๋ค.
ย
3. Run-time
์ ์ฒด run-time์ X๋ฅผ ์ฑ์ฐ๊ณ ๋ชจ๋ธ์ ํ์ต์ํค๋ ๊ฒ์ผ๋ก ๋ถ๋ฆฌ๋ฉ๋๋ค. X๋ฅผ ์ฑ์ฐ๋๋ฐ์๋ window size, vocabulary size, corpus size ๋ฑ ์ฌ๋ฌ ์์ธ์ด ์์ฉํฉ๋๋ค. ์ด๋ ํด๋น ๋จ๊ณ๋ ๋ณ๋ ฌ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํฉ๋๋ค. ์ดํ X๊ฐ ์ฃผ์ด์ก์ ๋ ๋ชจ๋ธ์ ํ์ต์ํค๋๋ฐ์๋ vector size์ iteration ์์ ์ํฅ์ ๋ฐ์ต๋๋ค.
dual 2.1GHz Intel Xeon E5-2658 machine์ผ๋ก single thread๋ฅผ ์ด์ฉํ๊ณ , window size๋ ์์ชฝ์ผ๋ก 10, 400,000๊ฐ์ ๋จ์ด๋ฅผ ํฌํจํ๋ vocabulary, 60์ต๊ฐ token์ ๋ง๋ญ์น๋ฅผ ์ด์ฉํ์ ๋ X๋ฅผ ์ฑ์ฐ๋๋ฐ์๋ 85๋ถ, 300์ฐจ์์ ๋ฒกํฐ๋ฅผ ํ์ต์ํค๋๋ฐ์๋ 1 iteration์ 14๋ถ์ด ๊ฑธ๋ฆฝ๋๋ค.
ย
4. Comparison with word2vec
Glove์ word2vec์ ๋น๊ตํ๋๋ฐ ๊ฐ์ฅ ์ค์ํ๊ฒ control ๋๋ ์์๊ฐ Training Time์
๋๋ค.
Glove๋ iteration ์, CBOW(Continuous Bag-of-words)์ Skip-Gram์ negative sample ์์ ์ํฅ์ ๋ฐ์ต๋๋ค. 300์ฐจ์์ ๋ฒกํฐ๋ฅผ ๋์ผํ 60์ต token ๋ง๋ญ์น์ ๋ํ์ฌ ๋์ผํ 400,000 word vocabulary๋ฅผ ์ด์ฉํ์ฌ ๋ชจ๋ธ์ ํ์ตํ๊ณ , context window size๋ ์์ชฝ์ผ๋ก 10์ผ๋ก ์ค์ ํ์์ต๋๋ค.
ํ๋จ์ x์ถ์ ๊ฐ๊ฐ GloVe์ ๋ํด์๋ iteration, CBOW, Skip-Gram์ ๋ํด์๋ negative sample ์๋ฅผ ์๋ฏธํฉ๋๋ค.
word2vec์ ๊ฒฝ์ฐ negative sample์๊ฐ 10์ ๋์ด๊ฐ๋ฉด ์ฑ๋ฅ์ด ์ ํ๋๋ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. ์๋ง๋ negative sampling ๋ฐฉ๋ฒ์ด target ํ๋ฅ ๋ถํฌ๋ฅผ ์ ์์ธกํ์ง ๋ชปํ๊ธฐ ๋๋ฌธ์ด๋ผ๊ณ ๋ด
๋๋ค.
ย
Conclusion
count-based method์ prediction-based method ๋ชจ๋ ๋ง๋ญ์น์ ๋ด์ฌ๋ ๋์๋ฐ์ ํต๊ณ๊ฐ์ ์ฆ๋ช
ํ๊ธฐ ๋๋ฌธ์ ๊ทผ๋ณธ์ ์ผ๋ก ๋๋ผ๋งํฑํ๊ฒ ๋ค๋ฅด์ง๋ ์์ต๋๋ค. ๊ทธ๋ฌ๋ ์ ์ฒด์ ์ธ ํต๊ณ๊ฐ์ ์ก์๋ด๋ count-based method๋ ์ข ๋ ์ ๋ฆฌํ ์ ์์ต๋๋ค.
ํด๋น ๋
ผ๋ฌธ์์๋ count data์ ์ด์ ์ ํ์ฉํ๋ฉด์๋ ๋์์ word2vec ์ฒ๋ผ ์ต๊ทผ์ log-bilinear prediction based method์์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ์๋ฏธ์๋ ์ ํ ๊ตฌ์กฐ๋ฅผ ํฌ์ฐฉํ ์ ์๋ ๋ชจ๋ธ์ ๊ตฌ์ฑํ์์ต๋๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ก GloVe๋ word representation์ ์์ด์ ๋จ์ด ์ ์ถ, ๋จ์ด ์ ์ฌ๋, ๊ฐ์ฒด๋ช
์ธ์ task์ ๋ํด ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ด๋ ๋น์ง๋ ํ์ต์ ์๋ก์ด log-bilinear ํ๊ท ๋ชจ๋ธ์
๋๋ค.
ย
Reference
Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 2014.ย GloVe: Global Vectors for Word Representation.
ย
ย