5-1 ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ์˜ ์ค‘์š”์„ฑ

์šฐ๋ฆฌ๊ฐ€ ์‚ฌ์šฉํ•˜๋Š” ์ž์—ฐ์–ด์ธ ํ…์ŠคํŠธ๋ฅผ ํ”„๋กœ๊ทธ๋žจ์ด ์ดํ•ดํ•˜๊ณ  ๋จธ์‹ ๋Ÿฌ๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜์— ์‚ฌ์šฉํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ์ด๋ฅผ ์ˆ˜์น˜ํ™”ํ•˜๋Š” ๊ณผ์ •์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ฃผ๋กœ ๋จธ์‹ ๋Ÿฌ๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ํ…์ŠคํŠธ๋ฅผ ๋‹จ์–ด ๋‹จ์œ„๋กœ ๊ตฌ๋ถ„ํ•˜์—ฌ ํ•™์Šต๊ณผ ๋ถ„์„์— ํ™œ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ปดํ“จํ„ฐ๊ฐ€ ํšจ์œจ์ ์œผ๋กœ ์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ํ–‰๋ ฌ์˜ ํ˜•ํƒœ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ๊ตฌ์„ฑํ•˜๊ธฐ ์œ„ํ•ด, NLP ๋ถ„์•ผ์—์„œ๋Š” ๋‹จ์–ด๋ฅผ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๋ฐฉ์‹์„ ์ฃผ๋กœ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.
๋‹จ์–ด๋ฅผ ๋ฒกํ„ฐ์˜ ํ˜•ํƒœ๋กœ ํ‘œํ˜„ํ•˜๊ธฐ ์œ„ํ•ด ์ „ํ†ต์ ์œผ๋กœ๋Š” ์›-ํ•ซ ์ธ์ฝ”๋”ฉ์„ ํ†ตํ•œ ๋ฒกํ„ฐํ™” ๋ฐฉ์‹์„ ์‚ฌ์šฉํ•˜์˜€์Šต๋‹ˆ๋‹ค.

์ „ํ†ต์ ์ธ ๋ฐฉ์‹ : ์›-ํ•ซ ๋ฒกํ„ฐ ํ‘œํ˜„ (One-Hot Encoding)

์›-ํ•ซ ๋ฒกํ„ฐ ํ‘œํ˜„๋ฐฉ์‹์€ ๋‹จ์–ด๋งˆ๋‹ค ๋Œ€์‘ํ•˜๋Š” ๋ฒกํ„ฐ๋ฅผ ํ•˜๋‚˜์”ฉ ๋งŒ๋“œ๋Š” ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ผ์ข…์˜ ์–ดํœ˜ ์‚ฌ์ „์„ ๋งŒ๋“ค๋ฉด์„œ ๊ฐ ๋‹จ์–ด์— ๋Œ€์‘ํ•˜๋Š” ์˜๋ฏธ๋ฅผ ํ•˜๋‚˜์”ฉ ๋งŒ๋“œ๋Š” ๊ฒƒ๊ณผ ๋น„์Šทํ•ฉ๋‹ˆ๋‹ค.
ย 
๋‹ค์Œ ๋ฌธ์žฅ์„ ์›-ํ•ซ ๋ฒกํ„ฐ ํ‘œํ˜„ ๋ฐฉ์‹์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋ณด๊ฒ ์Šต๋‹ˆ๋‹ค.
๐Ÿ’ฌ
Letโ€™s study with Deep Daiv
ย 
์˜ค๋ฅธ์ชฝ ํ‘œ์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋Š” ๊ฒƒ ์ฒ˜๋Ÿผ, ๋ฌธ์žฅ์— ๋“ฑ์žฅํ•˜๋Š” ๋‹จ์–ด์˜ ์ข…๋ฅ˜๋งŒํผ 0์œผ๋กœ ์ฑ„์›Œ์ง„ ๋ฒกํ„ฐ๊ฐ€ ์ƒ์„ฑ๋˜๊ณ , ๊ฐ ๋‹จ์–ด๋งˆ๋‹ค ๊ณ ์œ ํ•˜๊ฒŒ ๋ถ€์—ฌ๋˜๋Š” 1์˜ ์œ„์น˜์— ์˜ํ•ด ๋‹จ์–ด๋ฅผ ๊ตฌ๋ถ„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
๋งŒ์•ฝ โ€˜Daivโ€™ ๋ผ๋Š” ๋‹จ์–ด์˜ ๋ฒกํ„ฐ๋งŒ ํ™•์ธํ•œ๋‹ค๋ฉด ์˜ค๋ฅธ์ชฝ์˜ ๋ฒกํ„ฐ์ฒ˜๋Ÿผ, ํ•˜๋‚˜์˜ ์ฐจ์›๋งŒ 1์ด๊ณ  ๋‚˜๋จธ์ง€๋Š” 0์„ ๊ฐ–๋Š” ๋ฒกํ„ฐ์˜ ํ˜•ํƒœ๋กœ ํ‘œํ˜„๋  ๊ฒƒ์ž…๋‹ˆ๋‹ค.
notion image
ย 
์›-ํ•ซ ๋ฒกํ„ฐ ๋ฐฉ์‹์œผ๋กœ ํ‘œํ˜„ํ•œ๋‹ค๋ฉด ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ๋‹ด๊ณ ์žˆ๋Š” ๊ฐ€์ค‘์น˜ ํ–‰๋ ฌ์—์„œ ํ–‰๋ ฌ๊ณฑ๋งŒ์œผ๋กœ๋„ ํ•ด๋‹น ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ์‰ฝ๊ฒŒ ๊ฐ€์ ธ์˜ฌ ์ˆ˜ ์žˆ๋‹ค๋Š” ์žฅ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜, ๋‹จ์–ด๋งˆ๋‹ค ๋ฒกํ„ฐ์˜ ๊ธธ์ด๊ฐ€ ํ•˜๋‚˜์”ฉ ์ฆ๊ฐ€ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์—ฌ๋Ÿฌ ๋ฌธ์„œ์— ๋“ฑ์žฅํ•˜๋Š” ๋‹จ์–ด๋“ค์„ ๋ชจ๋‘ ์›-ํ•ซ ์ธ์ฝ”๋”ฉ์œผ๋กœ ๋ฒกํ„ฐํ™”ํ•˜๋ฉด ์˜๋ฏธ ์—†๋Š” ๊ฐ’์ด ๋„ˆ๋ฌด ๋งŽ์€ ํฌ์†Œ ํ‘œํ˜„์ด ๋˜์–ด๋ฒ„๋ฆฐ๋‹ค๋Š” ๋‹จ์ ์ด ์žˆ์Šต๋‹ˆ๋‹ค.
notion image
notion image
ย 
์›-ํ•ซ ์ธ์ฝ”๋”ฉ ๋ฐฉ์‹์—์„œ๋Š” ๊ฐ ๋‹จ์–ด๋งˆ๋‹ค ์ž๋ฆฌ๊ฐ€(ํ˜น์€ ๋ฒˆํ˜ธ๊ฐ€) ์ •ํ•ด์ ธ์žˆ์œผ๋‹ˆ, ์ด๋ฅผ ์ด์šฉํ•ด ๋ฌธ์žฅ์ด๋‚˜ ๋ฌธ์„œ์— ์–ด๋–ค ๋‹จ์–ด๋“ค์ด ์–ผ๋งˆ๋‚˜ ๋“ค์–ด๊ฐ€๋Š”์ง€์— ๋Œ€ํ•œ ๋นˆ๋„ ์ •๋ณด๋ฅผ ํ™œ์šฉํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค.
ย 
์ด๋ฒˆ์—๋Š” Letโ€™s study with Deep Daiv machine learning study ๋ผ๋Š” ๋ฌธ์žฅ๊ณผ ๋‹ค๋ฅธ ๋ฌธ์žฅ์—์„œ ์ถ”๊ฐ€๋กœ ์ธ์ฝ”๋”ฉํ•œ ๋‹จ์–ด๋“ค์ด ํฌํ•จ๋œ ์›-ํ•ซ ๋ฒกํ„ฐ ๋ฆฌ์ŠคํŠธ๊ฐ€ ์žˆ๋‹ค๊ณ  ํ•ฉ์‹œ๋‹ค. ์œ„ ๋ฌธ์žฅ์€ ์•„๋ž˜์™€ ๊ฐ™์€ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜๋„ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ๋ฌธ์„œ ๋นˆ๋„(Term-Frequency / TF) ๋ผ๊ณ  ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ๋‹จ์–ด๊ฐ€ ๋ฌธ์žฅ์—์„œ 0ํšŒ, 1ํšŒ, ๋˜๋Š” 2ํšŒ ๋“ฑ์žฅํ•˜์˜€๊ณ  ์ด ์ •๋ณด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋ฌธ์žฅ์„ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๊ฐ ๋‹จ์–ด๊ฐ€ ๋“ฑ์žฅํ•œ ํšŸ์ˆ˜๋ฅผ ์„ธ์–ด(count) ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, TF ๊ธฐ๋ฐ˜์˜ ํ‘œํ˜„ ๋ฐฉ์‹์„ ์นด์šดํŠธ ๊ธฐ๋ฐ˜ ํ‘œํ˜„์ด๋ผ๊ณ  ๋งํ•ฉ๋‹ˆ๋‹ค.
ย 
notion image
ย 
TF ๋ฐฉ์‹์„ ํ†ตํ•ด ๋ฌธ์žฅ์„ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•œ๋‹ค๋ฉด ์„œ๋กœ ๋‹ค๋ฅธ ๋ฌธ์žฅ์ด ๋˜‘๊ฐ™์€ ๋‹จ์–ด๋ฅผ ์–ผ๋งˆ๋‚˜ ๋งŽ์ด ํฌํ•จํ•˜๋Š”์ง€์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ํ†ตํ•˜์—ฌ, ์•ž์„œ ํ™•์ธํ•œ ์›-ํ•ซ ์ธ์ฝ”๋”ฉ ๋ฐฉ์‹์—์„œ๋Š” ์ฐพ์„ ์ˆ˜ ์—†์—ˆ๋˜ ์„œ๋กœ ๋‹ค๋ฅธ ๋ฌธ์žฅ ๊ฐ„์˜ โ€˜์œ ์‚ฌ์„ฑ'์„ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๊ฒŒ๋ฉ๋‹ˆ๋‹ค.
ย 

๋‹จ์–ด ์ž„๋ฒ ๋”ฉ

์•ž์„œ ์‚ดํŽด๋ณธ ์นด์šดํŠธ ๊ธฐ๋ฐ˜์˜ TF ๋ฐฉ์‹์—์„œ๋Š” ๋ฌธ์žฅ์ด๋‚˜ ๋‹จ์–ด์˜ ์ค‘์š”ํ•œ ์˜๋ฏธ๋‚˜ ๋‚ด์šฉ์ด ์—ฌ๋Ÿฌ ์ฐจ์›์— ๋ถ„์‚ฐ๋˜์–ด์„œ ํ‘œํ˜„๋ฉ๋‹ˆ๋‹ค. TF ๋ฐฉ์‹์—์„œ ํ•œ ๋ฌธ์žฅ์— ์—ฌ๋Ÿฌ ์ฐจ์›์— ๋ถ„์‚ฐ๋˜์–ด ํ‘œํ˜„๋œ ๊ฒƒ ์ฒ˜๋Ÿผ, ๋‹จ์–ด ์—ญ์‹œ ๋‹จ์ˆœํžˆ ํ•œ ์ฐจ์›์— ๋งคํ•‘๋˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ, ๊ทธ ์˜๋ฏธ๊ฐ€ ์—ฌ๋Ÿฌ ์ฐจ์›์— ๋ถ„์‚ฐ๋˜์–ด ํ‘œํ˜„๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๋ฐฉ์‹์œผ๋กœ ๋‹จ์–ด๋‚˜ ๋ฌธ์žฅ์„ ํ‘œํ˜„ํ•˜๋Š” ๊ฒƒ์„ ๋ถ„์‚ฐ์  ํ‘œํ˜„(distributional representation)์ด๋ผ๊ณ  ์นญํ•˜๋ฉฐ, ๋‹จ์–ด๋ฅผ ๋” ์ ์€ ์ฐจ์›์— ๋ถ„์‚ฐํ•˜์—ฌ ์˜๋ฏธ๋ฅผ ํ‘œํ˜„ํ•ด๋‚ด๋Š” ๊ฒƒ์„ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ(word embedding)์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.
ย 
๊ฐ ๋‹จ์–ด๋ฅผ ํ•˜๋‚˜์˜ ์ฐจ์›์— ๋งคํ•‘ํ•˜์—ฌ ๋ฒกํ„ฐ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์—ฌ๋Ÿฌ ์ฐจ์›์— ์˜๋ฏธ๋‚˜ ์†์„ฑ์„ ๋ถ„์‚ฐํ•˜์—ฌ ๋‹ด๊ณ  ํ‘œํ˜„ํ•œ๋‹ค๋ฉด, ๋˜‘๊ฐ™์€ ๊ฐœ์ˆ˜์˜ ๋‹จ์–ด๋ฅผ ํ›จ์”ฌ ๋‚ฎ์€ ์ฐจ์›์œผ๋กœ ํ‘œํ˜„์ด ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค. ์›-ํ•ซ ์ธ์ฝ”๋”ฉ ๋ฐฉ์‹์—์„œ 100๊ฐœ์˜ ์ฐจ์›์œผ๋กœ 100๊ฐœ์˜ ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค๋ฉด, ๋ถ„์‚ฐ์  ํ‘œํ˜„ ๋ฐฉ์‹์—์„œ๋Š” 100๊ฐœ์˜ ์ฐจ์›์œผ๋กœ 10,000๊ฐœ~100,000๊ฐœ์˜ ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ํ‘œํ˜„ํ•ด๋‚ผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ย 
์˜ค๋ฅธ์ชฝ ์ด๋ฏธ์ง€์ฒ˜๋Ÿผ, ์ž„๋ฒ ๋”ฉ๋œ ๋‹จ์–ด๋Š” ์•ž์„œ ๋ณธ Daiv ๋‹จ์–ด์˜ ์›-ํ•ซ ๋ฒกํ„ฐ์™€ ๋‹ค๋ฅด๊ฒŒ, ๋ชจ๋“  ์ฐจ์›์— ๊ฑธ์ณ ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ํ‘œํ˜„ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด์ฒ˜๋Ÿผ ๋ชจ๋“  ์ฐจ์›์— 0์ด ์•„๋‹Œ ์‹ค์ˆ˜๊ฐ’์„ ๊ฐ–๋Š” ํ‘œํ˜„ ๋ฐฉ์‹์„ ๋ฐ€์ง‘ ํ‘œํ˜„(dense representation) ์ด๋ผ๊ณ  ํ•ฉ๋‹ˆ๋‹ค.
notion image
ย 

๋‹จ์–ด ์ž„๋ฒ ๋”ฉ์„ ๋ฐฐ์šฐ๋Š” ์ด์œ 

์ ์€ ์ฐจ์› ๋‚ด์—์„œ ๋‹จ์–ด๋ฅผ ๋ฐ€์ง‘ ํ‘œํ˜„์œผ๋กœ ๋‚˜ํƒ€๋‚ธ๋‹ค๋ฉด ์ „ํ†ต์ ์ธ ์›-ํ•ซ ์ธ์ฝ”๋”ฉ ๋“ฑ์˜ ๋ฐฉ์‹๊ณผ ๋น„๊ตํ•ด ๋ช‡๊ฐ€์ง€ ์žฅ์ ์„ ๊ฐ€์ง‘๋‹ˆ๋‹ค.

1. ๊ณ„์‚ฐ์ด ํšจ์œจ์ ์ด๋‹ค.

์—ฐ์‚ฐ์„ ์ˆ˜ํ–‰ํ•ด์•ผ ํ•˜๋Š” ๋ฒกํ„ฐ์™€ ํ–‰๋ ฌ์˜ ์ฐจ์›์„ ์ค„์—ฌ์„œ, ์—ฐ์‚ฐ๋Ÿ‰์„ ํฌ๊ฒŒ ๊ฐ์†Œ์‹œ์ผœ ๊ณ„์‚ฐ์„ ํšจ์œจ์ ์ด๊ณ  ๋น ๋ฅด๊ฒŒ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹จ์ˆœํžˆ ์ƒ๊ฐํ•ด๋ด๋„, 100x100 ํฌ๊ธฐ๋ฅผ ๊ฐ–๋Š” ํ–‰๋ ฌ 2๊ฐœ๋ฅผ ๋‚ด์ ํ•˜๋Š” ์—ฐ์‚ฐ๊ณผ 10x10 ํฌ๊ธฐ์˜ ๋‘ ํ–‰๋ ฌ์˜ ๋‚ด์  ์—ฐ์‚ฐ์˜ ์—ฐ์‚ฐ๋Ÿ‰์€ 1,000๋ฐฐ๋‚˜ ์ฐจ์ด๋‚ฉ๋‹ˆ๋‹ค.
ย 

2. ํ†ต๊ณ„์  ์žฅ์ ์„ ๊ณต์œ ํ•˜๊ธฐ ์›ํ™œํ•˜๋‹ค.

์ผ๋ฐ˜์ ์ธ ๋ฌธ์žฅ์ด๋‚˜ ๋ฌธ์„œ์—์„œ๋Š” ์‚ฌ์ „์— ์žˆ๋Š” ๋Œ€๋ถ€๋ถ„์˜ ๋‹จ์–ด๋ฅผ ์‚ฌ์šฉํ•˜์ง€ ์•Š์„ ๊ฒƒ์ด๊ธฐ ๋•Œ๋ฌธ์—, ๋ฌธ์„œ๋นˆ๋„(TF)๋ฅผ ํ†ตํ•ด ์—ฌ๋Ÿฌ ๋ฌธ์žฅ ๋˜๋Š” ๋ฌธ์„œ์˜ ๋‹จ์–ด ํ†ต๊ณ„๋ฅผ ๋ถ„์„ํ•  ๋•Œ, ๋ฌธ์žฅ์— ๋Œ€ํ•œ TF ๋ฒกํ„ฐ๋Š” ํฌ์†Œํ–‰๋ ฌ(์œ ์˜๋ฏธํ•œ ๊ฐ’๋ณด๋‹ค 0์ธ ๊ฐ’์ด ๋” ๋งŽ์€ ํ–‰๋ ฌ)์ผ ๊ฐ€๋Šฅ์„ฑ์ด ๋งค์šฐ ๋†’์Šต๋‹ˆ๋‹ค. ์ด๋Ÿฌํ•œ ๊ฒฝ์šฐ์—๋Š” ๊ณ„์‚ฐ๋Ÿ‰๋„ ๋งŽ์ด ์žก์•„๋จน๊ณ  ๋ฉ”๋ชจ๋ฆฌ๋„ ๋‚ญ๋น„ํ•˜๊ฒŒ ๋˜์–ด ๋งค์šฐ ๋น„ํšจ์œจ์ ์ด๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
๋‹จ์–ด ์ž„๋ฒ ๋”ฉ์„ ํ†ตํ•ด ์ฐจ์›์„ ์ถ•์†Œํ•œ ๊ฒฝ์šฐ, ํŠน์ด๊ฐ’ ๋ถ„ํ•ด ๋“ฑ์˜ ์ˆ˜ํ•™์  ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ํ†ต๊ณ„ ์ •๋ณด๋ฅผ ๋ถ„์„ํ•˜๊ณ  ํ™œ์šฉํ•˜๋Š” ๊ฒƒ์ด ๋”์šฑ ํšจ์œจ์ ์ด๊ฒŒ ๋œ๋‹ค.
ย 

3. ์ตœ์ ํ™”๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค.

์›-ํ•ซ ์ธ์ฝ”๋”ฉ ๋ฐฉ์‹์ฒ˜๋Ÿผ ๋„ˆ๋ฌด ๋งŽ์€ ์ฐจ์›์„ ๊ฐ€์ง„ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ์ฐจ์›์˜ ์ €์ฃผ ๋“ฑ์˜ ๋ฌธ์ œ๋กœ ๋จธ์‹ ๋Ÿฌ๋‹์˜ ์ตœ์ ํ™”์—์„œ ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ์„ ํ†ตํ•ด ์ฐจ์›์„ ์ถ•์†Œํ•˜์—ฌ, ์ €์ฐจ์›์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์ž…๋ ฅ์œผ๋กœ ๋„ฃ์–ด์•ผ ์›ํ™œํ•œ ํ•™์Šต ๋ฐ task์ฒ˜๋ฆฌ๊ฐ€ ๊ฐ€๋Šฅํ•ฉ๋‹ˆ๋‹ค.
โš ๏ธ
์ฐจ์›์˜ ์ €์ฃผ ์ฐจ์›์˜ ์ €์ฃผ๋Š” ํ•™์Šต ๋ฐ์ดํ„ฐ์˜ ์ˆ˜๋ณด๋‹ค ์ฐจ์›์˜ ์ˆ˜๊ฐ€ ๋” ๋งŽ์•„์ง€๋ฉด์„œ ์„ฑ๋Šฅ์ด ์ €ํ•˜๋˜๋Š” ํ˜„์ƒ์„ ๋งํ•ฉ๋‹ˆ๋‹ค. ๋ฐ์ดํ„ฐ์˜ ์–‘์— ๋น„ํ•ด ์ฐจ์›์ด ์“ธ๋ฐ์—†์ด ๋งŽ์•„์ง€๊ฒŒ ๋˜๋ฉด ๊ทธ๋งŒํผ ๋ฐ์ดํ„ฐ ํ‘œํ˜„์—์„œ ๋นˆ ๊ณต๊ฐ„์ด ๋งŽ์•„์ง€๋ฉด์„œ ๊ณ„์‚ฐ ์„ฑ๋Šฅ๋„ ๋–จ์–ด์ง€๊ณ , ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ์„ค๋ช…๋„ ๋ถ€์กฑํ•ด์ง€๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ์ผ๋ฐ˜์ ์œผ๋กœ ์ฐจ์›์˜ ์ €์ฃผ๋ฅผ ํŠน์ด๊ฐ’ ๋ถ„ํ•ด(SVD)๋‚˜ ์ฃผ์„ฑ๋ถ„ ๋ถ„์„(PCA) ๋“ฑ์˜ ์ฐจ์› ์ถ•์†Œ ๊ธฐ๋ฒ•์„ ํ†ตํ•ด ํ•ด๊ฒฐํ•˜์ง€๋งŒ, ์ฐจ์›์˜ ๊ฐœ์ˆ˜๊ฐ€ ์ผ๋ฐ˜์ ์œผ๋กœ ์ˆ˜๋ฐฑ๋งŒ๊ฐœ๊ฐ€ ๋„˜์–ด๊ฐ€๋Š” NLP ๋ถ„์•ผ์—์„œ๋Š” ์ด๋Ÿฌํ•œ ํ•ด๊ฒฐ ๋ฐฉ์‹์ด ์ž˜ ์ ์šฉ๋˜์ง€ ์•Š์Šต๋‹ˆ๋‹ค.
ย 
๋‹จ์–ด๋ฅผ ์ž„๋ฒ ๋”ฉํ–ˆ์„ ๋•Œ, ๊ฐ ๋‹จ์–ด ๋ฒกํ„ฐ๋Š” ์œ ์‚ฌํ•œ ์˜๋ฏธ๋ฅผ ๊ฐ–๋Š” ๋‹จ์–ด๋ผ๋ฆฌ ๊ฐ™์€ ๊ณต๊ฐ„ ๋‚ด์— ์œ ์‚ฌํ•œ ์œ„์น˜์— ๋†“์ด๊ฒŒ ๋ฉ๋‹ˆ๋‹ค. ๋˜, ๋‹จ์–ด๋ผ๋ฆฌ์˜ ๊ด€๊ณ„๋Š” ๋‹จ์–ด๊ฐ„์˜ ๋ฐฉํ–ฅ๊ณผ ๊ฑฐ๋ฆฌ์— ์˜ํ•ด ๋‚˜ํƒ€๋‚ด์งˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์•„๋ž˜ ๊ทธ๋ฆผ์€ 2์ฐจ์›์œผ๋กœ ์ถ•์†Œํ•˜์—ฌ ๊ฐ„๋žตํ•˜๊ฒŒ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ์„ ์„ค๋ช…ํ•˜๊ธฐ ์œ„ํ•œ ๊ทธ๋ฆผ์ž…๋‹ˆ๋‹ค.
notion image
์œ„ ๊ทธ๋ฆผ์—์„œ ๋ณผ ์ˆ˜ ์žˆ๋“ฏ์ด, ๋™๋ฌผ์— ๋Œ€ํ•œ ๋‹จ์–ด๋Š” ๋™๋ฌผ๋ผ๋ฆฌ, ๋‚˜๋ผ์— ๋Œ€ํ•œ ๋‹จ์–ด๋Š” ๋‚˜๋ผ๋ผ๋ฆฌ, ๊ฐ€์กฑ ๋ช…์นญ์— ๋Œ€ํ•œ ๋‹จ์–ด๋Š” ๊ฐ€์กฑ ๋ช…์นญ๋ผ๋ฆฌ ๋ชจ์—ฌ์žˆ๋Š” ๊ฒƒ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์œ ์‚ฌํ•œ ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๋‹จ์–ด๋“ค์€ ๋น„์Šทํ•œ ์˜๋ฏธ๋ฅผ ๊ฐ–๋Š”๋‹ค๊ณ  ํŒ๋‹จํ•˜์—ฌ, ๊ทผ์ฒ˜์— ๋ฐฐ์น˜๋˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค.
๋˜, ๋‹จ์–ด๊ฐ„์˜ ๊ด€๊ณ„๋Š” ๋‘ ๋‹จ์–ด ์‚ฌ์ด์˜ ๋ฐฉํ–ฅ๊ณผ ๊ฑฐ๋ฆฌ์— ์˜ํ•ด ๋‚˜ํƒ€๋‚ด์–ด์ง‘๋‹ˆ๋‹ค. ๊ฐ€์šด๋ฐ ์•„๋ž˜์— ๋ณด์ด๋Š” he-himself ๋‹จ์–ด๊ฐ„์˜ ๊ด€๊ณ„๋Š” she-herself์™€ ๋™์ผํ•˜๋ฏ€๋กœ, ๋‘ ๋‹จ์–ด์Œ ์‚ฌ์ด์˜ ์„ ์˜ ๋ฐฉํ–ฅ๊ณผ ํฌ๊ธฐ๊ฐ€ ๋น„์Šทํ•œ ๊ฒƒ์„ ๋ณผ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” ์˜ค๋ฅธ์ชฝ์˜ ํ˜•์šฉ์‚ฌ์˜ ์›๊ธ‰/๋น„๊ต๊ธ‰/์ตœ์ƒ๊ธ‰์ด๋‚˜ ์™ผ์ชฝ์˜ man-king, woman-queen์—์„œ๋„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
ย 
์•„๋ž˜ ๋งํฌ์˜ ํ™ˆํŽ˜์ด์ง€๋Š” ํ•œ๊ตญ์–ด๋กœ ๊ตฌํ˜„ํ•œ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ์— ๋Œ€ํ•œ ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค. ์ง์ ‘ ํ•ด๋ณผ ์ˆ˜ ์žˆ์œผ๋‹ˆ, ์žฌ๋ฏธ๋กœ ํ•œ ๋ฒˆ ๋‹จ์–ด๊ฐ„์˜ ๋ง์…ˆ๊ณผ ๋บ„์…ˆ์„ ์‹œ๋„ํ•ด๋ณด๊ธธ ๋ฐ”๋ž๋‹ˆ๋‹ค!
ย 
๋‹ค์Œ ๊ธ€์—์„œ๋Š” ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ์— ๋Œ€ํ•ด ์ง์ ‘ ์ฝ”๋“œ๋ฅผ ์ž‘์„ฑํ•˜๊ณ  ๊ตฌํ˜„ํ•˜์—ฌ ์‹œ๋„ํ•ด๋ณผ ๊ฒƒ์ž…๋‹ˆ๋‹ค.
ย 
ย 
ย