1. ๋ง๋ญ์น
๋ชจ๋ NLP ์์
์ ๋ง๋ญ์น(corpus, ๋ณต์ํ์ corpora)๋ผ ๋ถ๋ฅด๋ ํ
์คํธ ๋ฐ์ดํฐ๋ก ์์ํฉ๋๋ค. ์ผ๋ฐ์ ์ผ๋ก ์์ ํ
์คํธ(ASCII๋ UTF-8 ํํ)์ ์ด ํ
์คํธ์ ์ฐ๊ด๋ ๋ฉํ๋ฐ์ดํฐ(metadata)๋ฅผ ํฌํจํฉ๋๋ค.
๋ฉํ๋ฐ์ดํฐ๋ ๋ฐ์ดํฐ์ ๊ดํ ๊ตฌ์กฐํ๋ ๋ฐ์ดํฐ๋ก, ๋ค๋ฅธ ๋ฐ์ดํฐ๋ฅผ ์ค๋ช
ํด์ฃผ๋ ๋ฐ์ดํฐ์
๋๋ค. ์์ฑ์ ๋ณด๋ผ๊ณ ๋ ํ๋ฉฐ, ๋ณดํต ๋ฐ์ดํฐ๋ฅผ ํํํ๊ธฐ ์ํ ๋ชฉ์ ๊ณผ ๋ฐ์ดํฐ๋ฅผ ๋นจ๋ฆฌ ์ฐพ๊ธฐ ์ํ ๋ชฉ์ ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค. ์๋ณ์, ๋ ์ด๋ธ, ํ์์คํฌํ ๋ฑ ํ
์คํธ์ ๊ด๋ จ๋ ์ด๋ค ๋ถ๊ฐ ์ ๋ณด๋ ๋ ์ ์์ผ๋ฉฐ, ๋จธ์ ๋ฌ๋ ๋ถ์ผ์์๋ ๋ฉํ๋ฐ์ดํฐ๊ฐ ๋ถ์ ํ
์คํธ๋ฅผ ์ํ(sample) ๋๋ ๋ฐ์ดํฐ ํฌ์ธํธ(data point)๋ผ๊ณ ๋ถ๋ฆ
๋๋ค. ๋ํ ์ํ์ ๋ชจ์์ธ ๋ง๋ญ์น๋ ๋ฐ์ดํฐ์
(dataset)์ด๋ผ๊ณ ๋ถ๋ฆ
๋๋ค.
2. ํ ํฐ
์์ ์ค๋ช
ํ ๋ง๋ญ์น์์ ํ ํฐ(token)์ด๋ผ๋ ๋ถ๋ฆฌ๋ ๋จ์๋ก ๋๋๋ ์์
์ ํ ํฐํ(tokenization)๋ผ๊ณ ํฉ๋๋ค. ํ ํฐ์ ๋ณดํต ์๋ฏธ์๋ ๋จ์๋ก ์ ์ํ๊ฒ ๋ฉ๋๋ค. ํ ํฐ์ ๊ธฐ์ค์ ๋จ์ด๋ก ํ๋ ๊ฒฝ์ฐ, ๋จ์ด ํ ํฐํ๋ผ๊ณ ํ๋๋ฐ ๊ฐ๋จํ ํ
์คํธ๋ฅผ ํตํด ์์๋ฅผ ๋ค์ด๋ณด๊ฒ ์ต๋๋ค.
ย
๋ค์์ ๋๋ฆฌ ์ฌ์ฉ๋๋ ํจํค์ง์ธ spaCy์ ์์
๋๋ค.
import spacy nlp = spacy.load('en') text = "Don't give up, study with daiv." print([str(token) for token in nlp(text.lower())]) >>> output : ['do', "n't", 'give', 'up', ',', 'study', 'with', 'daiv', '.']
ย
๋๋ค๋ฅธ ํจํค์ง์ธ NLTK์ ์์
๋๋ค.
from nltk.tokenize import TweetTokenizer tweet=u"Snow White and the Seven Degrees#makeAMovieCold@midnight:-)" tokenizer = TweetTokenizer() print(tokenizer.tokenize(tweet.lower())) >>> ['snow', 'white', 'and', 'the', 'seven', 'degrees', '#makeamoviecold', '@midnight', ':-)']
ย
๋ณต์กํ ํน์๋ฌธ์ ๋ฑ์ด ํฌํจ๋์ด ์์ง ์์ ๊ฐ๋จํ ํ
์คํธ์ ๊ฒฝ์ฐ ์ด๋ฐ ์์ผ๋ก ์ง์ ๋จ์ด ํ ํฐํ๋ฅผ ์ํํ ์๋ ์์ต๋๋ค.
# ๊ณต๋ฐฑ์ ๊ธฐ์ค์ผ๋ก ๋จ์ด๋ฅผ ๋ถ๋ฆฌํด์ค๋๋ค. text = "The journey is the reward." text_low = text.lower() text_low = text.replace('.', '') words = text_low.split(' ') print(words) >>> ['the', 'journey', 'is', 'the', 'reward']
ย
3. ํ์
ํ์
์ ๋ง๋ญ์น์ ๋ฑ์ฅํ๋ ๊ณ ์ ํ ํ ํฐ์
๋๋ค. ๋ง๋ญ์น์ ์๋ ๋ชจ๋ ํ์
์ ์งํฉ์ ์ดํ ์ฌ์ ๋๋ ์ดํ๋ผ๊ณ ํฉ๋๋ค. dictionary์ key์ฒ๋ผ ๊ณ ์ ํ ํ ํฐ์ ํ์
์ด๋ผ๊ณ ์ ์ํ๋ค ์๊ฐํ๋ฉด ๋ฉ๋๋ค.
๋จ์ด๋ ๋ด์ฉ์ด(content words)์ ๋ถ์ฉ์ด(stopword)๋ก ๊ตฌ๋ถ๋ฉ๋๋ค. ๋ณดํต ์กฐ์ฌ, ๊ด์ฌ, ์ ์น์ฌ ๋ฑ์ ๋ถ์ฉ์ด๋ ์์ฃผ ๋ฑ์ฅํ์ง๋ง ๋จ์ด ์์ฒด์ ํฐ ์๋ฏธ๊ฐ ์๋ ๊ฒฝ์ฐ, ๋ถ์์ ๋ฐฉํด๊ฐ ๋๊ธฐ ๋๋ฌธ์ ์ ์ฒ๋ฆฌ ๊ณผ์ ์์ ์ ๊ฑฐํด์ค๋๋ค.
ย
ย
๋ค์ ๊ธ ์ฝ๊ธฐ
ย