cleanUrl: 'paper/bert'
๋
ผ๋ฌธ : BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding
์ ์ : Google AI Language (Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova)
ย
๋
ผ๋ฌธ ์ ์ ์ด์ IntroductionRelated Work(1) Unsupervised Feature-based Approaches(2) Unsupervised Fine-tuning Approaches(3) Transfer Learning from Supervised DataBertModel ArchitectureInput/Output RepresentationsPre-training BERTTask #1: Masked LMTask #2: Next Sentence Prediction(NSP)Pre-training dataFine-tuning BERTExperimentGLUESQuAD v1.1SQuAD v2.0SWAGAblation Studies(1) Effect of Pre-training Tasks(2) Effect of Model Size(3) Feature-based Approach with BERTConclusion์ฝ๋์ค์ตReference
๋ ผ๋ฌธ ์ ์ ์ด์
๋ณธ ๋
ผ๋ฌธ์ ์ผ์ชฝ๊ณผ ์ค๋ฅธ์ชฝ ๋ฌธ๋งฅ์ ๋ชจ๋ ๊ณ ๋ คํ๋ ์๋ฐฉํฅ์ ์ธ์ฝ๋๋ฅผ ๊ฐ์ง ์ฌ์ ํ์ต ๋ชจํ, BERT๋ฅผ ์ ์ํฉ๋๋ค. ์ง์์๋ต, ์์ฐ์ด์ถ๋ก ๋ฑ ๋ค์ํ NLP task๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ํํ ์ ์๋๋ก ํ๋ ์ฌ์ ํ์ต ๋ชจ๋ธ๋ก์จ ๋๋ฆฌ ์ฌ์ฉ๋๊ณ ์๊ณ , ์ ๋ฒ ํฌ์คํธ๋ก ์๊ฐ๋๋ ธ๋ Transformer๋ฅผ ์ธ์ฝ๋๋ก ์ฌ์ฉํ๋ ์ํคํ
์ณ๋ฅผ ๊ฐ์ง๊ณ ์์ด, Transformer๋ฅผ ์ด์ด ์๋ฒ ๋ฉ ๋ชจํ์ ๊ณต๋ถํ๊ณ ์ ํด๋น ๋
ผ๋ฌธ์ ์ ํํ์ต๋๋ค.
ย
Introduction
pre-training(์ฌ์ ํ์ต) ์ธ์ด ๋ชจ๋ธ์ ๋ง์ NLP task(sentence-level task, token-level task)์์ ํจ๊ณผ์ ์ธ ๊ฒ์ผ๋ก ๋ํ๋ฌ์ต๋๋ค. ์ฌ์ ํ์ต๋ ์ธ์ด ํํ์ 2๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ์ ์ฉ๋ฉ๋๋ค.
ย
- feature-basedย : ์ฌ์ ํ์ต๋ representation์ ์ถ๊ฐ feature๋ก ํฌํจ์ํจ task-specific ๊ตฌ์กฐ (ex. ELMo)
- fine-tuningย : ์ต์ํ์ task-specific ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๊ณ , ์ฌ์ ํ์ต๋ ํ๋ผ๋ฏธํฐ๋ฅผ fine-tuningํ์ฌ ํ์ task์ ๋ํด ํ์ตํฉ๋๋ค. (ex. OpenAI GPT)
ย
๋ ๋ฐฉ๋ฒ์ ์ฌ์ ํ์ตํ๋ ๋์ ๊ฐ์ ๋ชฉ์ ํจ์๋ฅผ ์ฌ์ฉํฉ๋๋ค. ์ผ๋ฐ์ ์ธ language representaion์ ํ์ตํ๊ธฐ ์ํด ๋จ๋ฐฉํฅ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ฉํฉ๋๋ค.ย ๋จ๋ฐฉํฅ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ ํ์ต์ ์ฌ์ฉ๋ ์ ์๋ ์ํคํ
์ณ์ ์ ํ์ ์ ํํ๊ธฐ ๋๋ฌธ์ ํ๊ณ๊ฐ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด OpenAI GPT๋ left-to-right ๊ตฌ์กฐ๋ก ๋ชจ๋ ํ ํฐ์ self-attention layer์์ ์ค์ง ์ด์ ์ ํ ํฐ(previous token)๋ง ์ ๊ทผํ ์ ์๋ค๋ ํ๊ณ๊ฐ ์์ต๋๋ค. ์ด๋ฌํ ํ๊ณ๋ sentence level task์ ์ฐจ์ ์ฑ
์ด๊ณ QA์ ๊ฐ์ด ์๋ฐฉํฅ์ ๋ฌธ๋งฅ์ ์ดํดํด์ผํ๋ token-level task์ ๊ธฐ๋ฐํ๋ ์ฌ์ ํ์ต์ ์ ์ฉํ ๋ ์น๋ช
์ ์
๋๋ค.
๋ณธ ๋
ผ๋ฌธ์ย ์๋ฑกํฅ์ ์ธ์ฝ๋๋ฅผ ๊ฐ์ง BERT๋ฅผ ์ ์ํ๋ฉด์ ์ฌ์ ํ์ต์ ๊ธฐ๋ฐํ๋ ์ ๊ทผ๋ฒ์ ๊ฐ์ ํฉ๋๋ค. BERT๋ย MLM(masked language model)๋ฅผ ์ฌ์ฉํด ์ฑ๋ฅ์ ๊ฐ์ ํ์ต๋๋ค. MLM์ ๋๋คํ๊ฒ ์
๋ ฅ์ ํ ํฐ์ maskํ๊ณ , mask๋ ๋จ์ด์ ๋ฌธ๋งฅ๋ง์ ๊ธฐ๋ฐ์ผ๋ก mask๋ ๋จ์ด์ ์๋์ vocabulary id๋ฅผ ์์ธกํ๋ ๊ฒ์ด ๋ชฉ์ ์
๋๋ค. left-to-right ๊ตฌ์กฐ์ ๋ค๋ฅด๊ฒ masked ์ธ์ด ๋ชจ๋ธ ์ธ MLM์ ์ผ์ชฝ๊ณผ ์ค๋ฅธ์ชฝ ๋ฌธ๋งฅ์ ์ตํฉํด ๋ํ๋ผ์ ์์ต๋๋ค. ๋ํ text-pair representaion์ ๊ฒฐํฉ์ ์ผ๋ก ์ฌ์ ํ์ตํ๋ย NSP(next sentence prdiction)์ ์ฌ์ฉํฉ๋๋ค.
ย
์ด ๋ชจ๋ธ์ ํตํด ์ธ์ด ๋ชจ๋ธ์์ย ์๋ฐฉํฅ ์ฌ์ ๋ชจ๋ธ์ ์ค์์ฑ์ ๋ณด์ฌ์คฌ์ต๋๋ค. ๋ํ ์ฌ์ ํ์ต์ heavily-engineered task ์ํคํ
์ณ์ ํ์์ฑ์ ๊ฐ์์์ผฐ์ต๋๋ค.
ย
Related Work
์ฌ์ ํ์ต(pre-training)์ ๊ฐ์ฅ ๋ง์ด ์ฌ์ฉ๋๋ ์ ๊ทผ๋ฐฉ๋ฒ์ ์๊ฐํฉ๋๋ค.
(1) Unsupervised Feature-based Approaches
์ฌ์ ํ์ต๋ ๋จ์ด ์๋ฒ ๋ฉ์ NLP ์์คํ
์ ์์ด์ ํฐ ์ฑ๋ฅ ๊ฐ์ ์ ๊ฐ๋ฅ์ผ ํ ์ค์ํ ๋ถ๋ถ์
๋๋ค. ๋จ์ด ์๋ฒ ๋ฉ ๋ฒกํฐ๋ฅผ ์ฌ์ ํ์ตํ๊ธฐ ์ํด, ๋ํ ์ผ์ชฝ๊ณผ ์ค๋ฅธ์ชฝ context์์ correct๋ฅผ incorrect ๋จ์ด์ ๊ตฌ๋ณํ๊ธฐ ์ํด left-to-right ์ธ์ด ๋ชจ๋ธ์ด ์ฌ์ฉ๋์์ต๋๋ค.
feature-based ๋ฐฉ๋ฒ์ ๋ํ์ ์ธย ELMo๋ ์ ํต์ ์ธ ๋จ์ด ์๋ฒ ๋ฉ์ ์ผ๋ฐํํด ์๋ก์ด ์ฐจ์์ผ๋ก ๊ฐ์ ธ์์ต๋๋ค. context-sensitive ํน์ง์ย left-to-right ๊ทธ๋ฆฌ๊ณ right-to-left ์ธ์ด๋ชจ๋ธ์์ ๊ฐ๊ฐ ๋
๋ฆฝ์ ์ผ๋ก ์ถ์ถํ๊ณ ๊ฒฐํฉํฉ๋๋ค. ๋ฐ๋ผ์ ์์ ์๋ฐฉํฅ์ฑ์ ์ง๋๋ค๊ณ ํ ์ ์์ต๋๋ค. ELMo๋ ๋ค์ํ NLP task์์ SOTA๋ฅผ ๋ฌ์ฑํ ์ ์์์ต๋๋ค.
ย
(2) Unsupervised Fine-tuning Approaches
feature-based์ ๊ฐ์ด fine-tuning๋ ๋ผ๋ฒจ๋ง ๋์ง ์์ ํ
์คํธ์ ๋ํด์ ๋จ์ด ์๋ฒ ๋ฉ์ ์งํํฉ๋๋ค. ์ต๊ทผ์๋ ๋ผ๋ฒจ๋ง ๋์ง ์์ ํ
์คํธ์ ๋ํด ์ฌ์ ํ์ตํ๊ณ ์ง๋ํ์ต task์ fine-tuning์ ์งํํ๋๋ฐ, ์ด๋ฌํ ๋ฐฉ์์ ์ด๊ธฐ์ ํ์ต๋์ด์ผํ ํ๋ผ๋ฏธํฐ๊ฐ ๊ฑฐ์ ์๋ค๋ ์ฅ์ ์ด ์์ต๋๋ค. ๋ฐ๋ผ์ย OpenAI GPT๋ sentence level task์์ SOTA๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. ์ด๋ฌํ ๋ชจ๋ธ์๋ Left-to-right ์ธ์ด๋ชจ๋ธ ์ฆ,ย ๋จ๋ฐฉํฅ ๊ตฌ์กฐ์ auto-encoder์ด ์ฌ์ ํ์ต์ ์ฌ์ฉ๋์์ต๋๋ค.
ย
(3) Transfer Learning from Supervised Data
์ง๋ํ์ต task์ธ ์ธ์ด ์ถ๋ก (language inference), ๊ธฐ๊ณ๋ฒ์ญ์์๋ ํจ๊ณผ์ ์ธ ์ ์ด(transfer)๋ฅผ ๋ณด์ฌ์ฃผ๋ ์ฐ๊ตฌ๋ ์์์ต๋๋ค. ๋ํ CV ์ฐ๊ตฌ๋ ํฐ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ๊ธฐ๋ฐํ transfer learning์ด ์ค์ํ๊ฒ ์ฌ์ฉ๋๊ณ ์์ต๋๋ค.(ex. ImageNet)
ย
Bert
Bert framework๋ ํฌ๊ฒ pre-training(์ฌ์ ํ์ต), fine-tuning(๋ฏธ์ธ์กฐ์ ) ๋ ๊ฐ์ง ๋จ๊ณ๋ก ๋๋ ์ง๋๋ค. pre-training ๋์ ๋ชจ๋ธ์ ๋ผ๋ฒจ๋ง์ด ๋์ง ์์ ๋ฐ์ดํฐ๋ก ํ์ต์ ์งํํฉ๋๋ค. fine-tuning ๋์ BERT ๋ชจ๋ธ์ ์ฌ์ ํ์ต๋ parameter๋ก ์ด๊ธฐํ๋ ํ, ๋ชจ๋ parameter๊ฐ downstream task๋ก๋ถํฐ ๋ถ๋ฅ๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๋ฏธ์ธ์กฐ์ ์ด ๋ฉ๋๋ค.
output layer๋ฅผ ๋นผ๋ฉด, pre-training๊ณผ fine-tuning์ ๋์ผํ ์ํคํ
์ณ๋ฅผ ์ฌ์ฉํฉ๋๋ค. ๋์ผํ ์ฌ์ ํ์ต๋ ํ๋ผ๋ฏธํฐ๋ ๋ค์ํ ๋ค์ด์คํธ๋ฆผ task๋ค์ ๋ํ์ฌ ํ๋ผ๋ฏธํฐ๋ฅผ ์ด๊ธฐํํ๋๋ฐ ์ฌ์ฉ๋ฉ๋๋ค. fine-tuning ๋์์๋ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ค์ด ๋ฏธ์ธ ์กฐ์ ๋ฉ๋๋ค.
[CLS]
๋ ๋ชจ๋ ์
๋ ฅ ๋ฐ์ดํฐ์ ์๋จ์ ์ถ๊ฐ๋๋ ํน๋ณํ token์ด๊ณ , [SEP]
์ ์ง๋ฌธ๊ณผ ๋ต๋ณ์ ๊ตฌ๋ถํด์ฃผ๋ ๊ฒ์ฒ๋ผ ํน๋ณํ ๋ถ๋ฆฌ token์
๋๋ค. BERT์ ๋ค๋ฅธ ๋ชจ๋ธ๊ณผ ๊ตฌ๋ถ๋๋ ํน์ง์ ์ฌ๋ฌ ๋ค๋ฅธ task์ ๋ํด์๋ ํตํฉ๋ ๋ชจ๋ธ๊ตฌ์กฐ๋ฅผ ๊ฐ๋๋ค๋ ์ ์
๋๋ค. ์ฌ์ ํ์ต๋ ๋ชจ๋ธ ๊ตฌ์กฐ์ ์ต์ข
๋ค์ด์คํธ๋ฆผ ๊ตฌ์กฐ์๋ ์ต์ํ์ ์ฐจ์ด๋ง ์กด์ฌํ ๋ฟ์
๋๋ค.
Model Architecture
BERT์ ๋ชจ๋ธ๊ตฌ์กฐ๋ย Transformer๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ multi-layer bidirectional Transformer encoder์
๋๋ค.
๋ ๋น๊ต๋ฅผ ์ํด OpenAI GPT์ ๊ฐ์ ํฌ๊ธฐ๋ฅผ ๊ฐ์ง๋๋ก ํ์์ต๋๋ค. ๊ทธ๋ฌ๋ BERT Transformer๋ ์๋ฑกํฅ self-attention์ ์ฌ์ฉํ๊ณ GPT Transformer๋ ๋ชจ๋ token์ด ์ผ์ชฝ ๋ฌธ๋งฅ๋ง ์ฐธ์กฐํ๋๋ก ์ ํ๋ self-attention์ ์ฌ์ฉํฉ๋๋ค.
ย
Input/Output Representations
BERT๊ฐ ๋ค์ํ ๋ค์ด์คํธ๋ฆผ task๋ฅผ ์ฒ๋ฆฌํ ์ ์๋๋ก, ์
๋ ฅ ํํ์ ๋จ์ผ ๋ฌธ์ฅ์ธ์ง, ๋ฌธ์ฅ๋ค์ ์(Q & A ๋ฑ)์ธ์ง ๊ตฌ๋ถ๋์ด์ผ ํฉ๋๋ค. ์ฌ๊ธฐ์ โ๋ฌธ์ฅโ์ด๋ ์ค์ ์ธ์ดํ์ ๋ฌธ์ฅ์ด ์๋ ์ธ์ ํ ๋ฌธ์๋ค์ ์ฐ์์ผ๋ก ์๊ฐํฉ๋๋ค. โSequenceโ๊ฐ BERT์ ์
๋ ฅ token sequence๊ฐ ๋๋๋ฐ, ์ด๋ ๋จ์ผ ๋ฌธ์ฅ์ด๋ ๋ฌธ์ฅ์ ์์ด ๋ ์ ์์ต๋๋ค. ํด๋น ๋
ผ๋ฌธ์์๋ 3๋ง ๊ฐ์ ๋จ์ด ์๋ฅผ ๊ฐ๋ Wordpieceย embedding์ ์ฌ์ฉํฉ๋๋ค. ๋ชจ๋ sequence์ ์ฒซ ๋ฒ์งธ token์ย
[CLS]
๋ผ๋ ํน๋ณํ ๋ถ๋ฅ token์
๋๋ค. ์ด token๊ณผ ์ฐ๊ด๋ ์ต์ข
hidden state๋ ๋ถ๋ฅ๋ฌธ์ ์์ sequence ํํ์ ์ดํฉํ๋ ๊ฒ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค. ๋ฌธ์ฅ์ ์์ ํ ๊ฐ์ ๋ฌธ์ฅ์ผ๋ก ํฉ์ณ์ง๋๋ฐ, ๋ค์์ ๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ผ๋ก ๊ตฌ๋ถ๋ฉ๋๋ค.[SEP]
๋ผ๋ ํน๋ณํ token์ด ๋ ๋ฌธ์ฅ ์ฌ์ด์ ๋ค์ด๊ฐ๋ค.
- ๋ฌธ์ฅ๋ค์ ๋ชจ๋ token์ ํด๋น ํ ํฐ์ด ๋ฌธ์ฅ A์ ์ํ๋์ง B์ ์ํ๋์ง์ ๋ํ ์ ๋ณด๋ฅผ ๋ด์ embedding์ด ์ถ๊ฐ๋๋ค.
์ฃผ์ด์ง token์ ๋ํด ๊ทธ ์
๋ ฅํํ์ ์ฐ๊ด๋ token, segment, position embedding์ ํฉ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค.
ย
Pre-training BERT
BERT๋ฅผ ์ฌ์ ํ์ต์ํค๊ธฐ ์ํด ์ ํต์ ์ธ LTR(Left-to-Right) ๋๋ RTL(Right-to-Left) ์ธ์ด๋ชจ๋ธ์ ์ฌ์ฉํ์ง ์์ต๋๋ค. ๋์ , ๋ค์์ ๋ ๊ฐ์ง ๋น์ง๋ task๋ฅผ ์ฌ์ฉํ์ฌ ํ์ต์ํต๋๋ค.
Task #1: Masked LM
์ง๊ด์ ์ผ๋ก, ๊น์ ์๋ฐฉํฅ ๋ชจ๋ธ์ LTR ๋ชจ๋ธ ๋๋ ์์ ์๋ฐฉํฅ ๋ชจ๋ธ๋ณด๋ค ๋ ๊ฐ๋ ฅํ ๊ฒ์
๋๋ค. ๊ทธ๋ฌ๋, ์ ํต์ ์ธ ์ธ์ด๋ชจ๋ธ์ ๋จ๋ฐฉํฅ๋ง์ผ๋ก ์ฝ๊ฒ ํ์ต์ด ๊ฐ๋ฅํ๋ฐ ๋ฐํด, ์๋ฐฉํฅ ์กฐ๊ฑด์ ๊ฐ ๋จ์ด๊ฐ ๊ฐ์ ์ ์ผ๋ก ๊ทธ ๋จ์ด ์์ฒด๋ฅผ ์๋ฏธํ ์ ์์ผ๋ฉฐ, ๋ชจ๋ธ์ ์๋ช
ํ๊ฒ ๋ค์ธต ๋ฌธ๋งฅ ์์์ ๋ชฉํ ๋จ์ด๋ฅผ ์์ธกํ ์ ์๊ธฐ ๋๋ฌธ์
๋๋ค.
์๋ฐฉํฅ ๋ชจ๋ธ์ ํ์ต์ํค๊ธฐ ์ํด ์
๋ ฅ token์ ๋ฌด์์๋ก maskingํ ๋ค์, ๋ฌธ๋งฅ์ ํตํด ํด๋น ๋จ์ด๋ฅผ ์์ธกํ๊ฒ ํ๋ค. ์ด ๊ณผ์ ์ MLM(masked LM)๋ผ ๋ถ๋ฅธ๋ค.
์ด ๊ฒฝ์ฐ, mask token๊ณผ ์ฐ๊ด๋ ์ต์ข
์๋๋ฒกํฐ๋ ํ์ค LM์ฒ๋ผ ๋จ์ด์งํฉ ๋ด ์ถ๋ ฅ softmax๋ก ๋์ด๊ฐ๋ค. Denoising auto-encoder๊ณผ๋ ๋ค๋ฅด๊ฒ ์ ์ฒด ์
๋ ฅ์ด ์๋ masked word๋ง์ ์์ธกํ๋ค.
์ด๊ฒ์ด ์๋ฐฉํฅ ์ฌ์ ํ์ต ๋ชจ๋ธ์ ์ป์ ์ ์๋๋ก ํด์ฃผ์ง๋ง,
[mask]
token์ fine-tuning ๋จ๊ณ์ ๋ํ๋์ง ์๊ธฐ ๋๋ฌธ์ pre-training ๋จ๊ณ์ fine-tuning ๋จ๊ณ ๊ฐ mismatch๊ฐ ์๊ธด๋ค๋ ๋จ์ ์ด ์๋ค. ์ด๋ฅผ ์ํํ๊ธฐ ์ํด, ์ด๋ค token์ ํญ์ [mask]
token์ผ๋ก ๋ฐ๊ฟ๋ฒ๋ฆฌ์ง ์๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก๋,- ํ์ต๋ฐ์ดํฐ ์์ฑ์๋, ์ ์ฒด token ์ค ๋ฌด์์๋ก 15%๋ฅผ ์ ํํ๋ค.
- ์ ์ ๋ ์์น์ token์
- 80%์ ํ๋ฅ ๋กย
[mask]
ย token์ผ๋ก ์นํ๋๊ณ , - 10%์ ํ๋ฅ ๋ก ๋ฌด์์ token์ผ๋ก ์นํ๋๊ณ ,
- 10%์ ํ๋ฅ ๋ก ๊ทธ๋๋ก ๋จ๋๋ค.
ย
Task #2: Next Sentence Prediction(NSP)
QA(Question Answering)๋ NLI(Natural Language Inference) ๋ฑ์ ๋ง์ ์ค์ํ ๋ฌธ์ ๋ ์ธ์ด๋ชจ๋ธ์๋ ์ง์ ์ ์ผ๋ก ํฌ์ฐฉ๋์ง ์๋ ๋ ๋ฌธ์ฅ ์ฌ์ด์ย ๊ด๊ณ(relationship)๋ฅผ ์ดํดํ๋ ๊ฒ์ ๊ธฐ๋ฐํ๋ค. ๋ฌธ์ฅ ๊ฐ ๊ด๊ณ๋ฅผ ๋ชจ๋ธ์ด ํ์ตํ๋๋ก, ์๋ฌด ๋จ์ผ ์ธ์ด ๋ง๋ญ์น์์ ์์ฑ๋ ์ ์๋ ์ด์งํ๋ ๋ค์ ๋ฌธ์ฅ ์์ธก(binarizedย next sentence prediction)์ ์ฌ์ ํ์ต์์ผฐ๋ค.
๊ตฌ์ฒด์ ์ผ๋ก, ํ์ต ์์ ์์ ๋ฌธ์ฅ A์ B๋ฅผ ์ ํํ๋๋ฐ,
- ํ์ต ๋ฐ์ดํฐ์ 50%๋ A์ B๊ฐ ์ด์ด์ง๋ ๋ฌธ์ฅ์ด๊ณ (
IsNext
๋ก ๋ถ๋ฅ๋จ)
- ํ์ต ๋ฐ์ดํฐ์ 50%๋ B๋ A์๋ ์๋ฌด ๊ด๋ จ ์๋ ๋ฌด์์๋ก ์ ํ๋ ๋ฌธ์ฅ(
NotNext
๋ก ๋ถ๋ฅ๋จ)์ด๋ค.
์ด NSP task๋ ํํ ํ์ต์ ๊ธด๋ฐํ ์ฐ๊ด๋์ด ์์ง๋ง, ์ด์ ์ฐ๊ตฌ์์๋ ์ค์ง ๋ฌธ์ฅ embedding๋ง downstream task๋ก ์ด์ (transfer)์ด ๋๋๋ฐ, BERT๋ end-task ๋ชจ๋ธ parameter๋ฅผ ์ด๊ธฐํํ๊ธฐ ์ํด ๋ชจ๋ parameter๋ฅผ ์ด์ ์ํจ๋ค.
ย
Pre-training data
์ฌ์ ํ์ต ๊ณผ์ ์ ์ธ์ด๋ชจ๋ธ ์ฌ์ ํ์ต์์ ์ด๋ฏธ ์๋ ๊ฒ์ ๊ฑฐ์ ๋ฐ๋ผ๊ฐ๋ค. ์ฌ์ ํ์ต ๋ง๋ญ์น๋ก BooksCorpus(800M ๋จ์ด)์ English Wikipedia(2,500M ๋จ์ด)๋ฅผ ์ฌ์ฉํ๋ค. ์ํคํผ๋์์ ๋ํด์๋ ๋ฌธ์ ์ ๋ณด๋ง์ ์ถ์ถํ๋ค.๊ธด ์ฐ์์ seqeunce๋ฅผ ์ถ์ถํ๊ธฐ ์ํด์๋, ์์๊ฐ ์์ธ ๋ฌธ์ฅ๋ค์ ์งํฉ์ธ Billion Word Benchmark๊ฐ์ ๊ฒ๋ณด๋ค๋ ๋ฌธ์๋จ์ ๋ง๋ญ์น๋ฅผ ์ฐ๋ ๊ฒ์ด ๋งค์ฐ ์ค์ํ๋ค.
ย
Fine-tuning BERT
Downstream task์ BERT๋ฅผ ์ ์ฉํ๋ ๊ฒ์ ์๋์ ์ผ๋ก ๋จ์ํ๋ค. ์
๋ ฅ(ํ ๋ฌธ์ฅ ๋๋ ๋ ๋ฌธ์ฅ)์ ๊ฐ์์ ๋ฐ๋ผ (์์ ์ค๋ช
ํ ๊ฒ์ฒ๋ผ) ์๋ง๊ฒ ํ๋์ sequence ๋ก ์์ฑํด์ ๋ชจ๋ธ์ ์
๋ ฅ์ผ๋ก ์ ๊ณตํ๋ค. ๋ ๋ฌธ์ฅ์ด ์
๋ ฅ์ผ๋ก ์ ๊ณต๋ ๊ฒฝ์ฐ, ํ๋์ sequence๋ก ์์ฑํ๊ณ , ๋ ๋ฌธ์ฅ ์ฌ์ด์ self-attention๋ ์ํํ๊ฒ ๋๋ค.
Fine-tuningํ๋ ๋ฐฉ๋ฒ์ task์ ์๋ง๋ ์
๋ ฅ๊ณผ ์ถ๋ ฅ์ ๋ชจ๋ธ์ ์
๋ ฅ์ผ๋ก ์ ๊ณตํด์ ํ๋ผ๋ฏธํฐ๋ค์ ํด๋น task์ ๋ง๊ฒ end-to-end๋ก ์
๋ฐ์ดํธํ๋ค. Token representation์ token level task(sequence tagging, question-answering ๋ฑ) ์ ์
๋ ฅ์ผ๋ก ์ฌ์ฉ๋๋ค. [CLS] ํ ํฐ์ classification์ ์ํํ๊ธฐ ์ํด ์ฌ์ฉ๋๋ค.
Pre-training๊ณผ ๋น๊ตํ์ ๋, fine-tuning์ ์๋์ ์ผ๋ก ์ ์ ๋น์ฉ์ผ๋ก ์ํํ ์ ์๋ค. ํด๋น ๋
ผ๋ฌธ์์ ์ ๊ณตํ๋ ๊ฒฐ๊ณผ๋ค์ ๋๋ถ๋ถ Gloud TPU์์ 1์๊ฐ, ๋๋ GPU์์ ๋ช ์๊ฐ ๋ด์ ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํ๋ค. (๋์ผํ pre-trained ๋ชจ๋ธ์์ fine-tuning์ ํ๋ ์๊ฐ๋ง ๊ณ ๋ คํ์ ๋)
ย
Experiment
GLUE
GLUE benchmark๋ ๋ค์ํ ์์ฐ์ด์ดํด ๋ฌธ์ ๋ค์ ๋ชจ์๋์ ๊ฒ์ด๋ค. ๋ชจ๋ GLUE task์ ๋ํด batch size 32, 3 epochs์ผ๋ก ์คํํ ๊ฒฐ๊ณผ๋ ๋ค์๊ณผ ๊ฐ๋ค.
- ๊ฐ task๋ง๋ค Dev set์์ ์ต์ ์ learning rate๋ฅผ ์ ํํ๋ค.
- BERT_large๋ ์์ dataset์ ๋ํดย fine-tuningย ํ์ต์ด ๋ถ์์ ํ ๋๊ฐ ์์ด์, ๋ฌด์์ ์์์ ์ฌ๋ฌ ๋ฒ ํ์ฌ ๊ฐ์ฅ ์ข์ ๊ฒ์ ์ ํํ๋ค.
BERT_base๋ง์ผ๋ก๋ state-of-the-art ๊ฒฐ๊ณผ๋ฅผ ์ป์์ผ๋ฉฐ, BERT_large๋ ๊ทธ๋ณด๋ค๋ ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ณด์ฌ์ค๋ค.
SQuAD v1.1
Stanford Question Answering Dataset์ 10๋ง์ฌ ๊ฐ์ ์ง๋ต ์์ผ๋ก ๊ตฌ์ฑ๋์ด ์๋ค. ์ง๋ฌธ๊ณผ ๊ทธ์ ๋ํ ๋ต์ ํฌํจํ๋ ์ํคํผ๋์ ์ง๋ฌธ์ด ์ฃผ์ด์ง๋ฉด, ํด๋น ์ง๋ฌธ์์ ๋ต์ด ๋๋ ๋ถ๋ถ์ ์ฐพ๋ ๊ณผ์ ์ด๋ค.
SQuAD v2.0
SQuAD v2.0์ (์งง์) ๋ต์ด ์ง๋ฌธ์ ์๋ ๊ฒฝ์ฐ๋ฅผ ํฌํจ์์ผ ๋ ํ์ฅํ, ๋ ํ์ค์ ์ธ task์ด๋ค.
SWAG
Situations With Adversarial Generations dataset์ 113k๊ฐ์ ๋ฐฐ๊ฒฝ์์์ ํ๊ฐํ๋ ๋ฌธ์ฅ ์์ผ๋ก ๋์ด ์๋ค. ์ด์ด์ง๋ ๋ฌธ์ฅ์ผ๋ก 4๊ฐ ์ค ๊ฐ์ฅ ๊ทธ๋ด๋ฏํ๊ฒ ์ด์ด์ง๋ ๋ฌธ์ฅ์ ๊ณ ๋ฅด๋ ๊ณผ์ ์ด๋ค.
ย
Ablation Studies
: ๋ชจ๋ธ์ด๋ ์๊ณ ๋ฆฌ์ฆ์ โfeatureโ๋ค์ ์ ๊ฑฐํด ๋๊ฐ๋ฉด์ ๊ทธ ํ์๊ฐ ์ฑ๋ฅ์ ์ผ๋ง๋ ์ํฅ์ ๋ฏธ์น๋์ง๋ฅผ ํ์ธํด๋ณด๋ ๊ฒ
(1) Effect of Pre-training Tasks
์ ์ ํํ๊ฒ ๋์ผํ ์ ํํ์ต ๋ฐ์ดํฐ, ํ์ธํ๋ ๊ธฐ๋ฒ, ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ ์ ํํ์ต์ ํ๊ฐํ์ฌ BERT์ ๊น์ ์๋ฐฉํฅ์ฑ์ ์ค์์ฑ์ ์ค๋ช
ํด๋ณด๋ ค ํฉ๋๋ค.
๋ฅผ ์ฌ์ฉํ์ฌ ์ ํํ์ตํ๋๋ฐ ablation์ ์งํํฉ๋๋ค.
- No NSP : ๋ค์ ๋ฌธ์ฅ ์์ธก ํ์คํฌ๋ฅผ ์งํํ์ง ์๊ณ ํ๋ จ ์งํ
- LTR & No NSP : OpenAI GPT์ฒ๋ผ, ๋ค์ ๋ฌธ์ฅ ์์ธก ์์ด ์ข์ธก์์ ์ฐ์ธก์ผ๋ก ์งํ๋๋LM์ ์ด์ฉํ์ฌ ํ๋ จ ์งํ
- +BiLSTM : ํ์ธํ๋์ ์งํํ๋ ๋์ LTR + No NSP ๋ชจ๋ธ์ ์๋จ์ ์ด๊ธฐํ๋ BiLSTM์ ๋๋คํ๊ฒ ์ถ๊ฐํ
NSP๋ฅผ ์ ๊ฑฐํ๋ QNLI, MNLI, SQuAD 1.1.์ ์ฑ๋ฅ์ ์๋นํ ์ ํ๊ฐ ๋ฐ์ํฉ๋๋ค.
No NSP์ LTR & No NSP๋ฅผ ๋น๊ตํ์ฌ ์๋ฐฉํฅ ํํ์ ์ด์ฉํ ํ๋ จ์ ์ํฅ๋ ฅ์ ํ๊ฐํ์์ ๋, LTR ๋ชจ๋ธ์ ๊ฒฝ์ฐ ๋ชจ๋ ํ์คํฌ์ ๋ํ์ฌ MLM ๋ชจ๋ธ๋ณด๋ค ์ฑ๋ฅ์ด ์ข์ง ์๊ณ , ํนํ MRPC์ SQuAD์์๋ ํฌ๊ฒ ์ ํ๋ฉ๋๋ค. SQuAD์ ๋ํด์, LTR ๋ชจ๋ธ์ ํ ํฐ ๋ ๋ฒจ์ hidden states๊ฐ ์ฐ์ธก context๋ฅผ ๊ฐ์ง๊ณ ์์ง ์๊ธฐ ๋๋ฌธ์ ํ ํฐ ์์ธก ์ฑ๋ฅ์ด ์ข์ง ์์ต๋๋ค. ์ด๋ฅผ ๊ฐํํ๊ธฐ ์ํด, ๋ชจ๋ธ ์๋จ์ ์ด๊ธฐํ๋ BiLSTM์ ๋๋คํ๊ฒ ์ถ๊ฐํ์์ต๋๋ค. ๋ฌผ๋ก , ์ด๊ฒ์ด SQuAD์ ๊ฒฐ๊ณผ๋ฅผ ํฅ์์ํค๊ธด ํ์ง๋ง, ์ ํํ์ต๋ ์๋ฐฉํฅ ๋ชจ๋ธ๋ณด๋ค๋ ์ฌ์ ํ ๊ฒฐ๊ณผ๊ฐ ๋งค์ฐ ์ข์ง ์์ต๋๋ค. ๋ํ, GLUE ํ์คํฌ์ ๋ํด์๋ BiLSTM์ด ์ฑ๋ฅ์ ์ ํ์ํค๊ธฐ๋ ํฉ๋๋ค.
ย
ELMo์ ๋์ผํ ๋ฐฉ์์ผ๋ก LTR, RTL ๋ชจ๋ธ๋ค์ ๊ฐ๊ฐ ํ๋ จ์ํจ ํ, ๋ ๋ชจ๋ธ์ ๊ฒฐํฉ์์ผ ๊ฐ ํ ํฐ์ ํํํ๋ ๋ฐฉ์์ด ๊ฐ๋ฅํ ๊ฒ์ด๋ผ๊ณ ์๊ฐํ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋, ๋ค์๊ณผ ๊ฐ์ ์ด์ ๋ก ํด๋น ๋ฐฉ์์ ํจ์ฌ ๋ ๊ฐ๋ ฅํ์ง ์๋ค๊ณ ํ ์ ์์ต๋๋ค.
- ํ๋์ ์๋ฐฉํฅ ๋ชจ๋ธ๋ณด๋ค ๋๋ฐฐ์ ๋น์ฉ์ด ๋ฐ์ํฉ๋๋ค.
- QA ๊ฐ์ ํ์คํฌ์ ๋ํด์, RTL๋ชจ๋ธ์ ๊ฒฝ์ฐ ์ง๋ฌธ๊ณผ ๋ต๋ณ์ ์ฐ๊ฒฐํ ์ ์์ด ๋ค์ ์ง๊ด์ ์ด์ง ์์ต๋๋ค.
- ๊น์ ์๋ฐฉํฅ ๋ชจ๋ธ์ ๊ฒฝ์ฐ ๋ชจ๋ ๋ ์ด์ด์์ ์ข์ฐ context๋ฅผ ๋ชจ๋ ์ฌ์ฉํ ์ ์์ต๋๋ค.
ย
(2) Effect of Model Size
๋ชจ๋ธ์ ์ฌ์ด์ฆ๊ฐ ํ์ธ ํ๋์ ์ ํ๋์ ๋ผ์น๋ ์ํฅ์ ํ์ธํด ๋ด
์๋ค. ๋์ผํ ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๊ณ ํ๋ จ ๊ณผ์ ์ ์์ ์ธ๊ธ๋ ๊ฒ๊ณผ ๋์ผํ๊ฒ ์งํํ๋ฉด์, layer, hidden unit, attention head ์๋ฅผ ๋ค๋ฅด๊ฒํ์ฌ ํ๋ จ์ ์งํํด ๋ณด์์ต๋๋ค.
BERT์ ๋ชจ๋ธ ์ฌ์ด์ฆ์ ๋ํ์ฌ ablation์ ์งํํฉ๋๋ค.
#L : layer ์
#H : hidden unit ์
#A : attention head ๊ฐ์
LM(ppl) : ์ฃผ์ด์ง ํ์ต ๋ฐ์ดํฐ์ ๋ํ Masked LM perplexity(ํ๋ฅ ๋ถํฌ ๋ชจ๋ธ, ์ธ์ด ๋ชจ๋ธ์ด ๋ถํฌ๋ฅผ ์ผ๋ง๋ ์ ์์ธกํ๋์ง ์ธก์ ํ๋ ํ๊ฐ์งํ)
์๋จ์ ํ์์๋, ํ์ธํ๋์ ๋๋คํ๊ฒ 5๋ฒ ์ฌ์์ํ์ ๋ ํ๊ท Dev Set ์ ํ๋๋ฅผ ๋ณด๊ณ ํฉ๋๋ค. 3600๊ฐ์ labeled training example๋ฅผ ๊ฐ์ง๊ณ ์๋, ์ ํํ์ต๊ณผ๋ ์ค์ง์ ์ผ๋ก ๋ค๋ฅธ MRPC๊น์ง๋ 4๊ฐ์ ๋ชจ๋ ๋ฐ์ดํฐ์
์ ๋ํ์ฌ ๋ ํฐ ๋ชจ๋ธ์ผ ์๋ก ์ ํ๋๊ฐ ํฌ๊ฒ ํฅ์๋๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค.
์๋ฅผ ๋ค์ด, ์ด์ ์ ์ฐ๊ตฌ๋ ๊ฐ์ฅ ํฐ Transformer๋ ์ธ์ฝ๋๋ฅผ ํฌํจํ์ฌ 100M๊ฐ์ ํ๋ผ๋ฏธํฐ(L=6, H=1024, A=16)๋ฅผ ๊ฐ์ง ๋ชจ๋ธ์ด๊ณ , ์ ์๊ฐ ๋ฌธํ์์ ์ฐพ์ ๊ฐ์ฅ ํฐ Tranformer๋ 235M๊ฐ์ ํ๋ผ๋ฏธํฐ(L=64, H=512, A=2)๋ฅผ ๊ฐ์ง ๋ชจ๋ธ์ด๋ค. ์ด์ ๋์กฐ์ ์ผ๋ก, ๋ 110M๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ, ๋ 340M๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ํฌํจํฉ๋๋ค.
๊ธฐ๊ณ๋ฒ์ญ, ์ธ์ด ๋ชจ๋ธ๋ง๊ณผ ๊ฐ์ ๋์ฉ๋ ํ์คํฌ์ ๊ฒฝ์ฐ, ๋ชจ๋ธ ์ฌ์ด์ฆ๋ฅผ ํค์ฐ๋ ๊ฒ์ด ๊ณ์ํด์ ์ฑ๋ฅ์ ํฅ์์ํจ๋ค๋ ๊ฒ์ ์ค๋ ์ ๋ถํฐ ์๋ ค์ ธ ์๊ณ , ์ด๋ ์๋จ ํ์ LM Perplexity๋ฅผ ๋ณด๋ฉด ํ์ธํ ์ ์์ต๋๋ค. ๊ทธ๋ฌ๋, ๋ชจ๋ธ์ด ์ถฉ๋ถํ ์ ํํ์ต์ ์งํํ๋ค๋ ์ ์ ํ์, ๋ชจ๋ธ ์ฌ์ด์ฆ๋ฅผ ๊ทน๋จ์ ์ผ๋ก ํ์ฅ์ํค๋ ๊ฒ์ ๋งค์ฐ ์์ ์ค์ผ์ผ์ ํ์คํฌ์ ๋ํด์๋ ํฐ ์ฑ๋ฅ ํฅ์์ ์ด๋์ด ๋ธ๋ค๋ ๊ฒ์ ์
์ฆํ๋ ์ฒซ ์์
์ด๋ผ๊ณ ํ ์ ์์ต๋๋ค.
ย
Peters ์ธ ์ฐ๊ตฌ์ง์ ์ ํํ์ต๋ bi-LM(์๋ฐฉํฅ ์ธ์ด ๋ชจ๋ธ) ํฌ๊ธฐ๋ฅผ 2๊ฐ ์ธต์์ 4๊ฐ ์ธต์ผ๋ก ์ฆ๊ฐ์์ผฐ์ ๋ ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์ ๋ฏธ์น๋ ์ํฅ์ ๋ํด์ ์๊ฐ๋ฆฐ ๊ฒฐ๊ณผ๋ฅผ ์ ์ํ์๊ณ , Melamud ์ธ ์ฐ๊ตฌ์ง์ ๋ฐ๋ฅด๋ฉด ์๋์ธต์ ์ฐจ์ ์๋ฅผ 200์์ 600์ผ๋ก ์ฆ๊ฐ์ํค๋ ๊ฒ์ ๋์์ด ๋์์ง๋ง, 1000 ์ด์์ผ๋ก ๋๋ฆฌ๋ ๊ฒ์ ์ถ๊ฐ์ ์ธ ๊ฐ์ ์ ๋ถ๋ฌ์ค์ง๋ ๋ชป ํ๋ค๊ณ ์ธ๊ธํ์ต๋๋ค. ์ด ๋๊ฐ์ง ์ฐ๊ตฌ์ ๊ฒฝ์ฐ feature ๊ธฐ๋ฐ ์ ๊ทผ์ ์งํํ์์ต๋๋ค. ์ฌ๊ธฐ์ ๋ชจ๋ธ์ด ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์ ๋ํด ์ง์ ์ ์ผ๋ก ํ์ธํ๋๋์ด ์๊ณ , ๋๋คํ๊ฒ ์ด๊ธฐํ๋ ๊ทน์์ ์ถ๊ฐ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ค๊ณ ํ์ ๋, ๋ค์ด์คํธ๋ฆผ ํ์คํฌ๊ฐ ๋งค์ฐ ์๋ค๊ณ ํ๋๋ผ๋ ํ์คํฌ ํนํ ๋ชจ๋ธ์ ๋ ํฌ๊ณ ๋ ํํ๋ ฅ์ด ๋ฐ์ด๋ ์ ํํ์ต๋ ํํ์ผ๋ก๋ถํฐ ์ด์ต์ ์ป์ ์ ์๋ค๊ณ ๊ฐ์ ํฉ๋๋ค.
ย
(3) Feature-based Approach with BERT
์ง๊ธ๊น์ง ์ ์๋ ๋ชจ๋ BERT์ ๊ฒฐ๊ณผ๋ค์ ๊ฐ๋จํ ๋ถ๋ฅ์ธต์ด ์ ํํ์ต๋ ๋ชจ๋ธ์ ์ถ๊ฐ๋๊ณ , ๋ชจ๋ ํ๋ผ๋ฏธํฐ๋ค์ด ๋ค์ด์คํธ๋ฆผ ํ์คํฌ์ ๋ํด ๊ณต๋์ผ๋ก ๋ฏธ์ธ ์กฐ์ ๋๋ ํ์ธํ๋ ๊ธฐ๋ฒ์ ์ฌ์ฉํ์ต๋๋ค. ๊ทธ๋ฌ๋, ์ ํํ์ต๋ ๋ชจ๋ธ๋ก๋ถํฐ ๊ณ ์ ๋ feature๋ค์ด ์ถ์ถ๋๋ feature ๊ธฐ๋ฐ ๋ฐฉ์์ ๊ฒฝ์ฐ ๋ค์๊ณผ ๊ฐ์ ์ด์ ์ด ์กด์ฌํฉ๋๋ค.
- ์ฒซ๋ฒ์งธ๋ก ๋ชจ๋ ํ์คํฌ๋ค์ด Transformer ์ธ์ฝ๋ ๊ตฌ์กฐ๋ก ์ฝ๊ฒ ํํ๋๋ ๊ฒ์ ์๋๊ธฐ ๋๋ฌธ์, ํ์คํฌ ํนํ ๋ชจ๋ธ ๊ตฌ์กฐ๊ฐ ์ถ๊ฐ๋์ด์ผ ํฉ๋๋ค.
- ํ์ต ๋ฐ์ดํฐ์ ๊ณ์ฐ์ด ๋น์ผ ํํ์ ์ฌ์ ์ ํ๋ฒ ๊ณ์ฐํ๊ณ , ํด๋น ํํ๋ค ์์์ ๋ ์ ๋ ดํ ๋ชจ๋ธ๋ก ๋ง์ ์คํ์ ๋๋ฆด ์ ์๋ ๊ณ์ฐ์์ ํฐ ์ด์ต์ด ์์ต๋๋ค.
ย
CoNLL-2003 ๊ฐ์ฒด๋ช
์ธ์ ํ์คํฌ์ BERT๋ฅผ ์ ์ฉํ์ฌ ๋๊ฐ์ง ์ ๊ทผ๋ฒ์ ๋น๊ตํด ๋ณด๊ฒ ์ต๋๋ค. BERT์ ์
๋ ฅ์ผ๋ก, ์ฐ๋ฆฌ๋ ๋์๋ฌธ์๊ฐ ๊ตฌ๋ถ๋๋ WordPiece ๋ชจ๋ธ์ ์ฌ์ฉํ๊ณ , ๋ฐ์ดํฐ์์ ์ ๊ณต๋ ์ ์๋ ์ต๋์ ๋ฌธ์ context๋ฅผ ํฌํจํฉ๋๋ค. ํ์ค์ ์ธ ๊ดํ์ ๋ฐ๋ผ, ํด๋น ๋
ผ๋ฌธ์์๋ ์ด๋ฅผ ํ๊ทธ ์ง์ ํ์คํฌ๋ก ๊ณต์ํํ์ง๋ง ์ถ๋ ฅ์ CRF์ธต์ ์ฌ์ฉํ์ง๋ ์์ต๋๋ค. ์ฒซ๋ฒ์งธ ํ์ ํ ํฐ์ ํํ์ NER ๋ผ๋ฒจ ์
์ ํตํด ํ ํฐ ๋จ์์ ๋ถ๋ฅ๊ธฐ์ ์
๋ ฅ์ผ๋ก ์ฌ์ฉํฉ๋๋ค.
ํ์ธํ๋ ๋ฐฉ์์ ์ ๊ฑฐํ๊ธฐ ์ํด, BERT์ ์ด๋ ํ ํ๋ผ๋ฏธํฐ๋ ํ์ธํ๋ํ์ง ์๊ณ ํ๋ ์ด์์ ์ธต์์ ํ์ฑํ ํจ์๋ฅผ ์ถ์ถํ์ฌ feature ๊ธฐ๋ฐ ๋ฐฉ์์ ์ ์ฉํฉ๋๋ค. ์ด๋ฌํ ๋ฌธ๋งฅ์ ์ธ ์๋ฒ ๋ฉ์ ๋ถ๋ฅ์ธต ์ด์ ์ ๋๋คํ๊ฒ ์ด๊ธฐํ๋ 768์ฐจ์์ 2๊ฐ BiLSTM ์ธต์ ์
๋ ฅ์ผ๋ก ์ฌ์ฉ๋ฉ๋๋ค.
CoNLL-2003 ๊ฐ์ฒด๋ช
์ธ์ ํ์คํฌ์ ๊ฒฐ๊ณผ์
๋๋ค. ํ์ดํผํ๋ผ๋ฏธํฐ์ ๊ฒฝ์ฐ Dev set์์ ์ฌ์ฉ๋์๋ ๊ฒ๋ค์ ์ฑํํ์์ต๋๋ค. Dev, Test ์ ์์ ๊ฒฝ์ฐ ํด๋น ํ์ดํผํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํ๋ฉด์ ๋๋คํ๊ฒ 5๋ฒ ์ฌ์์๋ ๊ฒฐ๊ณผ๋ค์ ํ๊ท ๋ธ ๊ฒฐ๊ณผ์
๋๋ค.
์ ๊ฒฝ์ฐ SOTA ๋ฐฉ์์ผ๋ก ๊ฒฝ์๋ ฅ์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์
๋๋ค. ๊ฐ์ฅ ์ข์ ๊ฒฐ๊ณผ๋ฅผ ๋ธ ๋ฐฉ์์ ๊ฒฝ์ฐ, ์ ํํ์ต๋ Transformer์ ์๋จ 4๊ฐ์ ์๋์ธต์ผ๋ก๋ถํฐ ํ ํฐ ํํ์ ๊ฒฐํฉ์ํค๋๋ฐ, ์ด๋ ์ ์ฒด ๋ชจ๋ธ์ ํ์ธํ๋ํ๋๊ฒ๊ณผ ๋น๊ตํ์ ๋ 0.3 F1๋ฐ์ ์ฐจ์ด๊ฐ ๋์ง ์์ต๋๋ค. ์ด๋ฅผ ํตํด BERT๋ ํ์ธํ๋์ด๋ feature ๊ธฐ๋ฐ ๋ฐฉ์ ๋ชจ๋์ ๋ํด์ ํจ๊ณผ์ ์ด๋ผ๊ณ ์
์ฆํ ์ ์์ต๋๋ค.
ย
Conclusion
์ธ์ด ๋ชจ๋ธ์ transfer learning(= fine-tuning)์ ํตํ ์ค์ง์ ์ธ ํฅ์์ ํ๋ถํ๊ณ ๋น์ง๋์ ์ธ ์ ํํ์ต์ด ์ธ์ด๋ฅผ ์ดํดํ๋ ์ฒด๊ณ์ ์์ด์ ํต์ฌ ํํธ๋ผ๊ณ ํ ์ ์์ต๋๋ค. ํนํ, ์ด๋ฅผ ํตํด ์์์ด ์ ์ ํ์คํฌ์ ๋ํด์๋ ๊น์ ๋จ๋ฐฉํฅ ๊ตฌ์กฐ๋ก๋ถํฐ ์ด๋์ ์ป์ ์ ์๊ฒ ํฉ๋๋ค. ํด๋น ๋
ผ๋ฌธ์ ์์ ๊ฐ์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ๊น์ ์๋ฐฉํฅ ๊ตฌ์กฐ์ ์ผ๋ฐํํ์ฌ ๋์ผํ ์ ํํ์ต ๋ชจ๋ธ์ด ๊ด๋ฒ์ํ NLP ํ์คํฌ๋ฅผ ์ฑ๊ณต์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋๋ก ํ๋ ๊ฒ์
๋๋ค.
ย
์ฝ๋์ค์ต
Dacon ํ๊ตญ์ด ๋ฌธ์ฅ ๊ด๊ณ ๋ถ๋ฅ ๊ฒฝ์ง๋ํ
๊ด๋ จ ๋ด์ฉ : ๋งํฌ https://dacon.io/competitions/official/235875/overview/description
Dataset download
์ฝ๋๋ Kobert ๋ชจ๋ธ ๊ตฌํ ๋ฐ ์ ์ฉ๊ณผ ๋ฐ์ดํฐ์
๊ฐ๋จํ EDA๋ก ๊ตฌ์ฑ๋์ด์์ต๋๋ค.
colab์์ gdirve ์ฐ๊ฒฐ ํ ํ์ผ ๊ฒฝ๋ก ์์ ๋ง ํด์ฃผ๋ฉด ์ฝ๋ ๋์๊ฐ๋๋ค.
Accuracy : 0.736
ย
Reference
BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding https://arxiv.org/pdf/1810.04805.pdf