cleanUrl: 'paper/rs'
μ΄ λ Όλ¬Έμ μ μ νκ² λ λ°°κ²½
- μ λ κΈ°μ‘΄μ μ΄νμ κ°λ°νμκ³ λ μ¬μ©μλ€μ΄ νΈλ¦¬νκ² μΈ μ μλ μ΄νμ κ³ λ―Όνλ€κ° λ°μ΄ν° λΆμμ 곡λΆνκΈ°λ‘ κ²°μ¬νμ΅λλ€. κ·Έμ€μμλ μ νλΈμ λ·νλ¦μ€, λ€μ΄λ² λ΄μ€μ κ°μ΄ μ¬μ©μλ€μ μ 보λ₯Ό λΆμν΄μ μ μ ν 컨ν μΈ λ₯Ό μ 곡νλ κ²μ κ΄μ¬μ΄ λ§μκ³ κ²μμ ν΄λ³΄λ μ΄λ μΆμ²μμ€ν μ΄λΌλ κ²μ μκ² λμμ΅λλ€. ν₯ν μ λ§μ μΆμ²μμ€ν μ λ§λ€κ³ μΆκΈ°λνκ³ ν μ€νΈ λ§μ΄λμλ κ΄μ¬μ΄ λ§μ μν리뷰λ₯Ό κ°μ λΆμνμ¬ μΆμ²νλ μ΄ λ Όλ¬Έμ μ ννκ² λμμ΅λλ€.
Β
Β
Abstract
κ°μΈμκ² λ§μΆ€ν μλΉμ€λ₯Ό μ 곡νκΈ° μν΄ νμ
νν°λ§μ΄ λ§μ΄ μ¬μ©λκ³ μμ§λ§ μ λμ μΈ μ 보μλ§ κ΅νν΄μ λΆμμ΄ μ΄λ€μ§κ³ μμ΅λλ€. λ μ νν μΆμ²μ μν΄μλ 리뷰μ κ°μ μ μ±μ μΈ λΆλΆλ€λ λΆμν΄μΌ νκ³ μ΄ λ
Όλ¬Έμ ν
μ€νΈ κ°μ λΆμμ νμ©νμ¬ μΆμ²μμ€ν
μ μ±λ₯μ ν₯μμν€λ κ²μ λͺ©νλ‘ νκ³ μμ΅λλ€. κΈ°μ‘΄μ μ°κ΅¬λ€μ ν
μ€νΈ κ°μ±λΆμμ μ§μ μ μΌλ‘ λ°μνμ§ λͺ»νμ§λ§ λ³Έ μ°κ΅¬λ κ°μ±μ μμΉννμ¬ νμ μ λ°μνλ κ²μ λͺ©νλ‘ νκ³ μμ΅λλ€.
Β
Introduction
μ λ³΄κ° μμμ§κ³ μλ μν©μμ λμκ² μ ν©ν μ 보λ₯Ό μ°ΎκΈ°λ μ¬μ΄μΌμ΄ μλλλ€. κ·Έλ κΈ°μ μΆμ²μμ€ν
μ μ 보μ νμμμμ μ΄κ³ μλ μ°λ¦¬λ€μκ² λ무λ νμνκ³ μ€μν μλΉμ€λΌκ³ μκ°ν©λλ€. κ·Έλ¬λ κ³Όκ±°μ μ°κ΅¬λ€μ μ λμ μΈ λΆμμ λ§μ μ΄μ μ λκ³ μμ΅λλ€. κ°μ₯ λνμ μΈ μ§νλ‘λ νμ μ μ¬μ©νμλλ° κ°μ νμ μ΄λΌλ κ΅μ₯ν μμ΄ν 리뷰λ₯Ό λ¨κΈΈ μ μμμ μμ£Ό λ³Ό μ μμμ΅λλ€. λ°λΌμ μ μ±μ μΈ λΆμμ΄ μ€μν΄ μ§κ³ μκ³ μ΄λ₯Ό ν
μ€νΈ κ°μ λΆμμ ν΅ν΄ μμΉννμ¬ μΆμ²μμ€ν
μ μ±λ₯μ ν₯μν΄ λ³΄λ €λ λͺ©μ μ κ°μ§κ³ μμ΅λλ€.
Β
Model/Architecture
1. λ°μ΄ν° μμ§(Web Crawling)
κΈ°λ³Έμ μΌλ‘ μν νμ κ³Ό 리뷰μ λν΄ λΆμνλ κ²μ΄κΈ° λλ¬Έμ λ°μ΄ν°κ° νμν©λλ€. μ΄ λ
Όλ¬Έμμλ λ€μ΄λ²μνλΌλ νμ΄μ§μμ μΉν¬λ‘€λ¬λ₯Ό μ¬μ©νμ¬ μ¬μ©μκ° λ¨κΈ΄ νμ , 리뷰λ₯Ό μμ§νμμ΅λλ€.
Β
2. λ°μ΄ν° νλ³Έ μΆμΆ(Sampling)
νμ μ λΆμ¬ν μνλ³΄λ€ νμ μ λΆμ¬νμ§ μμ μνκ° λ§κ² λλ©΄ λ°μ΄ν°κ° ν¬μν λ¬Έμ κ° λ°μν©λλ€. λ°λΌμ μ΄ μ°κ΅¬μμλ μ μ΄λ 10κ°μ΄μμ μνμ λν΄ νμ μ λ¨κΈ΄ μ¬μ©μμ λ°μ΄ν°λ§ μΆμΆνμμ΅λλ€.
Β
3. νμ μ κ·ν(Noramlization)
μ¬λλ§λ€ νμ μ μ£Όλ κΈ°μ€μ΄ λ€λ₯΄κΈ° λλ¬Έμ λ λͺ
μ΄ κ°μ λλμ λ°μλ€ νλλΌλ λ€λ₯Έ νμ μ μ€ μ μμ΅λλ€. μ΄λ₯Ό 보μ ν΄ μ£ΌκΈ° μν΄ νκ°μ±ν₯μ λ°νμΌλ‘ λ°μ΄ν°λ₯Ό μ κ·ννλ κ³Όμ μ μ§ννμ΅λλ€.
Β
4. 리뷰 - μ μ²λ¦¬(Preprocessing)
μ°μ λΆνμν λ¨μ΄, νΉμλ¬Έμ, λ¬Έμ₯λΆνΈ, μλ¬Έμ, μ«μλ₯Ό μ κ±°νκ³ λΌμ΄λ
Έ λΌμ΄λΈλ¬λ¦¬λ₯Ό νμ©νμ¬ λΆμμ λ§μ΄ μ¬μ©λλ λͺ
μ¬, λμ¬, νμ©μ¬λ§ μ λ³νμ¬ μΆμΆνμμ΅λλ€.
Β
5. 리뷰 - κ°μ λΆμ(Sentiment Analysis)
- 리뷰 λ°μ΄ν° μμ§
μ¬μ μ ꡬμΆνκΈ° μν΄ λ€μ΄λ²λ©μμ μ 곡νλ λ°μ΄ν°λ₯Ό μ΄μ©ν΄ νμ 1~3μ μ λΆμ μΈ 0μΌλ‘ 9~10μ μ κΈμ μΈ 1λ‘ labelμ λΆμ¬ν©λλ€.
Β
- 리뷰 λ°μ΄ν° μ μ²λ¦¬
λΌμ΄λ
Έ λΌμ΄λΈλ¬λ¦¬λ₯Ό νμ©νμ¬ ννμλ₯Ό λΆμν ν λͺ
μ¬, λμ¬, νμ©μ¬λ§ μΆμΆν©λλ€.
Β
- μ¬μ ꡬμΆ
μ μ²λ¦¬λ₯Ό λ§μΉ 리뷰λ°μ΄ν°λ₯Ό DTM νλ ¬λ‘ λ§λλλ€. λ λ¨μ΄μ μ€μμ± μ λλ₯Ό λνλ΄λ TF-IDFλ₯Ό μ’
μ λ³μλ‘ νκ³ μ μ²λ¦¬μμ λ§λ€μ΄μ€ 0,1 labelκ°μ μ’
μλ³μλ‘ μ¬μ©νλ€. μ¬μ μ ꡬμΆνλ λ°©μμΌλ‘λ νκ·λΆμμ μ¬μ©νκ³ λ¦Ώμ§νκ·, λΌμνκ·, μλΌμ€ν±λ· νκ· μ€ μ νλκ° λμ κ²μ μ¬μ©ν μμ μ
λλ€.
Β
νκ·λΆμμ ν΅ν΄ λμ¨ κ°μ΄ 0λ³΄λ€ ν΄κ²½μ°μλ κΈμ μ¬μ μ μΆκ°νκ³ 0λ³΄λ€ μμ κ²½μ°μλ λΆμ μ¬μ μ λ¨μ΄λ₯Ό μΆκ°νμ¬ κ°μ±μ¬μ μ ꡬμΆν©λλ€.
Β
- μ¬μ μ νμ± κ²μ
Setiment Score
Β
Accuracy
ν
μ€νΈ λ°μ΄ν°μ κ°μ± μ μλ₯Ό μ°μΆνμ¬ κ°μ± μ μκ° 0λ³΄λ€ ν° κ²½μ°μλ κΈμ , 0λ³΄λ€ μμ κ²½μ°μλ λΆμ μΌλ‘ νκ°νλ©° κ²°κ³Όλ₯Ό μμ μ νλ μμ μ¬μ©ν΄μ νκ°ν©λλ€.
- Lasso νκ·
- Ridge νκ·
- ElasticNetνκ·
μ€μμ ElasticNet νκ·κ° κ°μ₯ λμ μ νλλ₯Ό 보μ¬μ μ΄ λͺ¨λΈμ μ μ νμμ΅λλ€.
6. κ°μ μμΉλ₯Ό λ°μν νμ
μλ‘μ΄ νμ μ κ°μ± μμΉ(Setiment Score)μ νμ μ ν©νμ¬ ννν©λλ€.
7. νμ μμΈ‘
νμ μμΈ‘μλ λ©λͺ¨λ¦¬κΈ°λ°μ Collaborative Filtering, λͺ¨λΈκΈ°λ°μ Matrix Factorizationμ λν μκ³ λ¦¬μ¦μΈ SVD, SVD++λ₯Ό νμ©νμ¬ λΆμνμμ΅λλ€.
Β
νΌμ΄μ¨ μκ΄κ³μ
Β
IBCF
SVD(νλ ¬ λΆν΄μ λνμ μΈ λ°©μ)
SGD(SVDλ‘ λνλΈ Cost Functionμ minκ°μ μ°ΎκΈ° μν΄ Gradient Descentλ₯Ό νμ©νλ λ°©λ²)
SGD++(sparseν κ²½μ° SVDκ° μ μλμ§ μμ μ μλλ° μ΄λ₯Ό 보μνμ¬ implicit feedbackμλ μ μ©ν μ μλ λ°©λ²)
λΆμ κ²°κ³Ό λͺ¨λ μΆμ² μκ³ λ¦¬μ¦μμ μ±λ₯μ΄ ν₯μλ μ¬μ€μ νμΈν μ μμμ΅λλ€.