๋
ผ๋ฌธ ์ ๋ชฉ | DFinder : a novel end-to-end graph embedding-based method to identify drug-food interactions
์ ์ | Tao Wang, Jinjin Yang, Yifu Xiao, Jingru Wang, Yuxian Wang, Xi Zeng, Yongtian Wang and Jiajie Peng
์ผ์ | 2023.02.03.
ย
Bioinformatics ๋ถ์ผ๋ฅผ ๋ ์ฌ๋ฆฌ๋ฉด ๋๋ถ๋ถ ๋ฐฉ๋ํ ์ ์ ์ ๋ณด์ธ DNA๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํน์ ํ์ง์ ๋ฐํ ์ฌ๋ถ๋ฅผ ์์ธกํ๋ ๋ฐ ๊ธฐ๋ฐ์ด ๋๋ค๋ ์ธ์์ด ์กด์ฌํฉ๋๋ค. ํ์ง๋ง ๊ทธ ๋ฐ์ Bioinformatics ์ฐ๊ตฌ ๋ถ์ผ๋ฅผ ์๊ฐํ๋ฉด์๋ ์๋ช
๋ถ์ผ ๋ด์์ ๋ ๋ค๋ฅธ ์ธ๋ถ์ ์ธ ์์ญ์ธ ์ํ์ Computational Approach๊ฐ ์ด๋ป๊ฒ ์ ์ฉ๋๊ณ ์๋์ง ์๊ฐํ๊ณ ์ถ์ด ํด๋น DFinder ๋
ผ๋ฌธ์ ์ ์ ํ๊ฒ ๋์์ต๋๋ค.
์๊ฐ์ด ๋ถ์กฑํ๋ค๋ฉด ๐ย ์ธ์คํ ๊ฒ์๊ธ ๋งํฌ
ย
0. ์ฝ๊ธฐ ์ ์ฐธ๊ณ ํ๋ฉด ์ข์ ์ฌ์ ์ง์1. Introduction1.1. ์ฐ๊ตฌ ๋๊ธฐ ์๊ฐ1.2. ์์ฌ์ 2. Materials and Methods2.1. Experimental Setup2.2. link prediction2.3. Dataset ๋ง๋ จ ๋ฐฉ๋ฒ ๋ฐ ๋ชจ๋ธ ์๊ณ ๋ฆฌ์ฆ3. ๊ฒฐ๊ณผ3.1. ์ฑ๋ฅ ํ๊ฐ ์ ์ฐจ3.2. Performance Evaluation on DrugBank-DFI 3.3. Performance Evaluation on PubMed-DFI4. ๋
ผ๋ฌธ์ ํ์ฉ ๊ฐ์น
ย
0. ์ฝ๊ธฐ ์ ์ฐธ๊ณ ํ๋ฉด ์ข์ ์ฌ์ ์ง์
DNN
DNN์ ๋ํด ๋จผ์ ์๊ธฐ ์ ์ธ๊ณต์ง๋ฅ, ๋จธ์ ๋ฌ๋, ๋ฅ๋ฌ๋์ ๋ํด ๋จผ์ ์์๋ณผ ํ์๊ฐ ์์ต๋๋ค.
- ์ธ๊ณต์ง๋ฅ : ์ธ๊ฐ์ ์ง๋ฅ์ ๊ธฐ๊ณ ๋ฑ์ ์ธ๊ณต์ ์ผ๋ก ๊ตฌํํ ๊ฒ์ ๋งํฉ๋๋ค;
- ๋จธ์ ๋ฌ๋ : ์ปดํจํฐ๊ฐ ํ์ตํ ์ ์๋๋ก ํ๋ ์๊ณ ๋ฆฌ์ฆ๊ณผ ๊ธฐ์ ์ ๊ฐ๋ฐํ๋ ๋ถ์ผ๋ฅผ ๋ปํฉ๋๋ค.
- ๋ฅ๋ฌ๋ : ์ฌ๋ฌ ๋น์ ํ ๋ณํ๊ธฐ๋ฒ์ ์กฐํฉ์ ํตํด ๋์ ์์ค์ ์ถ์ํ(๋ค๋์ ๋ณต์กํ ์๋ฃ๋ค์์ ํต์ฌ์ ์ธ ๋ด์ฉ๋ง์ ์ถ๋ ค๋ด๋ ์์ )์ ์๋ํ๋ ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ ์งํฉ์ ๋๋ค.
ย
๋จธ์ ๋ฌ๋์ ํ ๋ถ์ผ์ธ ๋ฅ๋ฌ๋์ ์ธ๊ณต์ ๊ฒฝ๋ง(ANN, Artificial Neural Network)์ ๊ธฐ์ด๋ก ํ๊ณ ์์ต๋๋ค. ANN์ ์ธ๊ณต ๋ด๋ฐ์ธ Node์ ๋น์ ํ๋ค๋ฉด ๋ค์ด์จ ์๊ทน์ ANN์์ Input Data์ด๋ฉฐ ์ต์ํ์ ์ ํธ ์ ๋ฌ ์๊ฑด์ธ ์๊ณ๊ฐ์ ๊ฐ์ค์น(Weight), ์๊ทน์ ์ํด ํ๋์ ํ๋ ๊ฒ์ Output Data์
๋๋ค.
์ ๊ฒฝ๋ง์ ์
๋ ฅ์ธต, ์ถ๋ ฅ์ธต๊ณผ ๊ทธ ์ฌ์ด์ ์๋์ธต์ด ์กด์ฌํฉ๋๋ค. ์ฌ๊ธฐ์ ์๋์ธต์ ์์ ๋
ธ๋์ ๊ฐ์๋ฅผ ๊ตฌ์ฑํ๋ ๊ฒ์ ๋ชจ๋ธ์ ๊ตฌ์ฑํ๋ค๊ณ ํฉ๋๋ค. ์ด ๋ชจ๋ธ์ ์ ๊ตฌ์ฑํ์ฌ ์ํ๋ Output ๊ฐ์ ์ ์์ธกํ๋ ๊ฒ์ด ์ต์ข
๋ชฉํ์ด๊ณ ์๋์ธต์์๋ ํ์ฑํ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ์ต์ ์ ๊ฐ์ค์น์ ํธ์ฐจ๋ฅผ ์ฐพ์๋ด๋๋ฐ ์ต์ ์ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๋ ๊ณผ์ ์ด ์ด๋ ต๊ณ ์๋์ธต์ ๊ฐ์๊ฐ ํ์ต ์๊ฐ์ ๋ง์ ์ํฅ์ ๋ฏธ์น๋ค๋ ๋ฌธ์ ์ ์ด ์์ต๋๋ค.
์ด๋ฌํ ANN ๊ธฐ๋ฒ์ ์ฌ๋ฌ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ณ ์๋์ธต์ ๋๋ฆฌ๋ฉด์๋ ํ์ต์ ๊ฒฐ๊ณผ๋ฅผ ํฅ์ํ ๋ฐฉ๋ฒ์ DNN(Deep Neural Network)์ด๋ผ๊ณ ํฉ๋๋ค. DNN์ ์์ฉํ ์๊ณ ๋ฆฌ์ฆ์ด CNN, RNN์ธ ๊ฒ์ด๊ณ ์ด ์ธ์๋ LSTM ๋ฑ์ด ์์ต๋๋ค.
ย
ReLu ํจ์
ReLu ํจ์๋ ์๋์ธต์์ ๋ง์ด ์ฌ์ฉ๋๋ ํจ์์
๋๋ค. ReLu ํจ์๋ ๋ฅ๋ฌ๋ ์ญ์ฌ์ ์์ด ํ ํ์ ๊ทธ์ ํ์ฑํ ํจ์์ธ๋ฐ, ReLu ํจ์๊ฐ ๋ฑ์ฅํ๊ธฐ ์ด์ ์ ์ถ๋ ฅ ๊ฐ์ ๋ฒ์๊ฐ 0์์ 1 ์ฌ์ด์ด๊ณ ๋ ์ด์ด(Layer)๋ฅผ ๊ฑฐ์น๋ฉด ๊ฑฐ์น ์๋ก ๊ฐ์ด ๋๋ฌด ์์์ ธ์ Vanishing Gradient ๊ธฐ์ธ๊ธฐ ์์ค ํ์์ด ๋ฐ์ํ๋ ์๊ทธ๋ชจ์ด๋ ํจ์๋ฅผ ํ์ฑํ ํจ์๋ก ์ฌ์ฉํ์์ต๋๋ค.
ReLu ํจ์๋ ๊ธฐ์ธ๊ธฐ ์์ค ๋ฌธ์ ๊ฐ ๋ฐ์ํ์ง ์์ต๋๋ค. ์์๋ ๊ทธ๋๋ก, ์์๋ 0์ผ๋ก ๋ฐํํ๊ธฐ ๋๋ฌธ์ ์ถ๋ ฅ๊ฐ์ ๋ฒ์๊ฐ ๋๊ณ ์์์ผ ๋ ์๊ธฐ ์์ ์ ๊ทธ๋๋ก ๋ฐํํ๊ธฐ ๋๋ฌธ์
๋๋ค. ๋ํ, ๊ธฐ์กด ํ์ฑํ ํจ์์ ๋นํด ํธ๋ฏธ๋ถ์ผ๋ก ๊ธฐ์ธ๊ธฐ๋ฅผ ๊ตฌํ ๋ 1๋ก ์ผ์ ํ๋ฏ๋ก ๊ฐ์ค์น ์
๋ฐ์ดํธ ์๋๊ฐ ๋งค์ฐ ๋น ๋ฆ
๋๋ค. ๊ทธ๋ฌ๋ ์
๋ ฅ๊ฐ์ด ์์๋ฉด ๊ธฐ์ธ๊ธฐ๊ฐ 0์ด ๋์ด ๊ฐ์ค์น ์
๋ฐ์ดํธ๊ฐ ์ ๋๋ ํ์์ด ๋ฐ์ํ ์ ์์ต๋๋ค. ๊ฐ์ค์น๊ฐ ์
๋ฐ์ดํธ๋๋ ๊ณผ์ ์์ ๊ฐ์ค์น ํฉ์ด ์์๊ฐ ๋๋ ์๊ฐ ๋ ๋ฃจ๋ 0์ ๋ฐํํ๊ธฐ ๋๋ฌธ์ ํด๋น ๋ด๋ฐ์ ๊ทธ ์ดํ๋ก 0๋ง ๋ฐํํ๋ ํ์์ด ๋ฐ์ํ ์ ์์ต๋๋ค.
ย
DFIs
Drug-Food Interactions์ ์ฝ์๋ก "์ญ์ทจํ๋ค"๋ ๊ณตํต์ ์ด ์๋ ์ํ๊ณผ ์ฝ์ ์ํธ์์ฉ์ ๋ํด ์ฐ๊ตฌํ๋ ํ๋ฌธ์
๋๋ค. ์ฝ๋ฌผ์ ์์, ์๋ฃ, ๋ณด์ถฉ์ ํน์ ๋ ๋ค๋ฅธ ์ฝ๋ฌผ๊ณผ ํจ๊ป ๋จน์์ ๋ ๋ํ๋๋ ์ฝ๋ฌผ์ ํจ๋ฅ์ ๋งํฉ๋๋ค.
ย
ย
1. Introduction
1.1. ์ฐ๊ตฌ ๋๊ธฐ ์๊ฐ
Drug-Food Interactions (DFIs)๋ ์์์ ๊ตฌ์ฑ์์๊ฐ ์ด๋ป๊ฒ ์ฝ์ ํจ๋ฅ์ ์ํฅ์ ๋ฏธ์น ์ง ์ฝ์ญํ ๋ฑ ์ํธ ์์ฉ์ ์ฐ๊ตฌํ๋ Bioinformatics ๋ถ์ผ ์ค ํ ์ฃผ์ ์
๋๋ค.
ย
DFIs๋ ์๋ฃ, ์๋ฌผ์ํ ์์ ์์ ์์๋์๋๋ฐ ์ ํ์ ์ธ ์ฝ๊ณผ ์ํ ์ข
๋ฅ๋ง ๋ค๋ฃจ๊ณ ์๋ค๋ ์ , DFIs์ ๋๋ถ๋ถ์ด ์๊ฐ๊ณผ ์ฐ๊ตฌ๋น๊ฐ ๋ง์ด ๋๋ "์ด๋ป๊ฒ ์ํ์ด ์ฝ์ ํจ๊ณผ์ ์ํฅ์ ๋ฏธ์น๋์ง"์ ๋ํ ์๋ช
๊ณตํ์ ๊ฒฐ๊ณผ๋ฅผ ๋ฐํ๋ ๊ฒ์๋ง ์ง์คํ๊ณ ์๋ค๋ ์ ์์ ํ๊ณ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค. ๋ํ, ์์ง์ DFI ๋ฐ์ดํฐ์
์ด ๋ถ์กฑํ๊ณ ์ํ์ ๋ง์ ํํ๋ฌผ์ง๋ก ๊ตฌ์ฑ๋์ด์๋ ๋ณตํฉ์ฒด์ด๊ธฐ ๋๋ฌธ์ DFI๋ฅผ ์ ํ์
ํ ์ ์๋, ์ ๊ตฌ์ถ๋ ์ปดํจํฐ์ ์ ๊ทผ ๋ฐฉ์์ด ๋ง์ด ์๋ค๋ ๋ฌธ์ ์ ์ด ์์ต๋๋ค. ๋ฐ๋ผ์ ์ฐ๊ตฌ์๋ค์ ์ํ์ ํน์ง์ โ์โ ์ถ์ถํ์ฌ ํ์ตํ๊ณ ์ฝ๊ณผ ์ํ ๊ฐ ์ํธ์์ฉ์ ์์ธกํ๊ธฐ ์ํด ๋
ผ๋ฌธ์ ์์ฑํ์์ต๋๋ค.
ย
1.2. ์์ฌ์
๋
ผ๋ฌธ์์ ์ ์ํ ๋ฐ์ดํฐ ์
๊ตฌ์ฑ ๋ฐฉ๋ฒ๊ณผ ๋ชจ๋ธ์ ๊ฐ์น๋ฅผ ๊ฐ๋ตํ๊ฒ ์์ฝํ์ฌ ์ค๋ช
ํ๋ ค๊ณ ํฉ๋๋ค.
DFI Data๋ DrugBank-DFI์ PubMed-DFI๋ผ๋ 2๊ฐ์ ๋ฐ์ดํฐ ์
์ ๊ตฌ์ถํ์์ต๋๋ค. DFinder๋ End-to-end Embedding-based Method๋ก ์ฝ๊ณผ ์ํ ์์์ ๊ฐ ํน์ง์ ํ์ตํ์ฌ DFIs๋ฅผ ํ์ธํ๊ธฐ ์ํด ๊ตฌ์ฑ๋ ๋ชจ๋ธ์
๋๋ค. ํด๋น ๋ชจ๋ธ์ Deep Neural Network๋ฅผ ์ด์ฉํ์ฌ ๊ธฐ์กด ๋
ธ๋ ํน์ฑ์ผ๋ก๋ถํฐ ํน์ง์ ์ถ์ถํ๋ <Attribute Feature Extraction> ๋ถ๋ถ๊ณผ Graph Convolution Network-based Method ๊ธฐ๋ฐ์ <Structure Feature Extraction> ํํธ๋ก ๋๋์ด์ ธ ์์ต๋๋ค.
ํด๋น ๋
ผ๋ฌธ์ ์๊ฑด์ ์ฝ๊ณผ ์์์ ์๊ด๊ด๊ณ๋ฅผ ํ์
ํ๋ DFIs ๋ถ์ผ์์ DFinder ๋ชจ๋ธ์ ์ด์ฉํ์ฌ ๋ฐ์ดํฐ ์
์ ํ์ตํ๋ฉด ๋ค๋ฅธ ๊ธฐ์กด์ ๋ชจ๋ธ๋ณด๋ค ๋ ๋์ ์ฑ๋ฅ์ ๋์ด๋ผ ์ ์๋ค๋ ๊ฒ์
๋๋ค.
ย
ย
2. Materials and Methods
2.1. Experimental Setup
DFI network๋ฅผ ํตํด์ DFinder ๋ชจ๋ธ๋ก DFIs๋ฅผ ์๋ณํ๋ ๊ฒ์ด ๋ชฉํ์
๋๋ค. ํด๋น ๋
ผ๋ฌธ์ DFI Network cConstruction๊ณผ Computational Framework for DFI Prediction์ด๋ผ๋ ์ด 2๊ฐ์ ํํธ๋ก ๊ตฌ์ฑ๋์ด ์๊ณ ๊ฐ๋ตํ๊ฒ ์์ฝ์ ํ๋ฉด ์๋์ ๊ฐ์ต๋๋ค.
- DFI Network Construction
- DFinder ๋ชจ๋ธ์ ์ด์ฉํ๊ธฐ ์ ์ฝ ๊ด๋ จ ๋ฐ์ดํฐ๋ฅผ ์ด๋ป๊ฒ ์์งํ๋๊ฐ์ ๋ํ ๋ด์ฉ์ ๋๋ค.
- DrugBank Database์์ DrugBank-DFI Dataset๋ฅผ ์ถ์ถํ์์ต๋๋ค.
- PubMed์์ ํ ์คํธ ๋ง์ด๋ ๊ธฐ๋ฒ์ ํตํด PubMed-DFI Dataset์ ์ถ์ถํ์์ต๋๋ค.
- ์ ๋ Dataset์ ๊ธฐ๋ฐ์ผ๋ก ๊ฐ๊ฐ์ DFI Network๋ฅผ ๊ตฌ์ถํ์์ต๋๋ค.
- Computational Framework for DFI Prediction
- ๋ชจ๋ธ ์๊ณ ๋ฆฌ์ฆ์ ๋ํ ๋ด์ฉ์ ๋๋ค.
- Bayesian Personalized Ranking (BPR) Loss ๋ฐฉ์์ผ๋ก ์ต์ ํ๋ฅผ ํ์์ต๋๋ค.
๊ฐ ํญ๋ชฉ์ ๋ํ ์ธ๋ถ ์ค๋ช
์ ์๋์ ๊ฐ์ต๋๋ค.
ย
2.2. link prediction
DFIs๋ Drugs์ Food๊ฐ ์ด๋ถ ๊ทธ๋ํ์ ๋
ธ๋์ด๊ณ ์ด๋ค ๊ฐ ๊ด๊ณ๊ฐ ์ฃ์ง์ธ ๋คํธ์ํฌ๋ก ํํ๋ ์ ์๊ธฐ ๋๋ฌธ์ ์ด๋ถ ๊ทธ๋ํ(๋คํธ์ํฌ)๋ Biomedical Entities ๊ฐ(์ฌ๊ธฐ์๋ ์ฝ-์ํ) ์ํธ์์ฉ์ ์์ธกํ๋๋ฐ ์ฐ์ผ ์ ์์ต๋๋ค. ์ด๋ฌํ Link Prediction ๋ถ์ผ์์ ์ฌ์ฉ๋๋ ๊ทธ๋ํ ๋ถ์ ๋ฐฉ์์ด Embedding Method์
๋๋ค. DFinder ๋ชจ๋ธ์ ์ด๋ฌํ ์๋ฒ ๋ฉ ๋ฐฉ์์ ์ฐจ์ฉํ์ผ๋ฉฐ ์
๋ ฅ ๋ฐ ์ถ๋ ฅ์ ์ง์ ๊ณ ๋ คํ์ฌ ๋คํธ์ํฌ ๊ฐ์ค์น๋ฅผ ์ต์ ํ ํ๋ ํ์ต์ ์ข
๋จ ๊ฐ ํ์ต(End-to-End Learning)์ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ถ๋์์ต๋๋ค.
ย
2.3. Dataset ๋ง๋ จ ๋ฐฉ๋ฒ ๋ฐ ๋ชจ๋ธ ์๊ณ ๋ฆฌ์ฆ
๋จผ์ ์ด๋ป๊ฒ DFI ๋ฐ์ดํฐ๋ฅผ ์์งํ์ฌ DFI Networks๋ฅผ ๊ตฌ์ถํ์๋์ง์ ๋ํ ๋ด์ฉ์
๋๋ค.
ย
<DFI Network Construction>
- DFI Network Based on DrugBank
- DrugBank : ์ฝ๋ฌผ ์ํธ์์ฉ, ์ฝ๋ฆฌํ, ํํ ๊ตฌ์กฐ, ํ๊ฒ, ๊ธฐ์ ๋ฑ์ ํน์ ์ฝ์ ๋ํ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ ์ฌ์ดํธ์ ๋๋ค.
- DrugBank ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ DFI์ ๋ํ ์ ๋ณด๋ฅผ ๋ด๊ณ ์๋ 3000๋ฌธ์ฅ์ ํฌํจํ๋ DFI ๋ฐ์ดํฐ(XML ํํ)๋ฅผ ์์งํ์์ต๋๋ค.
- ํ์ง๋ง "๊ณต๋ณต์ ๋์ธ์.", "์์ ์ ์ด๋ 1์๊ฐ ์ ์ ๋์ธ์."์ ๊ฐ์ด ์ฝ ๋ณต์ฉ ์ ์๊ฐ์ ๋ํ๋ด๋ ํํ๊ณผ "์ด ์ฝ์ ์์๊ณผ ํจ๊ป ๋์ธ์"์ฒ๋ผ ํน์ ์์์ ์ง์นญํ์ง ์์ ์ฝ๊ณผ ๋ช ํํ ์๊ด๊ด๊ณ๋ฅผ ๋ณด์ฌ์ฃผ์ง ์๋ ๋ฌธ์ฅ์ ์ญ์ ํ์์ต๋๋ค.
- ์์ ๊ตฌ์ฑ ์์์ ์ฝDrug ๊ฐ ๋ถ๋ช ํํ ๊ด๊ณ๋ฅผ ๋ํ๋ด๋ ๋ฌธ์ฅ์ ์ ๊ฑฐํ์์ต๋๋ค.
- FOODB : ์ํ ๋ด ์์์ ์ ๋ณด์ ์ด ์งํฉ์ ๋๋ค.
- DFIs์ ํฌํจ๋ ์์ ์ ๋ณด๋ ์๋ณด์นด๋, ์น์ฆ์ ๊ฐ์ ์์ ํํ์ ๋นํ๋ฏผC, ์์ฐ๊ณผ ๊ฐ์ ์์์ ํํ๋ก ๋๋ ์ ์์ต๋๋ค. ์ํ์ ์์ ๋ด ์กด์ฌํ๋ ์์ 20๊ฐ์ ์์์๋ก ๋์ฒดํ์ฌ ์ค์ง์ ์ผ๋ก ์ฝ๊ณผ ์์์ ๊ฐ ์ํธ์์ฉ์ ํ์ ํ๋ ค๊ณ ํ์์ต๋๋ค.
ย
- DFI Network Based on PubMed
- Co-Occurrence-Based Text Mining Method
- ๋์์ฑ์ ์ด์ฉํ์ฌ ๊ฐ์ ๋ฌธ์ ๋ด ์ธ๊ธ๋๋ ๋ ๋ ๋ฆฝ์ฒด(๊ฐ๊ฐ ์ํ๊ณผ ์ฝ)๋ ์ฐ๊ด ๊ด๊ณ๊ฐ ๋๋ค๋ ๊ฐ์ ์ ํตํด ์ํ-์ฝ ์(Pair)์ ๋ง๋๋ ํ ์คํธ ๋ง์ด๋ ๊ณผ์ ์ ๊ฑฐ์ณค์ต๋๋ค.
- ๊ด๋ จ 3๊ฐ์ง ๊ท์น
- 1) 20๋ฒ ์ด์์ ์ฝ-์์ ๊ตฌ์ฑ ์์ ์์ ๋์์ฑ์ด ํ์ธ๋์์ ๋๋ง DFIs ์ฐ๊ตฌ๋ก์จ ์ํ๊ณผ ์ฝ์ ์ํธ ์ฐ๊ด์ฑ์ด ์๋ค๋ ๊ฒ์ ์ธ์ ํฉ๋๋ค.
- 2) ์๋ฅผ ๋ค์ด ๋นํ๋ฏผC(์์์, FooDB)๊ฐ ์ฝDrug ๊ทธ ์์ฒด์ผ ๋ ์ค๋ณต๋์์ผ๋ฏ๋ก ์ ๊ฑฐํฉ๋๋ค.
- 3) ๊ฐ์ ๋ ผ๋ฌธ์ ์ค๋ ค ์๋ ์ํ-์ฝ Pair๋ ์ฃผ์ ๊ฐ ๊ฐ๊ธฐ ๋๋ฌธ์ ๋ถ๊ฐํผํ๊ฒ ์ธ๊ธ์ด ๋ง์ด ๋ ๊ฒ์ผ ์๋ ์๊ธฐ ๋๋ฌธ์ ์ด๋ฅผ ๋ณด์ ํ์ฌ ์ ์ฌ์ฑ์ ๊ณ ๋ คํฉ๋๋ค.
ย
๊ทธ ๋ค์์ผ๋ก๋ ๋ชจ๋ธ์ ์๋ ์๋ฆฌ์ ๋ํ ๋ด์ฉ์
๋๋ค.
ย
<Computational Framework for DFI Prediction>
- Attribute Feature Extraction (Feature Space)
- Original Node Attribute Information์ ์ฐจ์์ ์ถ์ํ๊ธฐ ์ํด DNN์ ์ฌ์ฉํ์์ต๋๋ค.
- ํ์ฑํ ํจ์๋ ReLu ์ ๋๋ค.
- ์์ํ์ ํน์ฑ๊ณผ ๋ ธ๋ ํน์ง์ ํฉํด์ ์ต์ข ์๋ฒ ๋ฉ์ ์งํํฉ๋๋ค.
- ๋ ผ๋ฌธ์์๋ DNN์ 4๊ฐ์ ์ธต์ผ๋ก ๊ตฌ์ฑํ์์ต๋๋ค.
- ์์ธก ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํด SSP๋ฅผ ํน์ง ๋ฒกํฐ๋ก ์ ํํ์์ต๋๋ค.
- Structure Feature Extraction
Graph data๋ฅผ ํ์ตํ๊ธฐ ์ํด ์ ํ๋ ์ ๊ฒฝ๋ง ๊ตฌ์กฐ๋ GCN(Graph Convolutional Networks)์
๋๋ค. GCN์ ๊ทธ๋ํ ๊ตฌ์กฐ์ ๋ํด Convolution ์ฐ์ฐ์ ์ ์ฉํฉ๋๋ค.
์ผ๋ฐ์ ์ธ CNN(Convolutional Neural Networks)์ ํ ์นธ์ฉ ์ฎ๊ฒจ๊ฐ๋ฉฐ ํด๋น ์นธ์ ํน์ง๋ค์ Aggregationํจ์ผ๋ก์จ Local feature๋ก ์ฌ์ฉํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ CNN์ ๊ฐ ํน์ง๋ง๋ค ๋ค๋ฅธ ์ ๊ฒฝ๋ง์ ์ฌ์ฉํ๋ ๊ฒ์ด ์๋, ๊ฐ์ค์น๋ฅผ ๊ณต์ ํ๋ ์ ๊ฒฝ๋ง์ ์ฌ์ฉํจ์ผ๋ก์จ ํจ์จ์ ์ผ๋ก ํ๋ผ๋ฏธํฐ๋ฅผ ์ฌ์ฉํฉ๋๋ค.
ํ์ง๋ง ์ด๋ฐ CNN ๊ตฌ์กฐ๋ฅผ ๊ทธ๋ํ ๋ฐ์ดํฐ์ ์ฌ์ฉํ๊ธฐ์ ์ด๋ ต๋ค๋ ๋ฌธ์ ์ ์ด ์์ต๋๋ค. ๊ทธ๋ํ ๋ฐ์ดํฐ๋ ์ด์ํ๋ ๋
ธ๋์ ๊ฐ์๊ฐ ์ผ์ ํ์ง ์๊ณ , ๊ทธ๋ํ์ ๋
ธ๋๋ค์ ์์๊ฐ ๋ฐ๋์์ ๋๋ Output์ด ์ ์ง๋๋ Permutation invariance๊ฐ ์ ์ง๋์ด์ผ ํ๊ธฐ ๋๋ฌธ์
๋๋ค. ๊ทธ๋์ ๊ทธ๋ํ ๋ฐ์ดํฐ์ ๋ํด CNN๊ณผ ๋น์ทํ ํน์ฑ์ ๊ณต์ ํ๋ Neural Network์ธ GCN์ด ๊ณ ์๋์์ต๋๋ค.
ย
GCN์ Propagation rule์ ์๋ ์์๊ณผ ๊ฐ์ต๋๋ค.
Z^((l+1))=ฯ(D ห^(-1/2) A หD ห^(-1/2) Z^((l)) W^l )
- A^์ A+In๋ก ํญ๋ฑ ํ๋ ฌ์ด ์ถ๊ฐ๋ ์ธ์ ํ๋ ฌ์ ๋๋ค.
- D๋ ์ฐจ์ ํ๋ ฌ๋ก, ์ธ์ ํ๋ ฌ A์์ ๊ฐ ๋ ธ๋์ ์ฐจ์ ์ ๋ณด๋ฅผ ํฉํ ํ๋ ฌ์ ๋๋ค.
- W^l๋ Layer l์ ๋ฐ๋ผ ๋ค๋ฅธ ๊ฐ์ค์น ํ๋ ฌ์ ๋๋ค.
- ฯ ํ์ฑํ ํจ์๋ก ์ ์์์๋ ๋น์ ํ ํ์ฑํ ํจ์๋ฅผ ์๋ฏธํฉ๋๋ค.
ย
ํ์ง๋ง ์ฐ๊ตฌ์๋ค์ ์ผ๋ฐ์ ์ธ GCN์ ๊ทธ๋ํ์ ํน์ง์ ํ์
ํ๊ธฐ ์ํด ์ฌ์ฉํ๋ ๊ฒ๋ณด๋ค โ์ฐ๊ฒฐ ์ฌ๋ถโ๋ฅผ ๋ ์ง์ค์ ์ผ๋ก ํ์
ํ์ฌ ํจ์จ์ ์ผ๋ก ํ๋ จํ ์ ์๋ LightGCN์ ์ ํํ์์ต๋๋ค. LightGCN์ Propagation Rule์ ์๋์ ๊ฐ์ต๋๋ค.
T_D^((l+1)) =โ_(FโN_D )โ1/(โ(|N_D | ) โ(|N_F | )) T_F^((l))
T_F^((l+1))=โ_(DโN_F )โ1/(โ(|N_F | ) โ(|N_D | )) T_D^((l))
- ์ฒซ ๋ฒ์งธ์ ๋ ๋ฒ์งธ๋ ๊ฐ๊ฐ ์ฝDrug๊ณผ ์ํFood constituent ๋ ธ๋ ๊ฐ ์ฐ๊ฒฐ ๋คํธ์ํฌ๋ฅผ ํ์ ํ๋ ์์์ ๋๋ค.
- ๋ ์ ๋ชจ๋ ๊ทธ๋ํ Convolution ์ฐ์ฐ ์ ์ค์ผ์ผ์ด ๊ธฐํ๊ธ์์ ์ผ๋ก ์ปค์ง๋ ๊ฒ์ ๋ง๊ธฐ ์ํด ์ ๊ทํ๋ฅผ ํ์์ต๋๋ค.
ย
์ต์ข
์ ์ผ๋ก ๊ทธ๋ํ์ ์์ํ์ ํน์ง์ ์ถ์ถํ๋ ์์ ์๋์ ๊ฐ์ต๋๋ค.
T_D=1/(K+1) โ_(k=0)^Kโ T_D^((k))
T_F=1/(K+1) โ_(k=0)^Kโ T_F^((k))
- LightGCN์ Layer์์ ์ป์ ์๋ฒ ๋ฉ์ ๊ฒฐํฉํ๋ ๊ณผ์ ์ ๋๋ค.
ย
ย
์ ๋ด์ฉ์ ์ ์ฒด์ ์ธ ํ๋ฆ์ ์ดํด๋ณด๋ฉด ์๋์ ๊ฐ์ต๋๋ค.
- The Framwork of DFinder
A ๋ถ๋ถ์ Attribute Feature Extraction ๊ณผ์ ์ผ๋ก ์ฃผ์ด์ง ์ฝ๋ฌผ ๋๋ ์ํ ๊ตฌ์ฑ ์์์ ๊ณ ์ ํ ํน์ง์ ํ์
ํ ์ ์๋ SSP๋ฅผ ํน์ง ๋ฒกํฐ๋ก ์์ฑํ์ฌ DNN์ Inputํจ์ผ๋ก์จ Attribute Feature๋ฅผ ํ์ตํ ๋ค Output์ผ๋ก ์ ์ฐจ์ ์๋ฒ ๋ฉ์ ์ป์์ต๋๋ค.
B ๋จ๊ณ๋ Structure Feature Extraction ๊ณผ์ ์
๋๋ค. ์ด๋ถ ๊ทธ๋ํ์์ Drug Node์ Food Constituent Node ๊ฐ ์ฐ๊ฒฐ์ ์์ธกํ๋ Link Prediction ๋ถ์ผ์์ ์ฌ์ฉ๋๋ LightGCN์ ์ด์ฉํ์ฌ Topological Structure๋ฅผ ํ์
ํ์์ต๋๋ค.
์ ๋ ๊ณผ์ ์ ํตํด์ ์ป์ ์๋ฒ ๋ฉ์ ์ฐ์ ํ ๋ค C ํํธ์์ Drug์ Food Constituent์ ํน์ง ์ถ์ถ ์ต์ข
๊ฒฐ๊ณผ๋ฅผ ๋ด์ ํ์ฌ DFIs๋ฅผ ์์ธกํฉ๋๋ค. ๊ทธ ์ดํ ๊ด์ฐฐ๋ DFIs์ ๊ด์ฐฐ๋์ง ์๋ DFIs๋ฅผ ์ด์ฉํด BPR Loss๋ก ๋ชจ๋ธ์ ์ต์ ํํ์์ต๋๋ค.
ย
ย
3. ๊ฒฐ๊ณผ
3.1. ์ฑ๋ฅ ํ๊ฐ ์ ์ฐจ
<Experimental Settings>
DFinder ๋ชจ๋ธ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด โDrugBank-DFI์ PubMed-DFI์ ๊ฐ๊ฐ ํ
์คํธํ์์ต๋๋ค.โ
ย
์์ ๋ ๋ฐ์ดํฐ ์
์ Positive Samples์
๋๋ค. ๋๋ค์ผ๋ก ์ ํํ์ฌ Training Set 80%, Testing Set 20%๋ก ๋๋์์ต๋๋ค. ์๋์ ๋ ๋ฐ์ดํฐ ์
์ Negative samples์
๋๋ค. Train Set๊ณผ Test Set ๋ชจ๋ Positive samples์ ๋ง์ฐฌ๊ฐ์ง๋ก 8:2๋ก ๋๋์์ต๋๋ค.
ย
DFIs๋ ์ํ๊ณผ ์ฝ Drug ๋
ธ๋ ๊ฐ ์ฐ๊ฒฐ ๋คํธ์ํฌ๋ฅผ ํ์
ํ๋ ๋ฌธ์ ์
๋๋ค. ์ด๋ฌํ ๋งํฌ ์์ธก์ ๋คํธ์ํฌ์์ ๋ entity ๊ฐ์ ๋งํฌ ์กด์ฌ๋ฅผ ์์ธกํ๋ ๊ฒ์ด๊ธฐ ๋๋ฌธ์ AUROC์ AUPR๋ก ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ์์ต๋๋ค.
์ฑ๋ฅ ํ๊ฐ์์ DFinder ๋ชจ๋ธ์ ๋ค๋ฅธ 12๊ฐ์ ์๊ณ ๋ฆฌ์ฆ๊ณผ ๋น๊ตํ์๊ณ ์ ํํ ์์ธก์ ์ํด์ ๋๋ค์ผ๋ก ๋ฐ์ดํฐ ์
์ 5๋ฒ ๋๋์์ต๋๋ค.
ย
3.2. Performance Evaluation on DrugBank-DFI
DFinder ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํด ์ ํํ ์ฒซ ๋ฒ์งธ ๋ฐ์ดํฐ์
์ด๊ณ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ๋นํด ์๋์ ์ผ๋ก ์ฑ๋ฅ ์งํ ์์น๊ฐ ๋๊ฒ ๋์์ต๋๋ค.
ย
3.3. Performance Evaluation on PubMed-DFI
๋ง์ฐฌ๊ฐ์ง๋ก ๋ค๋ฅธ ๋ชจ๋ธ๋ค๊ณผ ๋น๊ตํ์ ๋ ์ต๊ณ ์ ์ฑ๋ฅ์ ์๋ํ์ต๋๋ค.
ย
ย
โDFinder has significantly improved the performance of DFI identification.โ
ย
ย
4. ๋ ผ๋ฌธ์ ํ์ฉ ๊ฐ์น
DFI Data๊ฐ ๋ถ์กฑํ์ง๋ง ๋ค๋ฅธ ์ฌ์ดํธ๋ฅผ ํตํด ๋ฐ์ดํฐ ์
์ ๊ตฌ์ถํ์ฌ ๋ชจ๋ธ์ ๊ฐ๋ฐํจ์ผ๋ก์จ ์์ผ๋ก ์ด ๋ถ์ผ์์ Computational Approach์ ๋ฐ์ ์ ๊ธฐ๋ํ ์ ์์์ต๋๋ค. ๋ํ, DFinder ๋ชจ๋ธ์ ๊ธฐ์ฌ๋ก ์ฝ๋ฌผ๊ณผ ์ํ ๊ฐ์ ์ํธ์์ฉ์ ํ์
ํ ์ ์์์ต๋๋ค. ๋ํ, ์ฝ์ ์์์์ ํก์, ๋์ฌ, ๋ฐฐ์ค์ ์ํฅ์ ๋ฏธ์น๊ณ ์ฒด๋ด ์์ ์ํ์ ๋ณํ๋ฅผ ์ค ์ ์๊ธฐ ๋๋ฌธ์ ์ฝ๋ฌผ์น๋ฃ๋ฅผ ๋ฐ๋ ๊ฐ๊ฐ์ธ์๊ฒ ์ข์ ์์ ์ํ๋ฅผ ์ ์งํ๊ธฐ ์ํ ํด๊ฒฐ์ฑ
์ ์ ์ํด ์ค ์ ์์ ๊ฒ์
๋๋ค. ๋ ๋์๊ฐ์ ์ง๋ณ๊ณผ ๊ด๋ จ์ด ์๋ ์๋จ ๋ณํ์ ์ค์์ฑ์ ๊ณ ๋ คํ๋ค๋ฉด ์์๊ฐ ๋๊ณ ๊ท ํ ์กํ ์์ฌ๊ฐ ๊ฐ์ธ์ ๊ฑด๊ฐ์ ์ ์งํ ์ ์๋ ๋ฐฉํฅ์ผ๋ก DFinder ๋ชจ๋ธ์ด ์ด๋ฐ์งํ ์ ์์ ๊ฒ์ผ๋ก ์๊ฐํฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ์์ ๋ถ๋์ด๋ ์ฝ๋ฆฌ ์์ฉ ๋ณํ๋ก ์ธํ ์ํ์ ์ค์ด๋ ๋ฐ ๊ธ์ ์ ์ธ ์ํฅ์ ๋ฏธ์น ์ ์์ ๊ฒ์
๋๋ค.
ย
ย
ย
23w Digital Contents
ย
ย
ย
๋ฌธ์์ฌํญ manager@deepdaiv.com
ย