#115 위클리 딥 다이브 | 2025년 10월 29일세포의 언어를 이해하는 AI, Cell2Sentence세포의 언어로 암을 들여다보다 C2S가 발견한 면역의 숨은 스위치C2S-Scale의 작동 원리C2S-Scale로 세포를 읽고 쓰다
#115 위클리 딥 다이브 | 2025년 10월 29일
이번주 뉴스레터에는 이런 내용을 담았어요!
- Cell2Sentence-Scale(C2S-Scale) 모델을 소개합니다.
- C2S-Scale이 새로운 암 치료 단서를 발견한 과정을 살펴봅니다.
- C2S-Scale의 작동원리와 의의를 정리했습니다.
A/B 테스트 제목: 세포의 언어로 생명을 읽는 AI, Cell2Sentence
세포의 언어를 이해하는 AI, Cell2Sentence
안녕하세요! 에디터 스더리입니다.
혹시 ‘생명정보학(Bioinformatics)’이라는 분야에 대해 들어보신 적 있나요? 생명정보학은 유전자나 세포의 데이터를 분석해 생명 현상을 이해하려는 분야입니다. AI는 이 영역에서도 오랫동안 활용되어 왔지만, 주로 데이터를 정리하고 해석하는 수준에 머물러 있었습니다.
하지만 LLM의 등장은 이 흐름을 바꿔놓았습니다. 이제 AI는 인간의 언어를 넘어 생명체의 언어를 이해하려는 단계로 나아가고 있죠. 이 변화의 흐름 속에서 등장한 모델이 바로 Cell2Sentence(C2S)입니다.
C2S는 단일세포 데이터를 문장처럼 다루며, 세포 간의 신호와 상호작용을 이해합니다. 최근 공개된 Cell2Sentence-Scale(C2S-Scale)은 이를 확장한 버전으로, 단일세포 RNA 데이터와 생물학 논문, 메타데이터를 함께 학습한 270억 파라미터 규모의 모델입니다. 그렇다면, C2S-Scale은 세포의 언어로 어떤 단서를 찾아냈을까요? 🧫
세포의 언어로 암을 들여다보다
C2S-Scale이 특히 주목받은 이유는, 새로운 암 치료 단서를 직접 제시했다는 점입니다. 우리 몸의 면역계는 원래 암세포를 감지하고 제거하는 방어 체계를 가지고 있지만, 일부 암은 면역계가 이를 ‘적’으로 인식하지 못해 조용히 성장합니다. 이렇게 면역 반응이 거의 일어나지 않는 암을 ‘Cold Tumor’, 반대로 면역세포가 활발히 반응하는 경우를 ‘Hot Tumor’라고 부릅니다.
이 차이를 만드는 핵심 과정 중 하나가 항원제시(Antigen Presentation)인데요, 암세포가 자신을 드러내는 표지를 내보내야만 면역세포가 이를 공격할 수 있습니다. 따라서 항원제시가 제대로 이루어지지 않으면 면역 반응이 억제되므로 종양은 계속 성장하게 됩니다. 항원제시 과정이 암의 성장과 억제를 가르는 중요한 분기점인 것이죠.
C2S가 발견한 면역의 숨은 스위치
C2S-Scale은 이 문제를 직접 겨냥했습니다. 연구팀은 모델에게 ‘특정 조건에서만 면역 신호를 증폭시키는 약물’을 찾아내라는 임무를 부여했습니다. 이는 면역 반응이 거의 일어나지 않는 Cold Tumor를, 항원제시를 통해 면역이 활성화된 Hot Tumor 상태로 바꾸기 위한 접근이었습니다. 모델은 4,000종 이상의 약물을 면역 활성 환경(Immune-context-positive)과 면역 비활성 환경(Immune-context-neutral)에 각각 시뮬레이션했습니다.
- 면역 활성 환경: 면역 반응이 이미 일어나고 있는 환경
- 면역 비활성 환경: 면역 반응이 거의 없는 환경
이때 모델은 면역이 완전히 꺼진 상태에서 인위적으로 반응을 만들기보다는 이미 시작된 면역 신호를 안전하게 증폭시킬 수 있는 약물을 찾도록 훈련되었습니다.
그 결과 모델이 찾아낸 것이 바로 Silmitasertib(CX-4945)이라는 억제제였습니다. 모델은 이 약물이 면역 활성 환경에서는 항원제시를 크게 높이지만, 면역 비활성 환경에서는 거의 효과가 없을 것이라고 예측했습니다.
예일대 연구팀은 이 예측을 실제 실험으로 검증하였고, 결과는 모델의 예측과 일치했습니다. Silmitasertib은 인터페론(면역 신호 단백질)이 작동 중인 환경에서만 항원제시를 증폭시켜, 결과적으로 ‘Cold’ 종양을 ‘Hot’ 상태로 전환시킬 수 있는 새로운 가능성을 보여준 것입니다. 놀랍게도 이는 기존 문헌에 보고된 적 없는 현상이었으며, 모델이 완전히 새로운 생물학적 가설을 스스로 도출했다는 점에서 의미가 컸습니다.
C2S-Scale의 작동 원리
그렇다면 C2S-Scale은 어떻게 작동할까요? C2S-Scale은 단어 대신 유전자(Gene)를 입력 단위로 사용합니다. 즉, 하나의 세포를 수천 개의 유전자가 나열된 문장(Cell Sentence)으로 표현하고, 모델은 이 문장에서 유전자 간의 관계와 맥락적 의미를 학습합니다.
위 그림처럼 각 세포의 유전자는 발현량이 높은 순서대로 나열되어 문장 형태로 표현됩니다. 모델은 어텐션 메커니즘(Self-Attention)을 통해 어떤 유전자가 해당 세포를 가장 설명하는지를 계산합니다. 또한, C2S-Scale은 디코더 기반의 트랜스포머 구조를 사용하는데요. 문장에서 다음 단어를 예측하듯, 모델은 다음 유전자를 예측하며 학습합니다. 이 과정을 통해 단일 세포의 패턴 뿐만 아니라 조직이나 질병, 약물 반응 등 더 넓은 생물학적 맥락까지 추론할 수 있습니다.
C2S-Scale로 세포를 읽고 쓰다
이처럼 C2S-Scale은 세포의 언어를 이해하는 법을 배워, 이를 문맥적으로 해석하고 생물학적인 질문에 대해 답변할 수 있습니다. 이외에도 C2S-Scale이 수행할 수 있는 다양한 생물학적 태스크에 대해 살펴봅시다.
가장 기본적인 기능은 세포의 유형을 예측(Cell Type Prediction)하는 것입니다. 유전자 발현 문장을 입력하면 모델이 그 세포가 면역세포인지, 신경세포인지, 혹은 암세포인지를 자연어로 판별합니다.
두 번째로, 세포가 외부 자극이나 약물에 어떻게 반응할지를 예측(Perturbation Response Prediction)하는 것이 있습니다. 예를 들어 “이 세포는 anti-PD-1 면역항암제에 어떤 반응을 보일까?”라는 질문에, 모델은 자극 전후의 유전자 변화를 시뮬레이션해 새로운 발현 패턴을 생성합니다. 이 기능은 연구자들이 약물 반응을 미리 실험할 수 있도록 하여 신약 개발과 환자 맞춤형 치료에 실질적인 도움을 줄 수 있습니다.
마지막으로, 특정 조건을 반영한 세포를 직접 생성(Conditional Cell Generation)할 수 있습니다. “췌장에 존재하는 CD8+ T 세포를 만들어줘”라고 입력하면, C2S-Scale은 실제 생체 환경을 반영한 가상의 세포 발현 문장을 만들어냅니다. 이처럼 기존에는 불가능했던 조건별 세포 생성을 통해, 과학자들은 질병 환경을 재현하거나 새로운 치료 후보를 탐색할 수 있게 됩니다.
위 그래프에서 볼 수 있듯이 C2S-Scale은 다양한 생물학적 과제에서 기존 LLM들을 능가하는 성능을 보였습니다. 하지만 단순히 성능이 뛰어난 AI에 그치지 않고, 데이터 속에서 스스로 새로운 생물학적 패턴을 찾아낸 점에서 더욱 큰 의미를 갖습니다. AI가 인간의 연구를 보조하는 단계를 넘어, 직접 과학적 통찰을 만들어내는 주체로 발전하고 있는 것이죠.
또한, C2S-Scale은 오픈소스로 공개되어 있어 누구나 이 모델을 활용해 실험을 확장하거나 새로운 생물학적 질문을 던질 수 있습니다. 복잡한 생명 현상을 언어로 해석하고, 그 언어로 다시 발견을 만들어내는 C2S가 인간이 아직 풀지 못한 의학의 실마리를 밝혀가길 기대합니다! 🧬