deep daiv.
← Newsletter

deep daiv. newsletter

#132 LLM과 과학자는 동료가 될 수 있을까?

날짜
2026년 2월 25일
담당자
영이

#132 위클리 딥 다이브 | 2026년 2월 25일

이번주 뉴스레터에는 이런 내용을 담았어요!

  • LLM을 활용해 수학 난제를 풀어낸 FunSearch의 핵심 아이디어와 작동 방식을 소개합니다.
  • 해석 가능성 측면에서 FunSearch의 작동 방식이 유의미한 이유를 소개합니다.
  • FunSearch와 그 후속 연구인 AlphaEvolve의 차이점을 소개합니다.

LLM과 과학자는 동료가 될 수 있을까?

안녕하세요, 이번 호부터 새롭게 뉴스레터 에디터로 함께하게 된 에디터 영이입니다!

최근 과학기술정보통신부가 주최한 2026 AI Co-Scientist Challenge(AI 연구동료 경진대회)가 연구 현장을 뜨겁게 달구고 있습니다. 단순한 논문 작성을 넘어, AI가 직접 가설을 세우고 실험을 설계하는 AI 과학자 에이전트를 개발하라는 이 도전적인 과제에 수많은 연구팀이 몰렸다는 소식, 들으셨나요?

불과 몇 년 전만 해도 SF 영화 속 이야기 같았던 AI 동료 연구자가 이제 국가적 아젠다로 부상했다는 사실이 놀랍습니다. 도대체 AI가 어디까지 발전했기에, 우리는 이제 그들을 ‘도구’가 아닌 ‘동료’로 부르게 된 걸까요? 이 거대한 연구 흐름의 진원지를 파악하려면, 시계를 잠시 돌려 Google DeepMind가 던졌던 질문과 그 해답인 FunSearch를 들여다봐야 합니다.

매일 수많은 LLM 기반 탐색 연구들이 쏟아지는 가운데, 왜 굳이 2년 전의 FunSearch를 다시 주목해야 할까요? 여기에는 다른 모델들이 갖지 못한 FunSearch만의 가치가 숨어 있기 때문입니다.


LLM을 사용하여 수학 난제를 해결한 FunSearch

사용자가 문제 상황을 사전에 정의해 두면(Specification), FunSearch는 이를 자동으로 프롬프트 형태로 변환하여 LLM에 입력합니다. LLM이 생성한 코드는 평가되어 데이터베이스에 저장됩니다. 성능이 좋은 코드는 다음 탐색의 출발점이 되며 이 과정을 반복적으로 수행하여 최종 코드를 도출하게 됩니다. 출처: (Romera Paredes et al., 2024)
사용자가 문제 상황을 사전에 정의해 두면(Specification), FunSearch는 이를 자동으로 프롬프트 형태로 변환하여 LLM에 입력합니다. LLM이 생성한 코드는 평가되어 데이터베이스에 저장됩니다. 성능이 좋은 코드는 다음 탐색의 출발점이 되며 이 과정을 반복적으로 수행하여 최종 코드를 도출하게 됩니다. 출처: (Romera Paredes et al., 2024)

FunSearch는 주어진 문제와 데이터가 있을 때, LLM이 직접 이 문제를 해결할 수 있는 새로운 코드(Program) 후보를 작성하고, 그 후보를 LLM이 관여하지 않는 정량적인 평가기(Evaluator)가 검증하는 구조로 이루어진 자동화 프레임워크입니다. LLM의 강력한 코드 생성 능력을 바탕으로 방대한 가설 탐색 공간을 빠르게 탐색하겠다는 아이디어가 돋보이죠.

FunSearch는 한 번 생성된 코드를 버리지 않고, 성능이 좋은 코드를 다음 탐색의 출발점으로 활용하는 구조를 갖고 있습니다. 이를 통해 LLM은 점점 더 나은 코드를 제안하도록 유도되며, 전체 탐색 과정은 여러 후보 코드가 경쟁하고 개선되는 진화적 탐색과 비슷한 흐름으로 진행됩니다.

진화적 탐색이란?

여러 후보 해법을 동시에 유지하면서, 성능이 좋은 해법을 중심으로 변형(돌연변이)하거나 해법끼리 조합(교차)하는 과정을 반복해 점점 더 나은 해법을 찾아가는 탐색 방식입니다. 생물의 진화 과정에서 착안한 방법이기 때문에 ‘진화적 탐색’이라고 불립니다.

이러한 진화적 탐색 접근법은 기존의 ‘사람이 아이디어를 떠올리고, 실험을 수행하는 방식’과는 반대의 흐름입니다. 기존에는 연구자의 직관이 탐색 공간을 좁히는 데 결정적인 역할을 했다면, FunSearch에서는 LLM이 먼저 방대한 탐색 공간을 빠르게 훑으며 다양한 후보 가설을 제시하고, 인간 연구자는 그중 의미 있는 가설을 해석하고 일반화하는 역할을 맡게 됩니다.

실제로 Google DeepMind 팀은 FunSearch를 활용해 오랫동안 수학계의 난제로 여겨졌던 Cap Set 문제와 Online Bin Packing 문제에서 기존에 알려진 해법보다 더 나은 결과를 발견했습니다.

Cap Set 문제와 Online Bin Packing 문제

Cap Set이란 “각 좌표가 0, 1, 2 중 하나인 n차원 격자 공간에서 임의의 세 점을 선택했을 때 한 점이 나머지 두 점의 ‘중간’이 되는 구조를 이루지 않도록 선택된 점들의 집합”을 의미합니다. Cap Set 문제는 이 집합의 최대 크기를 구하는 문제입니다.

Bin Packing 문제는 크기가 다양한 품목을 같은 크기의 여러 상자(bin)에 나눠서 포장할 때, 상자의 개수를 최소화하는 문제입니다. Online Bin Packing 문제는 전체 품목의 크기를 미리 알 수 없고, 품목이 순차적으로 도착하는 즉시 바로 포장을 해야 한다는 차이가 있습니다.

이러한 접근은 단순히 ‘수학 문제를 잘 풀었다’라는 성과를 넘어, 과학 연구의 방식 자체를 바꿀 가능성을 보여줍니다. 기존 연구에서는 연구자의 직관과 경험이 새로운 가설을 떠올리는 데 결정적인 역할을 했다면, 이제는 LLM이 방대한 탐색 공간을 빠르게 훑으며 사람이 미처 생각하지 못한 해법을 제시할 수 있게 된 것입니다. 특히 탐색 공간이 매우 넓고, 정답이 명확하지 않은 문제일수록 이러한 방식의 장점이 두드러집니다. 새로운 알고리즘 설계, 조합 최적화 문제, 실험 조건 탐색 등은 모두 시도해 볼 수 있는 경우의 수가 매우 크므로, 인간 연구자 혼자 감당하기에는 한계가 있는 영역이죠.

왜 FunSearch를 주목해야 하는가?

기존에도 LLM을 활용해 가설을 탐색하고자 하는 시도는 있었습니다. 하지만 많은 경우, 모델 내부의 복잡한 연산을 통해 ‘결과값’만을 내놓거나, 그럴듯해 보이지만 검증이 어려운 텍스트를 생성하는 데 그치는 한계가 있었습니다. 과학자 입장에서는 왜 그런 결과가 나왔는지를 이해하기 어려운 블랙박스에 가까웠던 셈입니다.

FunSearch의 차별점은, 해법을 사람이 읽고 이해할 수 있는 코드 형태로 제안했다는 점에 있습니다. 이 코드는 단순한 실행 결과를 넘어 문제를 푸는 하나의 전략으로 해석될 수 있으며, 실제로 연구자들은 이를 바탕으로 새로운 통찰을 얻고 이론적 분석을 이어갈 수 있었습니다. 실제로 FunSearch의 후속 연구 중 하나인 Discovering Symbolic Cognitive Models from Human and Animal Behavior (Castro et al., 2025)에서는 사람, 쥐, 초파리의 행동 실험 데이터를 바탕으로 FunSearch를 실행했을 때, LLM을 추가로 학습시키지 않았음에도 불구하고 사전 학습된 지식을 바탕으로 인지과학에 적합한 변수명과 메커니즘을 스스로 제안할 수 있었다는 점을 발견합니다. 인지과학 분야에서는 단순히 예측 성능이 높은 모델을 찾는 것뿐만 아니라, 각 변수와 메커니즘이 실제 인지 과정과 어떻게 대응하는지를 해석할 수 있어야 한다는 점이 매우 중요하게 여겨집니다.

이러한 점에서 FunSearch는 LLM을 단순한 가설 생성기가 아니라, 인간 연구자가 해석하고 확장할 수 있는 아이디어를 제안하는 연구 파트너로 활용할 수 있음을 보여주었다고 평가할 수 있습니다.

설계 도면을 통째로 수정하는 AlphaEvolve

하지만 AI 분야의 시간은 인간의 시간보다 빠르게 흐릅니다. FunSearch가 등장한 지 어느덧 2년이 넘었으니까요. FunSearch는 Nature 발표 이후 학계에 큰 반향을 일으켰지만, 동시에 명확한 한계도 존재했습니다. 주어진 템플릿의 빈칸을 채우는 방식이었다는 점입니다. 인간이 미리 판을 짜두지 않으면, LLM이 실력을 발휘하기 어려웠던 것이죠.

AlphaEvolve는 LLM이 제안한 코드 수정 사항(diffs)을 평가하고 우수한 해법을 다시 학습하며 성능을 극대화합니다. 출처: (Novikov et al., 2025)
AlphaEvolve는 LLM이 제안한 코드 수정 사항(diffs)을 평가하고 우수한 해법을 다시 학습하며 성능을 극대화합니다. 출처: (Novikov et al., 2025)

Google DeepMind 팀은 이 한계를 뛰어넘기 위해 2025년 6월, 새로운 코딩 에이전트 AlphaEvolve를 세상에 내놓았습니다. AlphaEvolve는 단순히 빈칸을 채우는 수준을 넘어섰습니다. 이제 AI는 프로그램 코드 전체의 구조를 스스로 파악하고, 파일 전체를 통째로 생성하고 최적화합니다. 부분적인 수리가 아니라, 아예 새로운 설계를 제안하는 단계로 진화한 것입니다.

논문에 따르면, AlphaEvolve는 50개 이상의 다양한 수학/알고리즘 문제에서 기존 최고 기록보다 평균 20% 이상 향상된 성능을 보여주었습니다. 더 무서운 점은 이 기술이 이론에만 머물지 않는다는 것입니다. 구글은 이미 자사의 데이터센터와 핵심 인프라 최적화에 이 기술을 적용하고 있습니다. 과학적 발견을 넘어, 실제 산업 현장의 효율성까지 AI가 직접 끌어올리고 있는 것이죠. FunSearch가 쏘아 올린 공이 과학자를 넘어 엔지니어의 영역까지 혁신하고 있습니다.


LLM은 점점 더 많은 연구에 기여하고 있습니다. 물론, AI에게 연구의 전 과정을 온전히 맡기기에는 아직 이릅니다. 환각(Hallucination) 문제를 비롯해 여전히 해결해야 할 과제들이 남아있거든요. AI는 언제든 그럴듯한 거짓말을 할 수 있습니다. 따라서 LLM이 작성한 코드를 사람이 '읽을 수 있다'는 사실만으로 그 결과를 맹신해서는 안 됩니다. 그 코드가 오류 없는 진실인지, 과학적으로 정말 유의미한 가설인지 판단하기 위해서는 인간 연구자의 사후적인 해석과 검증이 반드시 뒤따라야 합니다.

하지만 분명한 것은, LLM이 인간 과학자보다 수십만 배 빠른 속도로 수많은 가설을 쏟아낼 수 있다는 점입니다. 이제 중요한 것은 ‘누가 더 빨리 아이디어를 내느냐’가 아닙니다. 쏟아지는 무수한 가설 속에서 어떤 것이 유의미한지 가려내고 그 속에 숨겨진 의미를 해석하는 일입니다. 그리고 이 통찰의 영역은, 여전히 인간 과학자의 손에 달려 있습니다.

앞으로의 과학 연구는 인간의 직관과 인공지능의 탐색 능력이 결합한 형태로 나아갈 것입니다. LLM은 과학자를 대체하는 경쟁자일까요, 아니면 우리를 더 강력한 과학자로 만들어줄 최고의 파트너일까요? 인간의 직관과 인공지능의 탐색이 맞물리는 거대한 변화의 흐름 속에서, 과학은 지금 새로운 방향으로 발전하고 있습니다.

초안

LLM은 과학자를 대체할 수 있을까?

안녕하세요, 이번 호부터 새롭게 뉴스레터 에디터로 함께하게 된 에디터 영이입니다!

예로부터 과학계의 수많은 발견은 과학자가 수집한 데이터를 직접 분석하여 이론을 도출함으로써 이루어졌습니다. 예를 들어 볼까요? 중학교 과학 시간에 배우는 멘델의 유전 법칙은 수천 번의 완두콩 교배 실험 데이터를 바탕으로 정립된 이론입니다. 또한 케플러의 행성 운동 법칙도 방대한 행성 관측 데이터를 바탕으로 제안되었죠. 이처럼 하나의 과학 이론을 수립하고 이를 학계에 발표하기까지는 오랜 시간과 막대한 노력이 필요했습니다.

하지만 최근에는 이러한 노동 집약적인 연구 과정을 단순화하고, 과학적 발견의 속도를 높이기 위해 인공지능을 연구에 도입하려는 시도가 점차 늘어나고 있습니다. 특히 거대 언어 모델(LLM)을 활용해 새로운 가설이나 알고리즘을 자동으로 탐색하는 연구가 주목받고 있는데요. 그 대표적인 사례가 바로 Google DeepMind에서 제안한 FunSearch(Romera-Paredes et al., 2024) 입니다. 이번 뉴스레터에서는 FunSearch를 중심으로 LLM을 활용한 과학 연구 자동화가 실제로 어떤 방식으로 활용되고 있는지 살펴보도록 하겠습니다.


LLM을 사용하여 수학 난제를 풀다

FunSearch 프레임워크 구조 출처: (Romera Paredes et al., 2024)
FunSearch 프레임워크 구조 출처: (Romera Paredes et al., 2024)

FunSearch는 주어진 문제와 데이터가 있을 때, LLM이 직접 이 문제를 해결할 수 있는 새로운 알고리즘 코드 후보를 작성하고, 그 후보를 LLM이 관여하지 않는 정량적인 평가기(Evaluator)가 검증하는 구조로 이루어진 자동화 프레임워크입니다. LLM의 강력한 코드 생성 능력을 바탕으로 방대한 가설 탐색 공간을 빠르게 탐색하겠다는 아이디어가 돋보이죠.

이 프레임워크에서 LLM이 제안한 아이디어는 일회성으로 사용되지 않습니다. 제안된 아이디어의 성능을 정량적으로 평가한 뒤, LLM에게 더 나은 아이디어를 제안해 달라고 요청하는 과정을 반복함으로써 점진적으로 성능을 끌어올리게 됩니다. 이 과정은 마치 여러 개체가 경쟁하며 점점 더 나은 해법으로 진화하는 진화적 탐색(Evolutionary Search)과 유사한 구조로 되어 있습니다.

진화적 탐색이란?

여러 후보 해법을 동시에 유지하면서, 성능이 좋은 해법을 중심으로 변형(돌연변이)하거나 해법끼리 조합(교차)하는 과정을 반복해 점점 더 나은 해법을 찾아가는 탐색 방식입니다. 생물의 진화 과정에서 착안한 방법이기 때문에 ‘진화적 탐색’이라고 불립니다.

이 접근법은 기존의 ‘사람이 아이디어를 떠올리고, 실험을 수행하는 방식’과는 반대의 흐름입니다. 기존에는 연구자의 직관이 탐색 공간을 좁히는 데 결정적인 역할을 했다면, FunSearch에서는 LLM이 먼저 방대한 탐색 공간을 빠르게 훑으며 다양한 후보 가설을 제시하고, 인간 연구자는 그중 의미 있는 가설을 해석하고 일반화하는 역할을 맡게 됩니다.

실제로 Google DeepMind 팀은 FunSearch를 활용해 오랫동안 수학계의 난제로 여겨졌던 Cap Set 문제와 Online Bin Packing 문제에서 기존에 알려진 해법보다 더 나은 결과를 발견했습니다. 특히 Cap Set 문제는 약 20년 가까이 뚜렷한 진전이 없던 문제였다는 점에서, LLM 기반 자동 탐색이 기존 연구 방식에 실질적인 돌파구를 제공할 수 있음을 보여준 사례로 평가받고 있습니다.

이러한 접근은 단순히 ‘수학 문제를 잘 풀었다’라는 성과를 넘어, 과학 연구의 방식 자체를 바꿀 가능성을 보여줍니다. 기존 연구에서는 연구자의 직관과 경험이 새로운 가설을 떠올리는 데 결정적인 역할을 했다면, 이제는 LLM이 방대한 탐색 공간을 빠르게 훑으며 사람이 미처 생각하지 못한 해법을 제시할 수 있게 된 것입니다. 특히 탐색 공간이 매우 넓고, 정답이 명확하지 않은 문제일수록 이러한 방식의 장점이 두드러집니다. 새로운 알고리즘 설계, 조합 최적화 문제, 실험 조건 탐색 등은 모두 시도해 볼 수 있는 경우의 수가 매우 크므로, 인간 연구자 혼자 감당하기에는 한계가 있는 영역이죠.

LLM 기반 자동 탐색 연구의 확장

‘LLM이 가설을 탐색한다’라는 아이디어는 수식 형태의 과학 이론을 찾는 기호 회귀 문제에도 적용될 수 있습니다. 주어진 데이터가 있을 때, 이를 설명할 수 있는 가장 적합한 수학 수식을 찾는 문제, 이른바 기호 회귀(Symbolic Regression) 문제는 오래전부터 존재했습니다. 하지만 계수만 최적화하면 되는 일반적인 회귀 문제와는 다르게 수식 구조 자체를 탐색해야 한다는 점에서 난도가 매우 높고, 탐색 공간이 기하급수적으로 커지기 때문에 오랫동안 어려운 문제로 남아 있었습니다. 또한 특정 도메인에 기호 회귀를 적용할 경우, 해당 분야의 물리적 제약이나 선험적 지식과 같은 도메인 특화 정보를 모델에 효과적으로 주입하기 어렵다는 점 역시 중요한 한계로 지적됐습니다.

이러한 한계를 극복하기 위해 제안된 접근 중 하나가 바로 LLM 기반 기호 회귀 프레임워크인 LLM-SR (Shojaee et al., 2024) 입니다. LLM-SR 연구진은 LLM을 탐색 도구로 활용해 수식 구조를 생성하고, 이를 자동 평가하는 프레임워크를 도입했습니다. 그 결과, 물리학, 생명과학, 재료공학 등 다양한 과학 분야의 데이터셋에 적용했을 때, 기존 기호 회귀 기법으로 도출한 모델보다 더 높은 설명력과 예측 성능을 갖는 수식을 발견할 수 있음을 보였습니다.

LLM SR 프레임워크 출처: (Shojaee et al., 2024)
LLM SR 프레임워크 출처: (Shojaee et al., 2024)

심리학 분야에서도 FunSearch를 접목시킨 연구가 등장하고 있습니다. Google DeepMind 연구팀은 Discovering Symbolic Cognitive Models from Human and Animal Behavior (Castro et al., 2025) 이라는 논문을 통해, 사람, 쥐, 초파리의 행동 실험 데이터를 바탕으로 최적의 인지 모델을 자동으로 탐색하는 프레임워크를 제안했는데요. 이 과정에서 인간 인지과학자가 제안했던 수작업 모델보다 더 높은 예측 성능을 보이는 모델이 발견되기도 했습니다.

흥미로운 점은, LLM을 해당 도메인에 대해 추가로 학습시키지 않았음에도 불구하고, 사전 학습된 지식을 바탕으로 인지심리학에 적합한 변수명과 메커니즘을 스스로 제안할 수 있었다는 점입니다. 인지심리학 분야에서는 단순히 예측 성능이 높은 모델을 찾는 것뿐만 아니라, 각 변수와 메커니즘이 실제 인지 과정과 어떻게 대응하는지를 해석할 수 있어야 한다는 점이 매우 중요하게 여겨집니다. 이러한 특성을 고려할 때, LLM이 제안한 모델이 비교적 해석 가능한 형태를 유지하면서도 성능 향상을 보였다는 점은 의미 있는 결과라고 볼 수 있습니다. 또한 LLM 기반 자동 탐색 프레임워크가 앞서 언급한 도메인별 기호 회귀 문제의 실질적인 해법이 될 수 있음을 시사합니다.

과학자는 사라질까, 진화할까?

자연과학과 공학을 넘어 사회과학에 이르기까지, LLM은 점점 더 많은 연구 현장에 스며들고 있습니다. 그렇다고 인간 과학자가 소멸하는 것은 아닙니다. LLM은 새로운 아이디어를 떠올리는 능력은 뛰어나지만, LLM에게 연구의 전 과정을 온전히 맡기기에는, 환각(Hallucination) 문제를 비롯해 여전히 해결해야 할 과제들이 남아 있습니다. 이제 과학자의 역할은 아이디어를 떠올리는 사람보다는 수많은 가설을 해석하고 의미 있는 이론으로 정제하는 사람으로 변화하고 있는지도 모릅니다.

앞으로의 과학 연구는 인간의 직관과 인공지능의 탐색 능력이 결합한 형태로 진화해 갈 가능성이 큽니다. LLM은 과학자를 대체하는 존재일까요, 아니면 더 강력한 과학자를 만들어주는 도구일까요? LLM의 발전 속에서 인간 과학자는 어떻게 LLM을 대해야 할까요? 이번 뉴스레터가 그 질문에 대해 함께 고민해 보는 계기가 되길 바랍니다.

Related

이 뉴스레터와 함께 읽기

같은 토픽의 리포트, 공개 글, 학습 경로를 이어 붙였습니다.