#128 TranslateGemma, 직접 써봤습니다.

#128 위클리 딥 다이브 | 2026년 1월 28일

💡
이번주 뉴스레터에는 이런 내용을 담았어요!
  • TranslateGemma와 NLLB-200 모델을 직접 비교합니다.
  • 각 모델의 구조적 특징을 바탕으로 추론 결과를 분석합니다.
  • 기계 번역 모델의 정량 평가 방식과 한계를 짚어봅니다.
A/B 테스트 제목: 기계 번역은 진보했나, 퇴보했나?

✍️ TranslateGemma, 직접 써봤습니다.

안녕하세요, 에디터 배니입니다.
지난 15일, Google이 블로그를 통해 TranslateGemma를 소개했습니다. TranslateGemma는 Gemma 3를 기반으로 학습된 번역 모델인데요. 55개 쌍의 언어들을 자유롭게 번역할 수 있고, 무엇보다도 어떤 디바이스에서도 사용할 수 있다고 말합니다. 이번 TranslateGemma는 4B, 12B, 27B까지 총 3가지 크기의 모델로 공개됐습니다. 4B 모델은 모바일, 12B 모델은 개인 랩탑, 27B 모델은 하이엔드 GPU(H100) 1대 수준에서 동작 가능하도록 학습한 것입니다. Gemma 계열 모델이 지향하는 소형 언어 모델(sLM)의 확장성이 그대로 반영되어 있는 것이죠. 같은 기업의 다른 모델인 Gemini와 차별화되는 포인트기도 합니다.
개인적으로 이번 모델에 눈길이 갔던 이유는 드디어 sLM이 개인 사용자에게 유용한 기능을 제공하기 때문입니다. 아무리 성능이 좋다는 sLM 또는 On-device 타깃 모델이라도 사실 우리가 웹에 접속해서 사용하는 ChatGPT나 Gemini 서비스 성능에 미치지 못합니다. 사용자 입장에서는 굳이 sLM을 사용할 필요가 없는 것이죠. 미래에는 sLM이 현재의 상업 모델(Proprietary Model) 수준에 미칠 수도 있겠지만, 현재는 더 특화된 용도로 사용하는 것이 sLM의 사용 가치를 더 높인다고 생각합니다.
앞서 언급한 TranslateGemma의 특징을 다시 짚어 보면, 작은 모델이 다양한 언어를 지원한다는 점을 강조합니다. Google 연구진은 기반 모델인 Gemma 3보다 더 적은 파라미터로도 더 좋은 번역 성능을 보인다고 평가했습니다. 그러나 돌이켜 보면 이런 사례가 처음은 아닙니다. 4년 전, Meta에서도 무려 200개의 언어를 번역하는 모델을 공개했습니다. 바로 <No Language Left Behind>, 즉 NLLB 모델입니다. 모델의 이름처럼 어떤 언어도 뒤처지지 않고 번역될 수 있도록 소수 언어를 포함하여 학습했다는 것이 특징입니다.
그렇다면 NLLB과 비교해 TranslateGemma는 어느 정도 수준일까요? 두 모델 모두 파라미터가 많지 않기 때문에 실행할 수 있을 것 같다는 생각이 들었는데요. 그래서 직접 써봤습니다! 🧑‍💻 이번 뉴스레터는 TranslateGemma와 NLLB 모델을 직접 비교하는 과정에서 든 생각과 인사이트를 공유합니다.

결과부터 봅시다!

💬
예제 1) this is why we have such strong ties to nostalgia.
예시 정답: 이런 까닭에 우리는 그토록 강하게 향수에 집착한다.
NLLB: 이것이 우리가 향수를 가진 이유입니다.
TranslateGemma: 이것이 바로 왜 우리는 향수를 그리워하는 감정에 강하게 젖어 있는 걸까요.

예제 2) what why are the GPS coordinates getting rounded to the nearest full degree that's absolutely worthless
예시 정답: 도대체 왜 GPS 좌표가 가장 가까운 완전한 각도의 값으로 반올림되는 걸까요? 그러면 전혀 쓸모없는데요.
NLLB: 왜 GPS 좌표가 가장 가까운 전체 학위까지 둥글게 되는데 그건 절대적으로 쓸모가 없죠
TranslateGemma: GPS 좌표가 가장 가까운 완전한 도로 단위로 반올림되는 이유는 무엇인가요? 이는 전혀 유용하지 않습니다.

예제 3) the jokes write themselves
예시 정답: 정말 웃기는 거죠.
NLLB: 농담은 스스로 쓰여집니다.
TranslateGemma: 유머는 자연스럽게 생겨나.

어떤가요? 각 모델의 특징이 보이시나요? 개인적으로는 흥미로운 결과라는 생각이 들었습니다. 말로만 무성한 모델의 실체를 직관적으로 비교할 수 있으니까요. 여러분이 직접 블라인드 테스트를 할 수 있도록 Claude Artifact를 활용해 퀴즈를 만들었습니다. 10개의 예제가 포함되어 있으니, 가장 좋은 번역을 선택해보고 비교해보세요.
notion image
이번 실험에는 TranslateGemma-4B 모델NLLB-200-3.3B 모델을 사용해 영어 → 한국어 번역 성능을 평가했습니다. 특기할 점은 TranslateGemma-4B 모델은 TranslateGemma 모델 패밀리 중 가장 작은 모델이고, NLLB-200-3.3B는 HuggingFace에 공개된 NLLB-200 모델 패밀리 중 가장 큰 모델입니다. 모델 패밀리 내의 위상은 다르지만 모델 사이즈가 유사해야 그나마 공정한 비교가 가능하다고 판단했습니다.
이번 실험에 사용한 테스트 데이터셋은 번역 태스크에서 대표적으로 사용되는 WMT24를 확장한 WMT24++ 중 en-ko_KR 입니다. 총 998개의 데이터 포인트 중 노이즈를 제거한 뒤 100개를 랜덤 샘플링했습니다. 두 모델 모두 다중 언어 번역을 지원하지만, 다른 언어는 직접 판단하기 어렵기 때문에 영어 - 한국어 번역만 선정했습니다.

TranslateGemma과 NLLB는 어떻게 다를까?

위의 예시와 퀴즈를 모두 보신 분이라면 TranslateGemma 모델이 NLLB에 비해 괜찮은 번역 모델이라는 데 큰 이견은 없을 것 같습니다. 그 사이에 번역 모델이 많이 발전했다고 볼 수도 있지만, 사실 두 모델은 직접 비교하기 어려운 위치에 있습니다. 우선, TranslateGemma 모델은 Instruct Model입니다. 즉, 지시 사항이 담긴 프롬프트를 입력 받아 결과를 출력합니다. 동일한 언어로 번역하더라도 매 추론 때마다 동일한 내용을 반복적으로 입력해야 합니다. 사실 ‘번역’ 기능만을 목표로 한다면 불필요한 연산을 반복하는 꼴입니다.
TranslateGemma를 학습하는 데 활용한 시스템 프롬프트. 이 입력 프롬프트의 길이만 129 토큰을 차지한다. 동일한 언어로 번역을 하더라도, 매 추론 때마다 동일한 내용을 반복적으로 입력해야 한다.
출처: <TranslateGemma Technical Report> (Finkelstein et al., 2026)
TranslateGemma를 학습하는 데 활용한 시스템 프롬프트. 이 입력 프롬프트의 길이만 129 토큰을 차지한다. 동일한 언어로 번역을 하더라도, 매 추론 때마다 동일한 내용을 반복적으로 입력해야 한다. 출처: <TranslateGemma Technical Report> (Finkelstein et al., 2026)
반면 NLLB는 Encoder-Decoder 구조로, 언어별 Special Token을 입력하여 소스 언어(Encoder)와 타깃 언어(Decoder)를 설정합니다. 이 구조에서는 Special Token이 지시 사항을 모두 포함하고 있다고 봐도 과언이 아닙니다. Instruct Model처럼 불필요한 입력이 필요하지 않고, 해당 구조의 특성 덕분에 추론 속도도 빠릅니다. 앞서 100개의 예제에서 NLLB는 평균 1.3초, TranslateGemma는 평균 22.8초 정도 소요됐습니다. TranslateGemma에 비해 무려 18배 가까이 빠른 데다가 가벼운 대화에서는 실시간 번역기로 사용할 수 있을 만한 속도입니다.
하지만 NLLB 모델 구조의 특성상 긴 문장일수록 성능이 다소 떨어집니다. 이러한 Encoder-Decoder 구조는 Encoder의 정보를 Decoder에 입력 받아 다음 토큰을 생성하는데, 문장의 길이가 길어질수록 Encoder의 정보가 뒤의 토큰을 생성하는 데 영향력을 많이 미치지 못합니다. 연구진도 이러한 특성을 고려하여 학습한 데이터의 길이도 최대 512 토큰으로 제한했습니다. 만약 테스트 데이터셋보다 훨씬 긴 문장이 입력된다면 급격하게 성능이 저하되는 현상이 발생할 수도 있습니다.
구조가 다른 만큼 훈련의 방향성도 상이합니다. 애초에 TranslateGemma는 ‘더 자연스러운 번역’을 목표로 삼았습니다. 파인튜닝(SFT) 이후에 강화학습을 결합하여 때문에 답변 형태를 인간 선호에 맞게 조율했다고 볼 수 있습니다. 하지만 NLLB는 그 구조상 입력 소스와 출력 소스가 대응되도록 학습됐습니다. 때문에 TranslateGemma는 말을 건네는 듯한 결과가, NLLB는 직역한 어투의 결과가 나타난다고 볼 수 있습니다.

정량 평가 결과는 어떨까?

기계 번역 결과를 평가하는 것은 사실 상당히 까다롭습니다. 한 가지 예를 들어보겠습니다.
💬
원문: I didn’t catch what he said.
A: 나는 그가 뭐라고 말했는지 잘 듣지 못했다.
B: 그가 무슨 말을 했는지 이해하지 못했다.
C: 그가 한 말을 놓쳤다.
위에 제시한 세 문장은 모두 원문의 의미를 자연스럽게 전달하고 있습니다. 실제로도 충분히 좋은 번역으로 받아들여질 수 있죠. 그러나 규칙 기반 평가 지표의 관점에서 보면, 이 문장들은 서로 상당히 다르게 보입니다. 단어 선택, 조사 사용, 문장 구조가 모두 다르기 때문에 단순한 단어 일치율이나 n-gram 중복률에 기반한 평가는 이들 중 일부만을 높은 점수로 평가하고, 나머지는 부정확한 번역으로 간주할 가능성이 큽니다.
이러한 한계를 보완하기 위해 실제 연구에서는 주로 Human Evaluation을 도입합니다. 가장 이상적인 방법이기는 하나, 예상하다시피 다수의 평가자를 모집하는 데 비용이 많이 들고 일관된 평가가 이뤄지도록 교육하는 등의 일은 쉽지 않습니다. 퀴즈(링크 🔗)를 통해 간접적으로 간이 평가 방식을 경험해볼 수 있으니, 정성 평가는 여러분들께 맡기도록 하겠습니다.
이번 실험에서는 대안으로 보완된 정량 평가 방법인 chrF++를 도입했습니다. 이는 NLLB에서도 채택된 평가 지표로, 문자 단위의 세밀한 일치(Character n-gram)와 단어 단위의 구문적 일치(Word n-gram)를 함께 고려하여 번역 품질을 평가한다는 점에서 기존의 규칙 기반 지표보다 한층 강건한 특성을 가집니다.
문장 단위로 chrF++ 기반 정량 평가 결과, NLLB의 평균 점수는 28.38점, TranslateGemma 평균 점수는 28.15점이 나왔습니다. 이 결과를 해석해보자면 “두 모델의 전반적인 번역 품질은 유사한 수준에 있으나, 표면적 문자·어휘 중복도를 기준으로 한 평가에서는 NLLB가 다소 안정적인 성능을 보인다”는 결론에 다다릅니다. 직관과는 조금 다른 결과가 나왔습니다. 왜 그랬을까요?
chrF++는 번역의 자연스러움이나 의미 보존 자체보다, 예시 정답과 표면적 문자 중복도를 중심으로 점수를 산출합니다. 이를 잘 보여주는 예시가 다음 문장입니다.
예시 정답: 완충하면 4시간 정도 사용할 수 있습니다.
NLLB: 전원 충전으로 약 4시간 정도 가동할 수 있습니다. (42.58점)
TranslateGemma: 완충 상태에서 약 4시간 정도 사용 가능합니다. (35.88점)
의미 전달 측면에서 보면 TranslateGemma의 번역은 매우 자연스럽고, 실제 한국어 사용 맥락에서도 어색함이 거의 없습니다. 반면 NLLB의 번역은 “전원 충전으로”, “가동”과 같은 다소 기계적인 표현을 사용하고 있음에도 불구하고, chrF 점수는 NLLB가 42.58점으로 TranslateGemma(35.88점)보다 더 높게 산출되었습니다.
이는 chrF++가 ‘완충하면 / 전원 충전으로’, ‘사용할 수 있습니다 / 가동할 수 있습니다’와 같이 의미적으로는 유사하지만 문자 수준에서는 더 많이 겹치는 표현에 높은 점수를 부여하기 때문입니다. 특히 조사, 어미, 문장 종결 표현과 같은 표면적 형태가 기준 문장과 유사할수록 chrF++ 점수는 상승하게 됩니다. 이 경우, 짧은 문장 내에서 ‘할 수 있습니다’ 표현이 겹치면서 NLLB 결과가 높은 점수를 부여 받은 것입니다. TranslateGemma의 번역은 “완충 상태에서”, “사용 가능합니다”와 같이 표현을 자연스럽게 재구성하면서도 문자 배열이 기준 문장과 달라졌기 때문에, 의미가 유사함에도 불구하고 상대적으로 불리하게 평가되었습니다. TranslateGemma 특유의 의역이 되려 역효과를 불러일으킨 것입니다.
안타깝게도 WMT24++ 데이터의 예시 정답의 번역 품질이 그다지 좋지 않았습니다. 테스트에 샘플링되지는 않았지만, 아래와 같은 데이터가 포함되어 있었습니다.
💬
영어 원문: They were also forced to work as the princess’ servant. They didn’t mind it much thought, as they got a friend too.
한국어 번역: 그는 또한 공주의 하인으로 일하도록 강요받았다. 그에게도 친구가 생겼기 때문에 크게 개의치 않았다.
여러분은 이것이 좋은 번역이라고 생각하시나요? 자연스러운 번역이 무엇인지 사람마다 의견은 다르겠지만 한국어 번역에 복수 표현을 반영하지 않았고, ‘were (also) forced’를 ‘강요받다’는 피동 표현으로 직역했습니다. 실제 언어 사용자를 고려하지 않은 번역이라는 생각이 듭니다. 약 1000건 중 이런 데이터가 적지 않은 양을 차지 하고 있습니다. 이러한 점을 고려한다면 꽤 신뢰하기 어려운 벤치마크 점수가 됩니다. 하지만 그래도 이미 공개된 모델들과 표준적인 기준으로 비교할 수 있는 거의 유일한 방법이기에 차선책으로 택했습니다.

그래서 기계 번역의 미래는?

앞서 정량 평가 결과는 차치하고, TranslateGemma 모델은 55개 언어를 지원하면서도 조금 더 일반적이고 자연스러운 결과를 출력하는 것은 사실입니다. 앞서 언급하지는 않았지만 4B 정도 되는 작은 모델에 이미지를 이해하고 추론하는 능력도 포함하고 있습니다. 하지만 번역 기능의 측면에서만 본다면 모델은 불필요하게 무겁습니다. 실용적으로 활용하기에는 무리가 있는 수준이죠. 연구진도 이번 연구의 의의를 ‘특정한 목적을 달성하기 위해서 파인튜닝할 때, 모델의 사이즈가 작더라도 더 뛰어난 성능을 보일 수 있다’는 점을 언급합니다. 즉, 처음부터 번역기를 만들려고 했다기보다는 ‘번역’을 도구로 삼아 가능성을 확인해본 셈이죠. 데이터셋이 확보된다면 더 작은 모델에서도 분명히 더 좋은 결과를 얻을 수 있었을 것입니다.
또한 앞서 보여드린 간이 실험이 시사하는 것은 훈련 데이터도 중요하지만, 평가 데이터와 그 기준도 중요하다는 점입니다. 요즘 많은 논문들이 기존의 벤치마크를 기준으로 서로 1등이라고 자랑하는 기사를 쉽게 찾아볼 수 있습니다. 사실 이런 결과들도 신중히 볼 필요가 있습니다. 이런 경향은 국내외를 막론하고 어디서나 벌어지고 있고, 심지어는 연구 논문에서도 본인의 연구 성과를 돋보이게 하기 위해 유리한 지표를 활용하는 경우가 비일비재합니다. 막연히 ‘신뢰할 수 있는 기관에서 연구한 결과니까’, ‘유명한 학회에서 나온 논문이니까’라고 믿어 버리기보다는 조금 더 비판적으로 바라볼 필요가 있는 것입니다.
특히나 다중 언어를 지향하는 모델은 모든 실험 결과를 일일이 검토하고 품질을 평가하기 어려울 것입니다. 일반적인 실험 참가자를 구하는 것도 어려운데, 각 국가에서 적어도 2개 국어를 하는 사람을 참여하도록 설득해야 하니까요. 가령, 우리나라에서 리투아니아어 신문을 읽을 수 있는 수준의 참가자를 데려온다고 생각해봅시다. 평가 과정이 정말 쉽지 않겠죠? 실제로 많은 연구자들의 고민이기도 합니다.
영화 <설국 열차>에서 사용하는 실시간 통역기 ‘픽셀 버드’
출처: 영화 <설국 열차> 스틸컷
영화 <설국 열차>에서 사용하는 실시간 통역기 ‘픽셀 버드’ 출처: 영화 <설국 열차> 스틸컷
저는 번역 연구를 볼 때마다 설국 열차의 실시간 통역기 ‘픽셀 버드’가 다가오고 있다는 희망이 느껴집니다. 현실 속 AI 번역 모델은 정말 내 손 안의 AI, 실체를 지닌 AI 디바이스를 실감할 수 있는 첫 번째 아이템이 되지 않을까 감히 예상해 봅니다. 번역 모델로 ‘통역’을 하는 것은 또 다른 문제지만요. 아직 비록 한계점이 뚜렷하기는 하지만, TranslateGemma와 같은 도전은 계속 상상하던 미래 세계를 꿈을 꾸게 만듭니다.