#110 위클리 딥 다이브 | 2025년 9월 24일Transformer에 위치 임베딩이 빠져도 돼?Positional Embedding의 발전과정NoPE : No Positional Embedding하이브리드 Positional Embedding
#110 위클리 딥 다이브 | 2025년 9월 24일
이번주 뉴스레터에는 이런 내용을 담았어요!
- Transformer의 시작과 함께 등장한 Positional Embedding의 발전 과정을 살펴봅니다.
- Positional Embedding이 없는 NoPE에 대해 알아봅니다.
- Positional Embedding의 하이브리드 방식을 소개합니다.
Transformer에 위치 임베딩이 빠져도 돼?
안녕하세요, 에디터 쏘입니다 :)
불과 3년 전만 해도, 긴 텍스트와 코드를 한 번에 입력해 언어 모델에 명령을 내리고 자동화하는 일은 상상조차 하기 어려웠습니다. 그러나 이제는 수십만 토큰, 책 한 권 분량의 문맥도 가뿐히 다루는 모델들이 등장했습니다. 이 놀라운 발전 뒤에는 위치 임베딩(Positional Embedding)이 있습니다. 이는 문장 내 토큰의 위치 정보를 모델에 알려주는 역할을 하는데요. Transformer가 처음 세상에 나왔을 때부터 없으면 안 되는 부품처럼 여겨진 장치죠.
Self-Attention은 본질적으로 토큰 집합을 순서에 상관없이 처리하는 구조입니다. 그래서 I love you와 You love I를 구별하려면 반드시 위치 정보가 주어져야 했습니다. 그래서 연구자들은 각 위치마다 고유한 벡터를 만들어 단어 임베딩에 더해주는 방식을 도입했습니다. 이것이 바로 우리가 잘 아는 Positional Embedding입니다. 처음에는 사인·코사인을 이용한 단순한 방식이었지만, 이후 Relative Position, RoPE, 그리고 ALiBi 같은 변형된 방식이 등장했습니다.
그런데 최근 들어 흥미로운 움직임이 포착되고 있습니다. 일부 최신 모델들이 위치 임베딩을 '선택적으로' 사용하기 시작한 것입니다. 심지어 특정 레이어에서는 아예 사용하지 않기도 하죠. Transformer의 필수 요소라고 믿었던 위치 임베딩, 정말 빼도 괜찮은 걸까요? 왜 위치 임베딩을 빼는 시도를 했을까요?
오늘은 Positional Embedding이 걸어온 발전 과정을 따라가 보겠습니다. 그리고 최신 모델들은 어떤 전략을 택하고 있는지도 함께 살펴보겠습니다.
Positional Embedding의 발전과정
초창기 Transformer에는 위치를 사인·코사인 곡선으로 표현해 토큰 임베딩에 더해주는 Absolute Positional Embedding이라는 아주 단순한 방식이 쓰였습니다. 이는 Tranformer를 처음 제안한 논문에서 도입한 방식으로, 학습 파라미터가 필요 없고 계산이 간단해 당시에는 매력적인 방식이었습니다. 하지만 한계가 명확했습니다. 각 위치마다 고정된 값을 사용하기 때문에, 학습 시에 사용된 문장 길이보다 긴 문장이 입력으로 들어오면 모델은 갑자기 불안정해집니다. 학습 시에 본 적 없는 길이에서는 일반화가 되지 않습니다. 또, 토큰 간의 거리는 고려가 되지 않습니다.
그래서 연구자들은 다른 길을 찾기 시작했습니다. “절대 위치가 아니라, 토큰 간의 상대적 거리를 알려주면 어떨까?” 이렇게 탄생한 것이 Relative Positional Embedding(2018)입니다. 앞에서부터 토큰에 순서를 하나씩 고정된 값을 부여하는 것이 아니라, 각 토큰마다 다른 단어 토큰과의 상대적 위치 정보를 행렬로 표현합니다. 두 토큰 사이의 간격 자체를 모델에 넣어주니 문법적 구조나 구문 관계를 잡아내는 데 훨씬 강력합니다. 하지만 Attention 연산을 할 때마다 Positional Embedding을 계산해야 하기 때문에 계산 비용이 만만치 않았습니다.
RoPE(Rotary Positional Embedding, 2021)는 기존 Absoulte와 Relative 방식의 단점을 보완한 방법입니다. 벡터의 회전 변환을 통해 상대적인 위치를 나타내는 방식을 사용합니다.
위 수식처럼 고정된 위치 값을 Query와 Key에 각각 회전 변환을 수행하여 단어 토큰 간의 상대적 위치 정보를 자연스럽게 녹여냅니다. 이 방법은 추가적인 파라미터가 필요 없어 앞서 본 Relative 방식보다 효율적으로 문맥을 다룰 수 있고, 학습 시 보지 못한 입력 길이에도 비교적 안정적입니다. 코드 구현 과정에서도 기존 Attention 연산에 회전 연산만 추가하면 되므로 간단합니다. 이러한 이유로 LLaMA, Qwen 등 최신 언어 모델의 표준 기술로 자리잡았습니다. 하지만 RoPE는 상대적 거리 표현에는 강하지만 문장의 시작이나 절대적 위치 같은 신호는 직접적으로 담아내지 못 한다는 단점이 있습니다.
그리고 다르게 접근한 ALiBi(Attention with Linear Biases, 2021)가 있습니다. “복잡하게 생각하지 말고, Attention 점수에 거리 페널티만 더하면 어떨까”라는 아이디어입니다. ALiBi는 Attention 점수에 선형 편향(Linear Biases)을 추가하는 방식입니다. 토큰 간 거리가 멀어질수록 Attention 점수가 조금씩 깎이도록 설계된 것이죠. 추가 학습이 필요없고 단순한 이 아이디어가 장문 일반화(Long-context Generalization), 즉 모델이 훈련 때 본 입력 길이보다 훨씬 더 긴 입력이 들어와도 안정적으로 작동하는 능력에서 강력한 성능을 보여주었습니다. BLOOM(2022)은 Hugging Face 주도의 초거대 공개 모델로, ALiBi를 적용해 긴 문맥 처리에서 안정적인 성능을 보인 대표적인 사례입니다.
RoPE와 ALiBi는 지금까지 긴 문맥 처리를 위한 사실상의 표준처럼 자리 잡았습니다. RoPE는 정밀한 상대적 거리 표현을, ALiBi는 단순하면서도 뛰어난 장문 일반화를 제공했죠. Absolute, Relative, RoPE, ALiBi 모두 긴 문장을 효율적으로 처리하기 위해 위치 임베딩을 다양하게 변형한 결과입니다.
NoPE : No Positional Embedding
그런데 최근에는 위치 임베딩을 아예 빼버리는 시도가 등장했습니다. 이를 NoPE(No Positional Embedding)이라고 합니다. 2022년 EMNLP에서 발표된 연구는 Transformer에 위치 임베딩을 제거해 학습을 진행했습니다. 상식적으로라면 성능이 크게 떨어질 거라 생각했지만, 결과는 달랐습니다. 성능 저하는 거의 없었고, 일부 태스크에서의 성능은 사실상 차이가 없었습니다.
왜 이런 일이 일어났을까요?
사실 Transformer 학습 과정에는 위치 임베딩 말고도 순차적 구조를 학습하게 하는 기법이 숨어 있습니다. 바로 Causal Mask입니다. Self-Attention에서 미래 위치의 토큰을 참조하지 못 하게 막는 기법입니다. Autoregressive 구조의 GPT 계열 모델은 특정 토큰 를 예측할 때 과거 토큰 만 사용합니다. 이를 구현하기 위해 Attention 계산 시, 현재 토큰 뒤에 있는 토큰은 모두 마스킹하여 ‘참조 금지’를 걸어둡니다. 이 제약 조건 자체가 일종의 암묵적인 위치 신호로 작동해, 모델은 별도의 벡터 없어도 앞뒤 순서를 학습할 수 있었던 겁니다.
또 중요한 포인트는 RoPE의 한계에 있습니다. RoPE는 토큰의 위치를 사인·코사인 회전 각도를 변환해 상대적 거리를 임베딩으로 만듭니다. 그런데 토큰의 인덱스가 충분히 커지면 각도(삼각함수 변환 값)가 삼각함수의 주기를 여러 번 돌아 겹치게 됩니다. 이 때문에 멀리 떨어진 토큰들이 서로 다른 위치임에도 불구하고 동일한 패턴을 가진 것처럼 보이는 Aliasing 현상이 발생합니다. 그 결과 훈련 시 보지 못한 초장문의 입력에서는 RoPE의 성능이 불안정해질 수 있습니다.
반면 NoPE는 이런 명시적인 위치 정보가 없기 때문에 RoPE에서 나타나는 왜곡을 피할 수 있습니다. 비록 위치 정보의 손실이 어느정도 있지만, 대신 각 토큰이 가진 순수한 의미 정보만으로 서로간의 연관성을 계산합니다. 그 결과 모델은 원거리 토큰 간에도 의미적으로 밀접한 관계를 더 자유롭게 포착할 수 있습니다. 모델은 암묵적으로 상대적 위치 구조를 파악하며, 전체 맥락을 재구성할 여지를 가지게 됩니다. 덕분에 훈련 데이터보다 긴 문장이 입력되었을 때도 안정적인 일반화 성능을 보이는 잠재력을 갖게 됩니다.
하이브리드 Positional Embedding
NoPE + RoPE 하이브리드 전략
LG AI Research의 EXAONE 4.0은 RoPE를 적용한 Local Attention 레이어와, 적용하지 않은 NoPE Global Attention 레이어를 3:1로 비율로 결합해 만들었습니다. 그리고 Global Attention 레이어를 통해 문서 전체 맥락을 다루는 일반화 능력을 향상시켰습니다. 비록 NoPE는 토큰 간의 상대적 순서를 직접적으로 알 수 없기 때문에 어느정도 손실이 있습니다. 하지만 초기 RoPE 레이어가 로컬한 순서 정보를 이미 충분히 학습하였기 때문에 NoPE 레이어에서는 더 넓은 맥락을 처리하는 데에 집중할 수 있었습니다.
주파수 스케일링 하이브리드 전략
Google의 Gemma 2와 3는 RoPE의 회전 주기를 조절하는 하이브리드 전략을 사용합니다. 회전 주기가 큰 Global 레이어와 회전 주기가 작은 Local 레이어를 혼합한 하이브리드 방식입니다.
Global 레이어에서는 아래 RoPE 계산에 큰 값의 base를 사용합니다. base 값이 클수록 회전 주파수가 낮아져 파형이 천천히 진동하며, 이는 멀리 떨어진 토큰들의 전반적인 순서와 맥락을 파악하는 데 효과적입니다.
Local 레이어에서는 작은 값은 base를 사용합니다. base 값이 작을수록 회전 주파수가 높아져 사인·코사인 파형이 빠르게 진동하는데, 이는 가까운 토큰 간의 세밀한 순서를 파악하는 데 유리합니다.
Gemma 모델은 이렇게 특성이 다른 두 종류의 레이어를 혼합하여 짧은 문맥의 정밀함과 긴 문맥의 일반화 성능을 모두 잡을 수 있었습니다.
두 모델의 사례를 통해 위치 신호를 무조건 강하게 주입한다고 해서 긴 문맥의 이해가 좋아지지 않고, 반대로 아예 위치 정보가 없이는 세밀한 순서 구조를 파악할 수 없다는 걸 알 수 있습니다. 숲과 나무를 봐야 하는 것처럼, 전체 맥락을 보면서도 자세히 보아야 장문을 이해할 수 있습니다.
Positional Embedding은 Transformer의 핵심이자 지난 7년간 끊임없이 실험과 진화를 거듭해왔습니다. Absolute에서 Relative, RoPE와 ALiBi, 그리고 이제는 NoPE와 하이브리드까지.
앞으로의 모델은 어떤 균형점을 찾아갈지, 또 어떤 새로운 방법으로 진화할지 궁금하지 않나요?