#124 위클리 딥 다이브 | 2025년 12월 31일☃️ 겨울왕국 ‘실사판’ 올라프? 디즈니가 만든 보행 로봇의 비밀올라프를 올라프답게올라프를 “더” 올라프답게!무대 위에서 올라프를 ‘제어’하는 법
#124 위클리 딥 다이브 | 2025년 12월 31일
이번주 뉴스레터에는 이런 내용을 담았어요!
- 올라프 로봇의 기구 설계를 요약합니다.
- 보행을 학습시키는 강화학습 보상 설계를 정리합니다.
- 실제 공연에서의 운영 방식을 소개합니다.
A/B 테스트 제목: 실사판 올라프? 디즈니의 로봇 설계와 강화학습
☃️ 겨울왕국 ‘실사판’ 올라프? 디즈니가 만든 보행 로봇의 비밀
안녕하세요, 에디터 스더리입니다!
올해 마지막 뉴스레터네요. 2025년에도 정말 엄청난 AI의 발전과 관련 뉴스들이 쏟아졌던 한 해였던 것 같습니다. 저는 올해 초부터 로봇 분야를 한 번 공부해보고 싶다고 생각해왔는데요. 마침 로봇을 다루는 흥미로운 논문을 알게 되어, 이를 올해 마지막 호로 마무리해보려 합니다.
오늘 다룰 논문은 디즈니의 올라프 로봇 프로젝트입니다. 이 연구의 핵심 키워드는 그럴듯함(Believability)—즉, 관객이 “로봇이네”라고 느끼게 만드는 신호를 얼마나 잘 줄이느냐—에 있습니다. 영화에서 어떤 배우의 연기가 부자연스러워 몰입이 깨진 적 있으시죠? 캐릭터 로봇도 비슷합니다. 발 충격이나 미세한 떨림(Jitter) 같은 ‘한 끗 차이’만으로도 캐릭터는 덜 생동감 있게 느껴집니다.
디즈니는 이 문제를 단순히 보행 성능을 높이는 방향으로 풀기보다, 관객이 자연스럽게 믿을 수 있는 움직임을 만드는 데 초점을 둡니다. 보행을 강화학습으로 학습시키면서 발 충격, 소음, 과열 등 현실 제약을 보상 설계에 반영하는 것이죠. 이번 뉴스레터에서는 올라프가 '잘 걷는 로봇'을 넘어 '캐릭터'가 되었는지, 그 설계와 학습 전략을 살펴보겠습니다!
올라프를 올라프답게
올라프의 외형부터 들여다볼까요? 올라프는 귀엽지만 보행 로봇 입장에서는 꽤 까다로운 조건을 가지고 있습니다. 현실적인 비율과 거리가 멀기 때문인데요. 올라프는 눈사람 캐릭터답게 큰 머리와 이를 지탱하는 가느다란 목을 가졌고, 다리는 드러나지 않은 채 둥근 발만 붙어 있는 형태입니다. 디즈니 팀은 이 비현실적인 비율과 실루엣을 유지하면서도, 실제로 걷고 움직일 수 있게 만들기 위해 여러 아이디어를 꺼내 듭니다.
먼저, 올라프의 다리는 좌우가 다르게 설계되었습니다. 올라프의 다리는 눈에 보이지 않아야 하므로 몸통 아래에 완전히 숨겨져 있어야 합니다. 이렇게 좁은 공간 안에 모터와 관절을 넣어야 하다 보니, 움직일 수 있는 범위가 제한되고 왼쪽과 오른쪽 다리가 서로 부딪히기 쉽습니다. 그래서 디즈니 팀은 좌우가 서로 다른 비대칭형 설계를 적용했습니다. 한쪽 다리의 앞뒤 방향을 반대로 배치함으로써 같은 공간에서도 다리가 서로 덜 걸리게 만든 것이죠. 덕분에 다리가 회전할 때의 충돌이 줄어들고, 내부 부품 수도 줄일 수 있었습니다.
다음으로, 올라프의 자연스러운 표정과 제스처를 위해 연구팀은 원격 구동을 사용합니다. 모터가 관절에 바로 붙어 그 관절을 직접 움직이는 방식인 직접 구동과 달리, 원격 구동은 관절 근처에 모터를 달기 어려울 때 머리나 몸통처럼 공간이 있는 곳에 모터를 배치한 뒤 연결 막대(Link)로 힘과 움직임을 전달하는 방식입니다. 올라프의 얼굴과 어깨는 내부 공간이 매우 좁아 모든 움직임을 관절 근처에서 바로 만들기 어렵습니다. 그래서 디즈니 팀은 구조가 단순한 동작은 직접 구동을, 공간이 부족하거나 구조가 복잡한 동작은 원격 구동을 택했습니다.
예를 들어 눈의 좌우 회전(Yaw)은 눈 모듈 주변에 모터를 붙일 여지가 비교적 남아 있어 직접 구동으로 처리합니다. 반면 위아래 시선(Pitch)이나 눈꺼풀(Eyelid)은 회전축이 얼굴 외형과 겹치기 쉽고, 눈 주변 공간도 훨씬 빡빡해 모터를 관절 가까이에 두기 어렵습니다. 그래서 디즈니 팀은 모터를 조금 더 안쪽에 배치한 뒤, 링크로 힘만 전달하는 원격 구동을 사용합니다. 턱도 비슷합니다. 모터 하나가 아래턱(Jaw)을 움직이면, 링크가 위턱을 함께 따라 움직이게 만들어 입이 자연스럽게 열리도록 합니다.
어깨(Shoulder Linkage)는 이 원리가 가장 잘 보이는 부분입니다. 위 어깨 확대 그림에는 관절 회전축(초록)과 모터 회전축(빨강)이 표시되어 있는데요. 외형과 내부 공간 제약 때문에 관절 바로 옆(초록축 주변)에 모터를 달기 어렵기 때문에, 모터를 몸통 안쪽에 두고 링크가 모터 회전을 관절이 필요한 축의 회전으로 바꿔 팔이 자연스럽게 움직이도록 합니다.
이러한 설계 덕분에 올라프는 좁은 로봇 내부에서도 표정과 제스처를 구현할 수 있고, 동시에 모터와 기계 부품을 겉으로 드러내지 않아 캐릭터의 인상을 유지할 수 있습니다. 더불어 디즈니 팀은 몸통의 아랫 부분을 부드러운 폼(Foam)으로 만들어 다리를 가리면서도 충격을 흡수하게 했고, 팔·코·단추 같은 부속은 자석으로 고정해 넘어지는 등 충격이 생기면 자연스럽게 분리되도록 설계했습니다. 덕분에 겉모습을 유지하면서도 파손 위험을 줄이는 내구성까지 함께 챙길 수 있었습니다.
올라프를 “더” 올라프답게!
이제 겉모습과 구조를 갖췄으니, 올라프답게 걷게 만드는 방법을 살펴볼까요? 디즈니 팀은 올라프의 자연스러운 걸음을 위해, 강화학습(Reinforcement Learning; RL)을 사용했습니다. 단순히 넘어지지 않게 걷는 것이 목표가 아니라, 애니메이션 속 움직임을 얼마나 자연스럽게 재현하느냐가 핵심이었죠. 다만 애니메이션에서 자연스러워 보이던 동작도 실제 로봇으로 옮기면 그대로 재현되기 어렵습니다. 발이 바닥에 닿는 순간 생기는 충격과 소음, 반복 동작에서 누적되는 과열, 그리고 관절이 허용하는 범위 같은 물리적 한계가 즉시 드러나기 때문입니다.
따라서 연구진은 먼저 애니메이션 레퍼런스를 기반으로 기준 동작(Kinematic Reference)을 만들고, 이 움직임을 따라 걷도록 RL 정책(Policy)을 학습시킨 후, 이러한 현실 제약을 모두 보상 설계(Reward Design)에 함께 반영했습니다.
보상 설계는 강화학습에서 “어떤 행동에 점수를 줄지”를 정하는 과정입니다. 학습은 이 점수를 높이는 방향으로 진행되기 때문에, 보상을 어떻게 설계하느냐가 곧 로봇이 어떤 행동을 배우는지를 결정합니다. 같은 ‘걷기’라도 보상에 무엇을 넣느냐에 따라 로봇은 더 빠르게 걷기도 하고, 더 조용하게 걷기도 하는 것이죠.
이 논문에서 보상은 네 가지 항목으로 이루어집니다. 매 순간 t에서 로봇이 받는 보상 r_t는 애니메이션 기준 동작을 얼마나 닮게 따라했는지를 나타내는 모사(Imitation), 과하거나 덜컥거리는 움직임을 줄이는 정규화(Regularization), 착지 순간의 충격을 줄여 소음을 낮추는 충격 감소(Impact Reduction), 마지막으로 열을 제한하는 한계(Limits)를 합산하여 설계됩니다.
먼저 모사(Imitation)는 올라프의 걸음이 영화 속 올라프처럼 보이도록 만드는 핵심 보상입니다. 단순히 걷는 것뿐만 아니라 올라프 특유의 뒤꿈치-앞꿈치 보행(Heel-toe Motion) 스타일까지 학습하여 캐릭터의 개성을 그대로 살리도록 합니다. 정규화(Regularization)는 힘을 과하게 쓰거나 관절을 급하게 움직여 덜컥거리는 행동에 벌점을 주어 토크 사용이나 급격한 변화가 줄어들도록 만들고, 결과적으로 움직임이 더 부드럽고 안정적으로 다듬어지게 합니다.
이제부터가 디즈니다운 정교한 설계가 드러나는 부분입니다. 로봇이 걸을 때 발생하는 '쾅쾅'거리는 기계적인 발소리는 캐릭터의 생동감을 깨뜨리는 요소입니다. 이를 해결하기 위해 연구팀은 발의 속도 변화량이 너무 크면 페널티를 주는 방식으로 충격 감소(Impact Reduction) 보상을 설계하여 착지가 더 부드러워지게 학습을 유도합니다. 실제 하드웨어 실험에서도 충격 감소 보상을 추가한 정책은 착지 충격으로 인한 소음을 평균 13.5 dB 낮췄다고 보고합니다. 그 결과 올라프는 로봇 특유의 거친 느낌이 덜하고, 실내 공간에서도 한층 자연스럽게 돌아다닐 수 있습니다.
마지막으로 한계(Limits) 보상은 로봇이 스스로 무리하지 않게 만드는 장치입니다. 여기서 가장 큰 난관은 올라프의 가느다란 목이었는데요. 올라프 로봇은 얇은 목으로 무거운 머리를 지탱해야 했으며, 특히 의상을 입은 상태에서는 열이 잘 빠져나가지 않아 과열 위험이 컸습니다. 실제로 열을 고려하지 않은 정책은 실험에서 40초 만에 100°C에 도달해 중단해야 했다고 보고합니다. 이를 완화하고자 연구팀은 열 감지 정책(Thermal-aware Policy)을 도입했습니다. 모터 온도를 실시간 입력값으로 받아, 온도가 한계에 가까워질수록 동작을 미세하게 조절해 열 발생을 줄이도록 유도한 것입니다. 덕분에 로봇은 기준 동작을 최대한 유지하면서도, 과열 위험 구간에서는 스스로 무리하지 않는 방향으로 행동을 바꿔 하드웨어 안전을 함께 확보할 수 있게 되었습니다.
무대 위에서 올라프를 ‘제어’하는 법
그렇다면 올라프는 실제로 어떻게 관객들 앞에서 운영될까요? 디즈니팀은 다리·몸통·목처럼 균형과 이동에 직접 영향을 주는 기본 동작부(Backbone)은 강화학습 정책이 맡고, 팔·눈·입처럼 ‘연기’를 담당하는 부위는 별도의 제어로 운영합니다. 이렇게 분리하면 보행이 흔들릴 때 표정까지 같이 무너지는 일을 줄일 수 있고, 현장에서 조정해야 할 요소도 훨씬 명확해져 안정적인 운영이 가능해집니다.
또 한 가지 실용적인 포인트는, 올라프의 이동을 ‘서기(Standing)’와 ‘걷기(Walking)’ 두 모드로 나눠 운영한다는 점입니다. 공연에서는 멈춰 서서 관객을 바라보다가, 다시 이동해야 하는 순간이 자주 생기는데요. 모드를 분리해두면 각 모드를 더 잘 최적화할 수 있고, 현장에서는 상황에 맞게 두 모드를 매끄럽게 전환할 수 있습니다. 이때 제스처와 표정 제어는 별도의 레이어로 얹혀 캐릭터의 연기를 이어갈 수 있습니다.
이렇게 겉으로는 마냥 귀여운 로봇이어도 엄청난 계산과 기술이 뒷받침됩니다. 올라프를 만들 때 어려운 것은 ‘잘 걷게 하는 것’보다 관객이 자연스럽게 받아들이는 ‘그럴듯한 걸음을 만드는 일’이었습니다. 발소리, 진동, 과열 같은 사소한 신호가 캐릭터의 생동감을 금세 깎아먹을 수 있으니까요. 내년부터 디즈니월드 겨울왕국 존에서 이 올라프가 돌아다닌다고 합니다. 언젠가 디즈니랜드에서 실제로 걷고 말하는 올라프를 만나게 된다면 신기할 것 같네요! ㅎㅎ
올해도 함께해 주셔서 감사합니다.
따뜻한 연말 보내시고, 새해에도 유익하고 재밌는 딥다이브로 찾아오겠습니다 :)