#109 위클리 딥 다이브 | 2025년 9월 17일 AI는 어떻게 동영상 하이라이트를 만들까?VTG는 어떻게 이루어질까?동영상을 이해하는 관점에서 바라본 VTG 연구들 VTG는 앞으로 어떻게 발전할까?

#109 위클리 딥 다이브 | 2025년 9월 17일

💡

이번주 뉴스레터에는 이런 내용을 담았어요!

VTG(Video Temporal Grounding)에 대해 소개합니다.

특정 관점에서 VTG(Video Temporal Grounding)의 연구 방향성을 알아봅니다.

VTG(Video Temporal Grounding)의 미래에 대해 예측합니다.

AI는 어떻게 동영상 하이라이트를 만들까?

안녕하세요 에디터 져니입니닷!

다양한 스포츠 종목에서 사용되는 AI 하이라이트 출처: (좌) 네이버 스포츠의 골프 홈페이지 중 일부 (우) 네이버 스포츠의 배구 홈페이지 중 일부

AI가 만들어준 하이라이트 영상을 본 적 있으신가요? 스포츠를 좋아하신다면 이미 꽤 익숙할지도 모릅니다. 저 역시 AI로 제작된 야구, 골프, 배구 등 다양한 경기 하이라이트 영상을 즐겨봤는데요. 덕분에 긴 경기를 모두 시청하지 않아도 주요 장면만 빠르게 확인할 수 있었죠. 곰곰이 생각해보면 참 놀라운 일입니다. 스포츠 경기는 길고 복잡하게 진행되며, 화면도 끊임없이 변화합니다. 그런데도 AI는 특정 선수의 활약 장면이나 경기의 핵심 순간만 쏙쏙 뽑아서 보여주죠. 어떻게 이런 작업을 할 수 있는 것일까요?

이처럼 동영상 속에서 사용자가 원하는 중요한 구간을 찾아내는 작업을 VTG(Video Temporal Grounding)라고 합니다. 이번 글에서는 VTG에 대해 함께 알아보겠습니다.

VTG는 어떻게 이루어질까?

VTG(Video Temporal Grounding)는 주어진 텍스트에 대응하는 특정 시간 구간을 비디오 안에서 찾아내는 인공지능 태스크를 의미합니다.

쉽게 말해 “빨간 모자를 쓴 투수가 공을 던지는 장면을 보여줘”와 같은 문장이 주어졌을 때, 영상 속에서 그 장면이 시작되고 끝나는 정확한 시간을 찾아주는 기술입니다. VTG는 어떤 과정을 통해 구간을 추출해낼 수 있을까요?

VTG의 일반적인 파이프라인은 다음과 같습니다.

먼저 동영상과 텍스트 각각의 인코더(Encoder)를 이용해서 특징을 추출합니다. 이는 동영상이 어떤 특징을 가지고 있는지, 그리고 사용자가 원하는 내용인 텍스트는 어떤 의미인지 파악하는 단계입니다.

그리고 이렇게 얻은 동영상과 텍스트 특징을 결합하는 단계가 Multimodal Fusion입니다. 즉, 서로 다른 종류의 정보(동영상 & 텍스트)를 하나로 합쳐 의미를 이끌어내는 과정입니다. 동영상의 특징은 움직임과 맥락을 담고, 텍스트의 특징은 사용자가 원하는 조건을 담고 있습니다. 이 두 표현을 잘 결합한다면, 모델은 문장에서 말한 내용이 영상 속 어느 부분에 해당하는지 훨씬 정밀하게 판단할 수 있습니다.

그 이후에 동영상 속에서 구간을 선택하는 Proposal Model을 사용합니다. 긴 동영상 속에서 다양한 ‘구간 후보’를 만들고, 그 중에서 어떤 후보 구간이 가장 잘 맞는지 판단하는 과정입니다. 대개 후보 구간의 점수를 측정해서 높은 점수를 가진 구간을 선택하는 방식을 사용합니다.

긴 동영상 속에서 장면을 일일이 비교하여 구간을 얻는 것은 비효율적이고 불안정할 수 있습니다. Proposal Model은 구간 후보를 만듦으로써 효율성과 안정성을 가지게 됩니다. Proposal Model이 유용한 접근법으로 자리잡고 있지만, 영상 전체를 텍스트와 직접 연결해 시작점과 끝점을 바로 예측하는 Proposal-free 방식도 존재합니다.

결국 VTG는 단순히 영상을 잘라내는 것이 아니라, 동영상을 정확히 이해하고 이를 텍스트로 표현된 의미와 연결하는 것이 핵심입니다.

동영상을 이해하는 관점에서 바라본 VTG 연구들

이에 따라 최근 VTG의 연구는 동영상을 어떻게 이해할 수 있는지, 다르게 말하면 어떤 방법으로 동영상 특징을 추출 방법에 따라 구분합니다.

VTG에서 동영상의 특징 추출 방법 Video Embedding VS Image Embedding 출처: ⓒ deep daiv.

먼저 기본적인 접근 방법인 Video Embedding + Temporal Modeling입니다. 이 접근은 동영상을 ‘시간에 따라 전개되는 사건’으로 바라보고, 비디오 인코더(Video Encoder)를 통해 공간 정보와 시간 정보를 함께 얻습니다. 긴 영상을 몇 초 단위의 클립으로 나누어 처리하면서, 각각의 구간에서 시각적 단서뿐 아니라 동작의 연속성과 장면 전환까지 포착합니다. 여기서 추가적으로 Temporal Modeling을 사용하여 영상의 앞뒤 흐름을 고려해서 맥락을 이해하는 과정을 추가합니다. 예를 들어, 한 장면만 보면 ‘공의 이동방향’을 구분하기 어려울 수 있지만, 연속된 구간을 함께 보면 그 차이가 명확한 것처럼 말이죠. 이렇게 시간의 흐름을 모델링하면 사건의 맥락을 더 정밀하게 잡아낼 수 있습니다. 덕분에 “투수가 공을 던진다 → 타자가 친다 → 관중이 환호한다”와 같은 사건의 연쇄가 표현 속에 녹아들어갑니다.

이 방식은 복잡한 상호작용이나 중요한 이벤트 경계를 본질적으로 포착할 수 있다는 장점이 있습니다. 다만, 그만큼 연산 비용이 크고, 긴 영상에서는 처리 속도가 느려질 수 있습니다. 또 스포츠, 강의, 드라마처럼 도메인이 달라지면 동영상의 특징에 맞는 추가 학습이나 전략을 조정해야 성능이 잘 나오는 경우가 많습니다. 정밀도를 높이려면 도메인 적응이 필요하다는 뜻이죠.

그리고 최근에 대두되는 방법은 Image Embedding입니다. 이 접근은 동영상을 ‘정지 프레임들의 집합’으로 바라보는 방식입니다. 각 프레임을 이미지 인코더(Image Encoder)로 처리해 정적인 시각적 단서를 뽑고, 이후 프레임의 변화를 통한 간단한 시간 처리를 덧붙여 흐름을 보완합니다. 장점은 분명합니다. 좋은 성능을 가진 이미지 인코더를 그대로 활용할 수 있기 때문에 확장성과 일반화 능력이 뛰어나며, 프레임별 특징을 미리 계산해두면 검색이나 구간 탐색을 매우 빠르게 할 수 있습니다. 또한 특정 인물의 얼굴, 유니폼 로고, 배경 간판처럼 한 장면만으로도 충분히 잡히는 단서를 세심하게 잘 인식합니다.

(좌) 투수가 투구를 해 공이 날라가고 있는 이미지 (우) 공만 확대한 이미지 출처: KBO

Image Embedding으로 비디오를 이해하는 접근은 한 장면만으로도 어느 정도 맥락을 파악할 수 있다는 점에 집중합니다. 예를 들어 앞서 든 ‘공의 이동방향’ 같은 상황도 프레임을 세밀하게 분석하면 공이 타자에게 날라가고 있는 장면이라는 것을 알 수 있습니다. 즉, 하나의 프레임에서 최대한 많은 단서를 끌어내어 이를 확장하면 영상 전체의 특징을 이해하는 데 활용할 수 있음을 의미합니다.

물론 ‘활용할 수 있다’는 것이 Video Embedding만큼 맥락 파악을 잘한다는 뜻은 아닙니다. 오른쪽 이미지처럼 공만 있는 프레임이라면 공의 이동 방향을 알기는 어렵죠. 그럼에도 적은 자원으로도 효율적인 특성을 추출할 수 있죠.

실제 연구 사례를 보면서 어떻게 VTG를 다루는지 알아보죠. Image Embedding을 이용하는 대표적인 VTG 연구인 TFVTG에 대해 소개하겠습니다.

TFVTG의 파이프라인 출처: Training-free Video Temporal Grounding using Large-scale Pre-trained Models (Zheng, et al., 2024)

TFVTG의 가장 큰 특징은 사전학습된 VLM(Vision-Language Model)만을 활용해 별도의 학습 과정 없이도 VTG를 수행할 수 있다는 점입니다. Image Embedding을 적극적으로 활용함으로써 추가 학습 없이도 적은 연산량으로 안정적인 성능을 낼 수 있다는 장점을 보여주었습니다.

조금 더 자세하게 구조를 보자면, 먼저 LLM은 사용자가 입력한 텍스트를 분석해 의미 단위의 작은 이벤트로 나눕니다. 예를 들어, “강아지가 달려가서 간식을 먹는다”라면, “강아지가 달려간다”와 “강아지가 간식을 먹는다”로 분리하는 것이죠.

그리고 VLM은 각 프레임과 텍스트 간의 유사도를 계산해 관련 구간을 찾아내는데요. 이때 후보 구간에 대해 새로운 점수 산정 방식을 적용해 더 정밀하게 후보를 평가하고 선택합니다. 해당 연구는 기존 방식을 개선한 Dynamic Score를 추가했습니다. 기존 방식은 특정 동작의 시작과 끝 구간을 잘 잡지 못했습니다. 동작의 시작이나 끝 부분은 동영상에서 대개 화면의 전환이 있어서 잘 잡아내기 어렵습니다. 하지만 Dynamic Score는 프레임의 변화율을 고려해서 동적인 화면 전환 과정에서도 동작을 잡을 수 있도록 고안했습니다.

새롭게 적용한 Score를 사용해 후보 구간을 선택하고 이벤트 특성에 따라 구간을 배열·조합하여 최종적으로 원하는 시간 구간을 예측합니다. 예를 들어 “강아지가 달려가서 간식을 먹는다”라는 텍스트와 맞는 구간을 잡는다면, “강아지가 달려간다”와 “강아지가 간식을 먹는다”는 연속적으로 이어져야하는 것이죠. 이렇게 이벤트의 관계성에 따라 최종적인 구간을 추출하게 됩니다.

VTG는 앞으로 어떻게 발전할까?

VTG에서 중요한 핵심 중 하나는 동영상을 이해하고 특징을 얻어내는 과정입니다. 위에서 언급한 것처럼, 지금까지의 연구는 크게 두 갈래로 나눌 수 있었죠. 하나는 Image Embedding을 활용해 한 장면에서 최대한 많은 정보를 끌어내는 방식이고, 다른 하나는 Video Embedding을 이용해 사건의 전후 맥락과 시간적 흐름을 모델링하는 방식입니다.

앞으로의 VTG 발전은 동영상을 넓고 깊게 이해하려는 시도에서 찾을 수 있을 것이라 생각합니다. 두 방법은 본질적으로 상호 보완적입니다. 이미지 기반 접근은 세밀한 단서를 빠르고 넓게 포착하는 데 탁월하고, 비디오 기반 접근은 시간적 서사와 인과 관계를 깊이 이해하는 데 강점이 있습니다.

사실 동영상 자체를 이해하는 과정에서 이미지 인코더와 비디오 인코더를 동시에 활용하려는 시도는 존재했습니다. 하지만 이를 VTG 과제에 본격적으로 적용한 연구는 거의 없습니다. 앞으로 이러한 다층적 접근을 VTG에 적극 도입한다면, 더 폭넓은 비디오 이해와 함께 텍스트와의 관계성을 정밀하게 파악할 수 있을 것이라 기대합니다. 이는 성능 향상뿐 아니라 효율성 측면에서도 크게 기여할 것입니다. Image Embedding으로 빠르게 후보 구간을 넓게 탐색한 뒤, Video Embedding 모델로 그 안에서 정확한 시작과 끝을 다듬는 방식은 속도와 정확도의 균형을 잡는 현실적인 해법이 될 수 있죠.

물론 이미지 인코더와 비디오 인코더를 어떻게 텍스트와 정렬하거나, 어떤 방식으로 효과적인 Fusion을 이끌어낼 것인지에 대한 고민 역시 중요한 포인트이며 지속적인 연구도 필요합니다. 그리고 그만큼 비디오 자체를 다층적으로 이해하는 것이 중요하다는 점도 분명해지고 있습니다. 이런 비디오에 대한 다층적 접근이 VTG에서 자리 잡는다면, AI가 동영상에서 더욱 미묘하고 복합적인 순간까지 찾아낼 수 있으리라 기대합니다.

우리는 숏폼 콘텐츠가 지배하는 시대에 살고 있습니다. 1분, 혹은 더 짧은 30초 남짓한 영상 안에서 사람들이 원하는 건 단순한 재미가 아니라, 짧지만 응축된 경험이죠. 그래서 VTG 같은 기술은 단순히 연구실 안에서 머무르는 기술이 아니라, 앞으로 문화를 이끌 기술로 자리할 가능성이 큽니다. AI가 사람 대신 하이라이트를 찾아내고, 의미 있는 장면을 자동으로 압축해내는 능력은 곧 콘텐츠 소비 방식을 바꾸는 힘으로 작용할 것입니다.

실제로 네이버에서도 동영상을 올리면 자동으로 AI 하이라이트를 만들어주는 서비스를 진행하고 있습니다. 간편하게 짧은 동영상을 만들고 누구나 쉽게 편집할 수 있도록 변화되고 있는 것이죠. VTG는 단순히 ‘영상 속 중요한 순간을 찾는 기술’에 머무르지 않습니다. 앞으로는 짧은 영상에서 우리가 어떤 장면을 보고, 어떤 정보를 빠르게 얻을 수 있을지를 결정하는 중요한 도구가 될 것입니다. 하이라이트를 뽑아내는 기술은 점점 더 우리의 시선을 대신하게 될 것이고, 짧은 영상이 주류가 되어가는 흐름 속에서 VTG는 자연스럽게 그 중심에서 역할을 하게 될 것입니다. 앞으로 VTG가 어떻게 발전하는지, 그리고 우리 생활에 얼마나 녹아드는지 함께 지켜보시죠!