#111 당신의 주머니 속 AI를 훔치는 4가지 방법

#111 위클리 딥 다이브 | 2025년 10월 1일

💡
이번주 뉴스레터에는 이런 내용을 담았어요!
  • 온디바이스 AI 모델 도난 공격 기법과 방어 전략을 요약했습니다.
  • 앱·디바이스·통신·모델 기반 공격이라는 네 가지 시나리오를 소개했습니다.
  • 스마트폰 속 AI가 직면한 보안 위협과 그 파급 효과를 정리했습니다.
A/B 테스트 제목: 온디바이스 AI와 모델 도난
 

온디바이스 AI와 모델 도난

안녕하세요. 에디터 느리입니다.
 
당신은 낯선 땅에 떨어졌습니다. 낯선 사람이 다가와 낯선 언어로 말을 겁니다. 급하게 핸드폰을 꺼내 보지만 인터넷 연결은 되지 않습니다. 하지만 당신은 당황하지 않고 AI 모델이 내장되어 있는 번역 앱을 실행합니다. 인터넷 연결이 되지 않아도 실시간으로 번역해주는 AI 덕에 당신은 무사히 돌파구를 찾아냅니다.
이처럼 인터넷이 닿지 않는 상황에서도 작동하는 것이 바로 온디바이스(On-device) AI입니다.
데이터를 외부 서버로 보내지 않고 기기 안에서 직접 처리하기 때문에 속도도 빠르고, 개인 정보도 지킬 수 있죠. 번역뿐만 아니라 얼굴 인식, 음성 비서, 사진 속 글자 추출, 실시간 카메라 분석 등 우리의 일상 곳곳에서 이미 쓰이고 있습니다.
그러나 아이러니하게도, 사용자의 개인 정보를 보호해준다는 온디바이스 AI가 이제 새로운 공격자들의 표적이 되고 있습니다. 오늘은 온디바이스 AI를 둘러싼 보안 위협, 특히 기업의 핵심 자산인 AI 모델 도난 문제를 살펴보겠습니다.
 

AI를 훔치는 네 가지 방법

보안 분야에서는 공격자 ‘앨리스(Alice)’와 방어자 ‘밥(Bob)’의 가상 대결을 통해 공격과 방어의 원리를 설명하곤 합니다. 이들의 대결을 통해, 해커들이 어떻게 스마트폰 속 AI를 훔치려 하는지 네 가지 시나리오로 정리해 보겠습니다.

App-based Attack: 제품 부

가장 단순하면서도 흔히 사용되는 방식입니다. 공격자는 사용자의 기기를 해킹할 필요조차 없습니다. 구글 플레이 같은 앱스토어에서 앱을 내려받기만 하면 됩니다. 앨리스는 앱을 다운로드한 후, apktool 같은 디컴파일 도구를 사용해 앱 패키지를 해체합니다. 그의 목표는 앱의 내부 파일 더미 속에서 .tflite.pb 같은 확장자를 가진 ML 모델을 찾아내는 것입니다. 개발자인 밥은 이러한 공격을 예상하고 모델 파일을 암호화하거나 코드를 복잡하게 만드는 난독화(Obfuscation) 기술을 적용합니다. 이렇게 하면 앨리스가 파일을 찾아내더라도 올바른 열쇠 없이는 해독할 수 없는 암호문 뭉치로 보일 뿐입니다.
하지만 현실은 이런 기본적인 방어조차 무시되는 경우가 많습니다. 실제로 App-based Attack의 방식 중 하나인 ModelXray를 이용해 2020~2023년까지 수집한 210K 안드로이드 앱을 대상으로 공격했을 때 33.83~48.81%의 무보호 모델이 발견되었습니다.
이는 연구자들이 제시하는 보안 기술과 실제 현장 적용 사이에 거대한 격차가 있음을 보여줍니다. 많은 개발자들이 보안에 대한 인식 부족, 자원 한계, 혹은 우선순위 문제로 인해 가장 기본적인 방어조차 구현하지 않고 있는 것입니다.
 

Device-based Attack: 내부 잠입

App-based Attack을 시도하려 했으나 실패했다고 가정합시다. 앨리스는 다음 단계인 '내부 잠입'을 시도합니다. 이는 비밀 문서가 금고에서 나와 읽히는 바로 그 순간을 노려 어깨 너머로 훔쳐보는 방식입니다. 이 공격 방식의 핵심은 '평문의 필연성'에 있습니다. 평문(Plaintext)은 암호화되지 않은 원래 그대로의 텍스트 데이터를 의미하는데요. 모델이 아무리 여러 번 암호화되고 난독화되더라도, 취약한 애플리케이션이 모델을 실제로 사용하려면 결국 평문 복사본이 메모리에 로드된다는 점을 이용하는 것이죠.
평문과 암호문의 관계
출처: ⓒ deep daiv.
평문과 암호문의 관계 출처: ⓒ deep daiv.
 
앨리스는 자신이 제어하는 기기에서 앱을 실행시킵니다. 그는 앱이 모델을 사용하기 위해서는 암호화된 모델 파일이 반드시 해독되어 기기의 활성 메모리(RAM)에 올라와야 한다는 사실을 알고 있습니다. 그는 'Frida'와 같은 메모리 분석 도구를 사용해 기기의 RAM을 실시간으로 스캔하여, 암호가 풀린 평문(Plaintext) 상태의 모델을 포착하고 그대로 추출합니다.
컴퓨터의 프로세서는 암호화된 데이터를 직접 처리할 수 없기 때문에, ML 추론과 같은 연산을 수행하려면 반드시 데이터를 해독해야 합니다. 이 과정에서 모델이 본래의 모습으로 노출되는 것은 불가피합니다. 때문에 밥은 단순한 파일 암호화를 넘어 신뢰 실행 환경(Trusted Execution Environment, TEE)이라는 강력한 하드웨어 보안 기능을 사용합니다. TEE는 프로세서 내부에 존재하는 일종의 안전한 '금고' 또는 '블랙박스'와 같습니다. 이 공간에서 실행되는 코드와 데이터는 기기의 주 운영체제(OS)조차 접근할 수 없도록 완벽하게 격리됩니다.
 

Communication-based Attack : 전자적 도청

이제 앨리스는 TEE라는 견고한 금고에 막혔습니다. 내부를 들여다볼 수 없게 되자, 그는 '전자적 도청 전문가'로 변신합니다. 이는 밀봉된 공장 안에서 무엇이 만들어지는지 알아내기 위해 공장의 전력 소비량 변화, 미세한 진동, 희미한 전자기파 등을 분석하는 것과 같습니다.
앨리스는 정교한 모니터링 장비를 이용해 모델이 TEE 내부에서 실행되는 동안 발생하는 '측면 채널(Side-Channel)' 정보를 수집합니다. 여기에는 전력 소비량의 미세한 변화, 캐시 메모리 접근 패턴, 심지어 기기에서 방출되는 전자기파(EM)까지 포함됩니다. ML 모델의 모든 연산은 저마다 고유하고 미세한 전자적 발자국을 남깁니다. 앨리스는 이 패턴들을 분석하여 모델의 구조(몇 개의 층으로 이루어졌는지, 어떤 종류의 연산을 수행하는지)를 역추적하고, 때로는 모델의 가중치(Weights)까지 알아낼 수 있습니다.
밥은 시스템에 의도적인 '노이즈'를 섞어 대응합니다. 그는 연산 순서를 무작위로 섞거나, 실제 연산과 무관한 가짜 메모리 접근을 추가하여 앨리스가 수집하는 전자적 발자국을 의미 없는 데이터들로 만들어 버립니다.
 

Model-based Attack : 복제품 만들기

앨리스는 모델을 훔치려는 모든 시도에 실패했습니다. 그의 마지막 전략은 다양한 입력을 시도하고, 그 출력을 확인하는 과정을 수없이 반복함으로써, 마침내 원본과 완벽히 유사한 복제 모델을 만들어내는 것입니다. 이전의 세 가지 공격이 모델 파일, 파라미터, 구조 등 자산 자체를 훔치는 것을 목표로 했다면, 이 네 번째 공격은 모델이 학습한 '행동'이라는 무형의 자산을 훔칩니다. 앨리스는 보호받는 모델을 완벽한 '블랙박스'로 취급합니다. 그는 모델에 수천, 수만 개의 질문(입력)을 던지고 그 추론 결과(출력)를 신중하게 관찰합니다. 이 입출력 쌍 데이터를 사용하여, 그녀는 자신만의 '학생 모델'을 훈련시킵니다. 목표는 이 학생 모델이 원본 '선생님 모델'과 기능적으로 동일하게 작동하도록 만드는 것입니다. 충분한 질문을 통해, 그는 기능적으로 완벽한 복제품인 '대체 모델'을 창조해낼 수 있습니다.
밥의 모델은 비정상적인 질문 패턴을 감지하도록 설계되었습니다. 만약 공격이 의심되면, 모델은 의도적으로 약간 틀리거나 오해를 유발하는 답변(적응형 허위 정보)을 제공하거나 아예 응답을 거부함으로써 앨리스가 복제 모델을 훈련시키는 데 사용하는 데이터를 오염시킵니다.
 

도난당한 모델의 파급 효과

모델 도난은 단순히 개발사의 금전적 손실로 끝나지 않습니다. 이는 우리 사용자에게 직접적인 위협이 될 수 있습니다. 공격자가 모델을 훔쳤다는 것은, 이제 그들이 우리를 공격하기 위한 완벽한 '연습용 샌드백'을 가졌다는 의미입니다.
공격자는 훔친 모델을 이용해 모델을 속이도록 특수하게 설계된 입력값, 즉 적대적 예제(Adversarial Examples)를 만들 수 있습니다. 얼굴 인식 잠금 해제 모델을 훔쳤다고 가정해봅시다. 공격자는 훔친 모델로 수없이 실험하며, 특정 패턴이 인쇄된 안경이나 이미지를 만들어 모든 기기의 잠금을 해제할 수 있습니다.
또한 모델은 훈련에 사용된 민감한 데이터를 일부 기억하기도 합니다. 모델을 훔친 공격자는 멤버십 추론 공격(Membership Inference Attacks)을 통해 이를 악용할 수 있습니다. 예컨대 희귀 질병을 진단하는 건강 앱의 모델이 탈취되었다고 생각해봅시다. 공격자는 특정인의 데이터가 원본 훈련 데이터에 포함되었는지를 테스트해 알아낼 수 있습니다.
 

우리 주머니 속 AI를 지키려면

문제는 기술 부재가 아니라 적용의 부재입니다. 연구에서는 이미 다양한 방어 기법을 제시했지만, 실제 서비스에서는 제대로 구현되지 않는 경우가 많습니다. 보안 인식과 방어 기술이 발전했음에도, 앱 기반 공격 성공률은 오히려 증가하고 있는 것이 현실이죠. 온디바이스 AI 모델은 단순한 소프트웨어가 아니라, 반드시 보호해야 할 핵심 지적 재산입니다. 따라서 개발 초기부터 다층적인 방어 전략을 적용하는 보안 우선 접근법(Security-first mindset)이 필요합니다.
앨리스와 밥의 싸움은 앞으로도 계속될 것입니다. 사용자 역시 이런 보안 위협을 인식하는 것이 첫 번째 방어선입니다. 온디바이스 AI가 주는 편리함 뒤에는 반드시 책임과 위험이 따른다는 점을 잊지 말아야 합니다. 우리는 매일 주머니 속에 넣고 다니는 이 ‘디지털 두뇌’에 대해, 더 강력한 보안을 요구할 권리와 책임이 있습니다.