로봇공학 · 분석 보고서

로봇공학의 엔드게임
언어 모델의 각본을 물리 세계에 복제하다

엔비디아 로봇공학 책임자 짐 판(Jim Fan)이 2026년 Sequoia AI Ascent 무대에서 던진 주장은 단순하다. 지난 십수 년간 언어 모델이 밟아 온 길을, 로봇은 거의 그대로 다시 밟는다는 것이다. 그는 이를 '거대한 평행이론(Great Parallel)'이라 부른다.

2026년 5월 · 강연 출처: Sequoia Capital, AI Ascent 2026 — Jim Fan, “Robotics, the Endgame”

01 — 출발점2016년의 금속판 한 장에서 시작된 이야기

짐 판은 2016년 여름의 한 장면으로 강연을 연다. 당시 그는 오픈AI(OpenAI)의 첫 인턴이었다. 가죽 재킷을 입은 한 사람이 묵직한 금속 트레이를 들고 사무실에 들어섰다. 엔비디아의 첫 슈퍼컴퓨터 DGX-1이었고, 그것을 건넨 사람은 젠슨 황(Jensen Huang)이었다. 인턴들은 줄을 서서 그 금속판에 이름을 새겼는데, 그중에는 짐 판과 함께 훗날 자율주행과 LLM(Large Language Model, 대규모 언어 모델) 분야를 이끌게 되는 안드레이 카르파티(Andrej Karpathy)의 이름도 있었다.

그 뒤에 일어난 일은 이미 알려진 그대로다. 언어 모델은 세 번의 도약으로 오늘에 이르렀다. 첫째, GPT-3는 다음에 올 단어(토큰)를 예측하는 사전학습으로 언어의 형태와 문법을 익혔다. 둘째, InstructGPT는 지도 미세조정(Supervised Fine-Tuning)을 통해 그 능력을 사람에게 쓸모 있는 방향으로 정렬했다. 셋째, o1 계열은 강화학습(Reinforcement Learning)으로 단순 모방을 넘어선 추론에 도달했다. 그리고 지금은 연구 자체를 가속하는 자동 연구 단계로 넘어가는 중이다.

짐 판의 제안은 짓궂을 만큼 단순하다. 잘 풀린 남의 숙제를 베껴 이름만 바꾸자는 것이다. 문자열을 예측하던 자리에 '다음 물리 세계 상태'를 예측하게 하고, 그 위에 로봇 행동을 정렬한 뒤, 마지막 구간은 강화학습에 맡긴다. 이 대응 관계가 강연 전체를 관통하는 뼈대다.

거대한 평행이론 — 언어 모델의 4단계 학습 각본(왼쪽)을 로봇공학(오른쪽)이 단계별로 대응시켜 복제한다. 핵심 치환은 ‘다음 토큰 예측’ → ‘다음 물리 상태 예측’이다.

이 각본을 실제로 작동시키려면 두 가지가 필요하다. 어떤 모델을 쓸 것인가(모델 전략), 그리고 그 모델을 무엇으로 먹일 것인가(데이터 전략)다. 강연의 나머지는 이 두 축을 차례로 짚는다.

02 — 모델 전략'말 잘하는 로봇'의 한계와 영상 월드 모델

지난 3년간 로봇 학습을 지배한 것은 VLA(Vision-Language-Action, 시각-언어-행동) 모델이었다. 미리 학습된 시각-언어 모델 위에 행동을 출력하는 머리를 하나 얹은 구조다. 문제는 무게중심이 잘못된 곳에 쏠려 있다는 점이다. 파라미터의 대부분이 언어에 배정되어 있어, 짐 판의 표현을 빌리면 이것은 사실상 'LVA'에 가깝다. 명사와 지식에는 강하지만, 물리와 동사 — 즉 실제로 몸을 움직여 무언가를 하는 일 — 에는 약하다.

그가 든 예시는 상징적이다. 초기 VLA 논문에서 로봇은 “콜라 캔을 테일러 스위프트 사진 쪽으로 옮겨라”는 지시를 처음 보는 대상에도 일반화해 수행했다. 인상적이지만, 이것은 우리가 로봇에게서 기대하는 핵심 능력 — 세계의 물리를 다루는 솜씨 — 과는 거리가 있다.

두 번째 사전학습 패러다임: 영상이 스스로 익히는 물리

그렇다면 로봇의 진짜 사전학습은 무엇이어야 하는가. 짐 판은 다소 엉뚱한 후보를 내놓는다. 인터넷에 넘쳐나는 AI 생성 영상, 이른바 '영상 슬롭(slop)'이다. 보안 카메라 화질로 밴조를 연주하는 고양이 같은 것들 말이다. 그러나 그 우스꽝스러움 뒤에는 중요한 사실이 숨어 있다. 이런 영상 생성 모델은 다음 화면을 그리기 위해 내부적으로 세계의 다음 상태를 시뮬레이션하는 법을 배우고 있다.

구글 딥마인드의 영상 생성 모델 Veo 3가 대표 사례다. 누구도 코딩해 넣지 않았는데도, 모델은 픽셀을 대규모로 예측하는 것만으로 중력, 부력, 빛의 반사와 굴절을 스스로 습득한다. 더 나아가 시각적 계획 능력까지 창발한다. Veo 3는 픽셀 공간에서 시뮬레이션을 앞으로 굴려 미로를 푼다. 짐 판이 가장 좋아하는 장면은 따로 있다. 모델이 “안 보고 있을 때는 기하학이 선택사항”이라는 사실을 알아채고, 보는 사람이 한눈판 사이 미로의 벽을 슬쩍 통과해 버리는 것이다. 그는 이를 ‘피직스 플롭(physics flop)’이라 부르며 웃는다.

비유 — 두 가지 '다음을 맞히기'

언어 모델은 문장에서 다음에 올 단어를 맞히는 훈련만으로 문법과 논리를 익혔다. 영상 월드 모델은 화면에서 다음에 올 한 장면을 맞히는 훈련만으로 중력과 충돌 같은 물리를 익힌다.

요리에 빗대면, 글자를 맞히는 모델이 ‘레시피 문장을 이어 쓰는 법’을 배운다면, 영상 모델은 ‘냄비 속 재료가 다음 순간 어떻게 끓어오를지’를 배우는 셈이다. 로봇에게 필요한 것은 후자다.

DreamZero: 몇 초 앞을 '꿈꾸고' 행동하는 모델

그렇다면 이 풍부한 물리 감각을 어떻게 로봇에게 쓸모 있게 만드는가. 답은 행동 미세조정이다. 가능한 모든 미래 상태의 중첩을, 실제 로봇에게 의미 있는 얇은 한 조각으로 붕괴시키는 것이다. 짐 판이 소개한 DreamZero가 그 결과물이다. 이 모델은 몇 초 앞의 미래를 영상처럼 그려 보고, 그에 맞춰 행동한다.

핵심은 행동 신호 자체를 픽셀과 같은 차원의 고차원 연속 신호로 보고, 다음 화면과 다음 행동을 동시에 디코딩한다는 점이다. 그 결과 학습 때 본 적 없는 동사(과제)도 곧바로 수행해 낸다. 로봇이 움직이는 동안 그것이 무엇을 '꿈꾸는지' 시각화할 수 있는데, 영상 예측이 맞으면 행동도 맞고, 영상이 헛것을 그리면 행동도 실패한다. 시각과 행동이 비로소 동등한 일등 시민이 된 것이다. 짐 판은 이런 새 부류를 WAM(World-Action Model, 월드-행동 모델)이라 명명하며, 기존 VLA에 작별을 고한다.

03 — 데이터 전략로봇을 데이터 수집에서 빼내기

좋은 모델만으로는 부족하다. 무엇으로 학습시키느냐가 더 큰 병목이다. 강연에서 가장 밀도 높은 부분이 바로 이 데이터 전략이다.

텔레오퍼레이션의 24시간 벽

지난 3년은 텔레오퍼레이션(원격 조종)의 황금기였다. VR(가상현실) 헤드셋, 극단적으로 최적화한 지연시간, 중세 고문 기구처럼 생긴 복잡한 장비에 막대한 투자가 쏟아졌다. 짐 판은 엔비디아 수석 과학자 빌 댈리(Bill Dally)가 직접 장비를 조종하는 사진을 띄우며, 그의 연봉을 생각하면 데이터셋에서 가장 비싼 한 줄의 궤적일 것이라고 농담한다.

그러나 텔레오퍼레이션에는 깨지지 않는 한계가 있다. 로봇 한 대당 하루 24시간. 그조차도 로봇이 변덕을 부리지 않을 때의 이야기이고, 실제로는 하루 3시간 남짓에 그친다. 사람이 로봇을 일일이 조종해야 하므로, 데이터의 양이 사람의 시간에 묶여 버린다.

UMI와 DexUMI: 로봇 손을 사람 손에 끼우다

더 나은 방법은 없을까. 한 가지 발상이 UMI(Universal Manipulation Interface, 범용 조작 인터페이스)다. 로봇의 집게(액추에이터)를 사람 손에 직접 끼우고, 로봇 몸체는 빼놓은 채 사람이 직접 데이터를 모은다. 스탠퍼드 등에서 나온 이 손에 쥐는 그리퍼 방식은 로봇 없이도 로봇 정책을 학습시킬 수 있음을 보였고, 이후 여러 스타트업으로 이어졌다(짐 판은 그중 두 곳을 유니콘으로 표현했다).

지난해 그의 팀은 한 걸음 더 나아갔다. 다섯 손가락 정밀 로봇 손과 일대일로 대응하는 외골격을 설계한 DexUMI다. 텔레오퍼레이션이 느리고 성공률도 낮은 반면, 외골격을 끼고 직접 수집한 데이터로 학습한 로봇 정책은 원격 조종 데이터가 전혀 없이도 자율적으로 과제를 수행한다. 로봇 한 대당 24시간이라는 저주를 깨기 시작한 것이다.

EgoScale: 사람의 1인칭 영상으로 손재주를 배우다

그럼에도 외골격이나 그리퍼는 여전히 거추장스럽다. 짐 판이 떠올린 비교 대상은 테슬라와 웨이모다. 운전자가 자율주행을 쓰는 동안, 그 데이터는 본인도 느끼지 못한 채 배경에서 업로드되어 거대한 물리 데이터 플라이휠을 돌린다. 로봇 데이터 수집도 이렇게 의식되지 않고 배경으로 사라져야 한다는 것이다.

그 방향의 시도가 EgoScale이다. 학습의 99.9%를 사람의 자기시점(에고센트릭) 영상 — 즉 1인칭 시야에서 일상의 손동작을 담은 영상 — 으로 채운다. 사전학습에는 로봇 데이터가 한 시간도 들어가지 않은, 야외에서 수집한 21,000시간 분량의 1인칭 영상을 쓰고, 이때 손 관절과 손목 자세를 예측하게 한다. 정렬을 위한 행동 미세조정에는 고정밀 모션캡처 장갑 50시간과 원격 조종 4시간만 사용한다 — 전체 학습량의 0.1%에도 못 미친다.

그 결과는 카메라 픽셀에서 곧바로 22 자유도(DOF, Degrees of Freedom)의 정밀 로봇 손 동작으로 이어지는 자율 정책이다. 카드를 분류하고, 주사기로 액체를 옮기며, 단 한 번의 시연만으로 서로 다른 셔츠 개기 방식을 익힌다.

여기서 가장 흥미로운 발견이 나온다. 사전학습에 투입한 시간과 도달 가능한 최적 검증 손실 사이에 깔끔한 로그-선형 관계, 즉 '손재주의 신경 스케일링 법칙'이 성립한다는 것이다. 2020년 언어 모델에서 처음 발견된 스케일링 법칙이, 6년 만에 물리적 손재주의 영역에서 다시 모습을 드러낸 셈이다.

손재주의 신경 스케일링 법칙(개념도) — 사전학습 시간을 늘릴수록 검증 손실이 로그-선형으로 떨어진다. 데이터를 부을수록 손재주가 좋아진다는 예측 가능성이 생긴다는 뜻이다.

비유 — 자율주행 데이터 플라이휠

테슬라 운전자는 평소처럼 운전만 해도, 그 주행 기록이 배경에서 모여 자율주행 모델을 키운다. 사람은 데이터를 '모은다'고 느끼지 못한다.

EgoScale의 그림도 같다. 사람이 평소처럼 요리하고 정리하고 도구를 쓰는 1인칭 영상이 쌓이면, 그것이 곧 로봇의 손재주 교과서가 된다. 스마트폰이 '주머니 속 세계 스캐너'가 되는 것과 같은 발상이다.

데이터의 지형도: 정합성과 확장성의 맞교환

세 가지 방법을 한 장에 놓으면 분명한 지형이 드러난다. 가로축은 로봇 하드웨어와의 정합성, 세로축은 확장성이다. 텔레오퍼레이션은 정합성이 가장 높지만 확장성이 가장 낮다. 데이터 웨어러블은 수십만 시간까지 올라간다. 자기시점 영상은, 자율주행식 플라이휠이 돌기 시작하면 향후 1년 안에 1,000만 시간 규모도 어렵지 않다. 어느 선을 그으면, 그 왼쪽은 모두 '센서화된 인간 데이터'라는 새 패러다임에 속한다.

로봇 데이터 전략의 지형도 — 하드웨어 정합성이 낮아질수록 확장성은 커진다. 짐 판은 향후 1~2년 안에 텔레오퍼레이션 비중이 거의 사라지고, 주력 데이터가 자기시점 영상으로 옮겨 갈 것으로 본다.

그의 예측은 분명하다. 앞으로 1~2년 안에 텔레오퍼레이션의 비중은 무시할 수준까지 줄고, 하드웨어와 용도별로 맞춤 설계된 데이터 웨어러블의 조합이 그 자리를 메우며, 결국 로봇의 주식(主食)은 자기시점 영상이 된다.

바깥 고리: 환경과 강화학습

데이터 전략에는 고리가 하나 더 있다. 프런티어 LM 연구소들이 강화학습을 위해 수백만 개의 코딩 환경을 사들이는 데 큰 예산을 쓰는 것처럼, 로봇도 학습 환경을 대규모로 늘려야 한다. 실제 로봇에서 직접 강화학습을 돌려 특정 과제의 성공률을 거의 100%까지 끌어올릴 수도 있다(짐 판의 연구실에서는 로봇이 스스로 GPU를 조립한다).

문제는 규모다. 100만 개의 환경을 만들려고 100만 대의 로봇을 둘 수는 없다. 그래서 등장하는 것이 실물→시뮬레이션→실물(real-to-sim-to-real) 파이프라인이다. 스마트폰으로 사진 한 장을 찍어 3차원 공간을 스캔하면, 그 안의 사물들이 추출되어 고전 물리 시뮬레이터 안에서 다시 합성된다. 스캔된 사물은 상호작용이 가능해지고, 무한히 변형해 '디지털 사촌(digital cousins)'을 찍어낼 수 있다. 스마트폰이 곧 주머니 속 세계 스캐너가 되는 셈이다.

하지만 이 방식은 여전히 고전 그래픽 엔진에 의존한다. 그 다음 수가 짐 판이 소개한 Dream Dojo, 신경 시뮬레이터다. 영상 월드 모델을 본격적인 시뮬레이터로 키운 것으로, 연속적인 행동 신호를 입력받아 다음 RGB 화면과 센서 상태를 실시간으로 출력한다. 물리 방정식도, 그래픽 엔진도 없다. 화면의 단 한 픽셀도 실제가 아니다. 그럼에도 순수하게 데이터만으로 서로 다른 로봇의 메커니즘을 포착하고 학습한다.

비유 — 디지털 사촌과 가상 연습장

실물 로봇 한 대로 백만 번을 연습시키기는 불가능하다. 대신 현실의 한 장면을 스캔해 가상 세계로 옮기면, 색과 배치와 무게를 조금씩 바꾼 '사촌' 장면을 무한히 복제할 수 있다.

Dream Dojo는 여기서 한 발 더 나아가, 그래픽 엔진 없이 영상 모델이 직접 그려내는 연습장이다. 로봇은 실제로 부딪혀 보지 않고도 수많은 가상 시도 속에서 솜씨를 다듬는다.

계산력 = 환경 = 데이터. 더 많이 살수록 더 많이 아낀다 — 짐 판이 빌려 온 젠슨 황의 농담이자, 이 새 학습 체제의 한 줄 방정식이다.

04 — 엔드게임기술 트리에 남은 세 개의 성취

짐 판은 자신의 연구를 게임 '문명(Civilization)'의 기술 트리에 빗댄다. 문명의 기술 트리를 하나씩 해금하듯, 로봇공학에도 이제 세 개의 성취만 남았고, 그것을 다 열면 자신은 은퇴할 수 있다는 것이다.

첫째는 물리 튜링 테스트다. 폭넓은 활동에서 사람이 하는 것과 로봇이 하는 것을 구별할 수 없게 되는 단계다. 그는 이를 “단위 에너지를 넣어 단위 노동을 얻는다”는 말로 요약하며, 2~3년 안에 가능하다고 본다.

둘째는 물리 API(Application Programming Interface, 응용 프로그래밍 인터페이스)다. 수많은 로봇으로 이루어진 함대를 다른 소프트웨어처럼 명령어와 인터페이스로 구성하고, 언젠가는 'Opus 9.0' 같은 모델이 그 전체를 지휘한다는 그림이다. 이것이 실현되면 사람 없이 돌아가는 무인 공장 — 설계 파일을 입력하면 완성품을 토해내는 '원자 프린터' — 과, 화학·생물·의학의 발견을 자동화하는 무인 실험실이 가능해진다.

셋째는 물리 자동 연구다. 로봇이 스스로 다음 세대 로봇을 설계하고 개선하고 만들어내는, 사람의 능력을 한참 넘어선 단계다.

엔드게임 타임라인 — 알렉스넷(2012)에서 현재(2026)까지 14년이 걸렸다. 짐 판은 같은 14년을 더하면 2040년에 세 성취가 모두 해금된다고 본다.

왜 2040년인가. 그는 선형이 아니라 지수의 셈법을 든다. 고양이와 개를 겨우 구별하던 2012년 알렉스넷에서 에이전트형 자동 연구를 논하는 2026년까지 14년이 걸렸다. 거기에 다시 14년을 더하면 2040년이다. 기술은 선형이 아니라 지수적으로 발전하므로, 그는 95% 확신으로 그해까지 기술 트리의 끝에 도달한다고 말한다.

05 — 맺음너무 늦었고, 너무 일렀지만, 마침 알맞은

이 강연의 무게는 개별 기법이 아니라 그것을 꿰는 하나의 서사에 있다. 영상 월드 모델, 센서화된 인간 데이터, 신경 시뮬레이터라는 세 기둥을 '로봇은 언어 모델의 확장 각본을 그대로 복제할 수 있다'는 한 문장으로 묶었다는 점이다. 모델은 다음 토큰 대신 다음 물리 상태를 예측하고, 데이터는 사람의 시간이 아니라 사람의 일상 영상에서 흘러나오며, 환경은 실물 로봇이 아니라 신경망이 그려내는 가상 연습장에서 무한히 복제된다.

물론 이것은 한 연구 리더의 전망이고, 강연이라는 형식이 으레 그렇듯 낙관의 색이 짙다. DreamZero, EgoScale, Dream Dojo 같은 이름들이 얼마나 일반화될지, 자기시점 영상이 정말 텔레오퍼레이션을 대체할지는 앞으로의 데이터가 답할 문제다. 다만 '물리 상태 예측'을 사전학습의 중심에 놓고, 데이터 수집을 사람의 노동에서 분리해 내려는 방향성만큼은, 시뮬레이션과 피지컬 AI를 다루는 누구에게나 한 번쯤 따져 볼 가치가 있는 좌표다.

로봇공학을 믿으면, 로봇공학도 당신을 믿어줄 것이다. 우리 세대는 지구를 탐험하기엔 너무 늦게, 별을 탐험하기엔 너무 일찍 태어났지만 — 로봇공학을 풀기에는 마침 알맞은 때에 태어났다.

로봇공학의 엔드게임언어 모델의 각본을 물리 세계에 복제하다