NVIDIA · GTC Taipei 2026

엔비디아 GTC 타이베이 2026 키노트: 에이전트 컴퓨팅으로의 전환

2026년 6월 1일 타이베이. 젠슨 황은 차세대 가속 플랫폼 베라 루빈의 양산을 선언하고, 사람이 아니라 AI 에이전트를 위해 설계한 새 CPU, 그리고 40년 만에 다시 그린 윈도우 PC를 한자리에 올렸다. 이 글은 두 시간에 걸친 발표를 하나의 줄거리로 정리하고, 발표 수치를 외부 보도와 대조해 검증한 기록이다.

2026년 6월 3일 · 약 25분 분량 · 반도체 / 인공지능 / 전력·인프라

엔비디아의 연례 개발자 콘퍼런스 GTC가 이번에는 타이베이로 왔다. 행사는 같은 주에 열리는 컴퓨텍스(Computex)와 사실상 한 몸으로 진행됐고, 키노트는 현지 시각 6월 1일 오전 타이베이 뮤직 센터에서 약 두 시간 동안 이어졌다. 젠슨 황 최고경영자가 던진 메시지는 한 문장으로 압축된다. "쓸모 있는 AI가 도착했고, 이제 토큰은 비용이 아니라 매출이다."

이 선언은 단순한 구호가 아니다. 발표 전체가 하나의 전제 위에 서 있다. AI가 생성(generative) 단계를 지나 에이전트(agentic) 단계로 넘어갔으며, 그 결과 데이터센터에서 PC, 자동차, 로봇에 이르기까지 컴퓨터가 일하는 방식 자체가 바뀐다는 것이다. 황은 이 변화를 떠받칠 하드웨어로 베라 루빈을, 그 위에서 돌아갈 소프트웨어로 엔터프라이즈 AI 툴킷을, 그리고 같은 패턴을 개인의 책상으로 끌어내릴 장치로 RTX 스파크를 제시했다.

키노트 한눈에

① 베라 루빈 양산. 차세대 데이터센터 플랫폼이 본격 양산에 들어갔다. 랙 한 대 조립 시간이 2시간에서 5분으로 줄었다.

② 베라 CPU. 사람이 아니라 에이전트를 위해 처음부터 새로 설계한 데이터센터 CPU.

③ 그록 LPX. 작년 말 약 200억 달러 규모로 인수·라이선스한 그록(Groq)의 추론 칩을 루빈 랙에 결합해, 엔비디아가 한 번도 1위였던 적 없는 추론 시장에 정면으로 진입했다.

④ 윈도우 PC 재발명. 마이크로소프트와 함께 Arm 기반 RTX 스파크 슈퍼칩을 내놓으며, 엔비디아가 사실상 비워뒀던 소비자 PC 프로세서 시장에 들어왔다.

⑤ 피지컬 AI. 오픈 월드 모델 코스모스 3, 추론형 자율주행 알파마요 2, 그리고 오픈 휴머노이드 레퍼런스 로봇 아이작 그루트.

01에이전트 시대의 도래 — 무엇이 바뀌었나

황은 2년 전 같은 무대에서 "다음 물결은 에이전트 AI"라고 예고했다. 이번에는 그 물결이 "도착했다"고 단언했다. 근거로 든 것이 깃허브(GitHub)다. 전 세계 직업 소프트웨어 개발자는 3,000만~4,000만 명 규모인데, 이들이 코드를 올리는 행위(commit) 횟수가 2023년 약 3억 건, 2024년 4억 건, 2025년 5억 건으로 늘다가 2026년 들어 불과 몇 달 만에 거의 3배인 14억 건 수준으로 뛰었다는 것이다.

황은 이 증가를 두고 "급여 3조 달러가 9조 달러어치 생산성을 만들고 있다"고 표현했다.

황의 해석은 도발적이다. 개발자 인건비 총액이 연 3조 달러 수준인데, 이 인력이 같은 급여로 거의 3배의 결과물을 만들어내니 사실상 9조 달러어치 생산성이 나온다는 것이다. 그러면서 "AI가 일자리를 줄인다는 말은 헛소리"라고 잘라 말했다. 산출이 이렇게 늘어나는데 왜 개발자를 덜 뽑겠느냐, 오히려 더 뽑게 된다는 논리다. 이 주장은 한쪽 면만 본 낙관론이라는 반론도 가능하지만, 황이 전하려는 핵심은 분명하다. 코드 한 줄의 가치가 올라갔고, 그래서 토큰 수요가 폭발한다.

에이전트란 무엇인가

황은 옛 컴퓨팅과 새 컴퓨팅을 이렇게 대비했다. 과거에는 운영체제 위에서 애플리케이션이 돌고, 사람이 마우스로 클릭하고 타이핑했다. 이제는 그 자리를 에이전트가 대신한다. 사람이 의도(intent)를 말로 설명하면, 에이전트가 코드를 생성하거나 도구를 써서 결과를 내놓는다.

에이전트는 네 가지로 구성된다. 생각을 담당하는 거대언어모델(LLM, Large Language Model), 전체를 조율하는 하니스(harness), 에이전트가 사용하는 도구(tools)와 그 사용법인 스킬(skills), 그리고 이 모두가 돌아가는 런타임(runtime)이다. 에이전트는 사람처럼 단기 기억(작업 메모리)과 장기 기억을 관리하며, 입력을 받아 관찰·추론·계획·실행을 반복한다.

비유

에이전트를 공방에서 일하는 장인이라고 생각하면 쉽다. 모델은 두뇌, 하니스는 몸, 도구는 작업대 위의 연장들, 런타임은 작업이 벌어지는 공방 자체다. 장인은 의뢰(입력)를 받아 무엇을 만들지 궁리하고(추론), 연장을 골라 잡고(도구 사용), 손을 움직여 완성한다(실행). 과거의 소프트웨어가 "정해진 기능을 가진 자판기"였다면, 에이전트는 "상황을 보고 알아서 연장을 바꿔 쓰는 작업자"에 가깝다.

이 패턴이 중요한 이유는 컴퓨터 사용 방식을 근본적으로 바꾸기 때문이다. 황이 든 사례는 구체적이다. "리모컨 배터리 덮개를 잃어버렸는데 이렇게 생겼다. 3D 프린팅용 CAD 파일을 만들어 달라"고 말하면, 에이전트가 도구를 호출해 출력 가능한 설계 파일을 내놓는다. 더 이상 프로그램을 열고 메뉴를 누르는 것이 아니라, 원하는 바를 설명하면 기계가 알아서 처리한다.

황은 "에이전트가 늘면 소프트웨어 회사가 다 망한다"는 통념도 반박했다. 정반대라는 것이다. 에이전트는 사람보다 훨씬 많은 수가 존재하게 되고, 그만큼 도구를 더 많이 쓰게 된다. 다만 소프트웨어가 에이전트가 쓸 수 있는 형태로 제공돼야 한다. 엔비디아는 자사의 핵심 자산인 CUDA-X 라이브러리(약 1,000종)에 스킬, 즉 사용 설명서를 붙여 에이전트가 직접 읽고 활용하도록 만들고 있다고 밝혔다.

02베라 루빈 — 칩이 아니라 시스템, 시스템이 아니라 공장

이번 키노트의 무게중심은 베라 루빈(Vera Rubin)이다. 황은 "엔비디아 역사상 가장 야심 찬 시도"이며 "회사 전체 4만 명의 엔지니어가 매달린 결과물"이라고 소개했다. 핵심 선언은 단 한 문장이다. "베라 루빈은 본격 양산에 들어갔다."

주의할 점은 베라 루빈이 GPU 한 개를 가리키는 이름이 아니라는 것이다. 베라 루빈은 다섯 종류의 랙(rack)이 하나의 슈퍼컴퓨터처럼 맞물려 돌아가는 시스템이다. 추론·학습을 담당하는 GPU 랙(NVL72), 조율을 맡는 베라 CPU 랙, 저지연 디코딩을 전담하는 그록 LPX 랙, AI 전용 스토리지를 처리하는 블루필드-4 STX 랙, 그리고 이들을 묶는 스펙트럼-6 이더넷 랙이다.

녹색 테두리(NVL72·그록 LPX)가 토큰을 직접 생성하는 핵심 경로다. 나머지는 그 경로가 막힘 없이 돌아가도록 받친다.

제조 측면의 성과도 강조됐다. 베라 루빈을 위해 구축한 공급망은 직전 세대인 그레이스 블랙웰(Grace Blackwell)의 두 배 규모이며, 랙 한 대를 조립하는 데 걸리던 시간이 2시간에서 5분으로 줄었다. 케이블과 호스, 팬을 없애고 양쪽을 연결하는 PCB 미드플레인을 가운데 둔 새 설계 덕분이다. 황은 이를 두고 신뢰성과 복원력이 "차트를 벗어날 정도"라고 표현했다.

루빈 GPU 자체의 규모도 눈에 띈다. 트랜지스터 6조 개, 한 보드에 부품 1만 8,000개 이상이 올라간다. 7개 신규 칩은 모두 TSMC의 3나노 공정과 CoWoS 첨단 패키징으로 만들어지며, HBM4 메모리는 마이크론·SK하이닉스·삼성이 공급한다.

황이 반복한 핵심 명제는 "컴퓨트가 곧 매출"이라는 것이다. 1기가와트(GW)짜리 AI 공장을 짓는 비용이 이미 200억~300억 달러에서 500억~600억 달러로 올랐고, 곧 800억~1,000억 달러에 이를 것이다. 이 정도 자본이 들어가는 시설은 "처음부터, 그리고 즉시" 제대로 돌아가야 한다. 같은 1GW 전력으로 더 많은 토큰을 뽑아내는 능력, 즉 와트당 처리량(throughput per watt)이 곧 수익률이라는 논리다. 그래서 칩이 싸다는 이유만으로 다른 아키텍처를 고르는 것은 "말이 안 된다"고 못 박았다.

03그록 LPX — 엔비디아가 추론 시장에 들어간 방식

이번 키노트에서 가장 의외이면서도 전략적으로 묵직한 대목이 그록 LPX다. 배경부터 짚어야 한다. 엔비디아는 2025년 12월, 추론 전문 스타트업 그록과 약 200억 달러 규모의 라이선스·인재 영입 계약을 맺었다. 핵심 인력을 흡수하고, 그록의 간판 기술인 LPU(Language Processing Unit, 본래 명칭은 텐서 스트리밍 프로세서)에 대한 비독점 라이선스를 확보했다. 이 칩을 베라 루빈에 어떻게 녹일지가 업계의 관심사였는데, 이번에 답이 공개됐다.

왜 별도의 추론 칩인가

거대언어모델이 답을 생성하는 과정은 크게 두 단계다. 프리필(prefill)은 사용자가 넣은 긴 입력(컨텍스트)을 한 번에 읽어 들이는 단계로, 연산량이 많아 GPU가 강하다. 디코딩(decode)은 토큰을 한 개씩 차례로 뱉어내는 단계로, 연산보다 메모리 대역폭과 지연 시간이 승부를 가른다. 엔비디아는 프리필은 루빈 GPU에, 디코딩은 그록 LPU에 맡기고, 자사 다이나모(Dynamo) 오케스트레이션이 작업을 나눠 배분하도록 설계했다.

LPU 한 개의 SRAM 대역폭(150 TB/s)은 루빈 GPU의 HBM4 대역폭(22 TB/s)을 크게 웃돈다. 대신 용량을 포기하고 속도를 택한 설계다.

그록 LPX 랙의 제원은 다음과 같다. 한 랙에 LPU 256개가 들어가며, 칩당 약 512MB의 적층 SRAM을 담아 랙 전체로는 128GB의 온칩 SRAM과 40페타바이트/초(PB/s)의 총 대역폭, 640테라바이트/초의 스케일업 대역폭을 제공한다. 제조는 삼성의 4나노 공정이 맡는다. 흥미롭게도 이 결정으로 엔비디아는 작년 컴퓨텍스에서 프리필 전용으로 내놨던 자사 칩 루빈 CPX를 로드맵에서 내렸다. 자체 칩을 접고 인수한 기술로 대체한 셈이다.

성능 주장은 공격적이다. 베라 루빈 NVL72에 그록 LPX 랙을 결합하면 1조 파라미터급 모델에서 와트당 추론 처리량이 블랙웰 NVL72 단독 대비 35배 높아지고, 목표 단가는 100만 토큰당 45달러라는 것이다. 더 큰 그림에서 황은 1GW 공장의 토큰 생성 능력이 호퍼(Hopper) 시스템의 초당 약 200만 토큰에서 베라 루빈 시스템의 초당 약 7억 토큰으로, 즉 약 350배로 뛴다고 했다. 두 랙의 조합이 만들 연간 매출 기회를 3,000억 달러로 잡았는데, 이는 베라 루빈 단독의 두 배, 블랙웰의 10배 규모다.

다만 이 숫자들은 모두 "프리미엄 등급 서비스를 사겠다는 수요가 실제로 받쳐줄 때"라는 전제를 깔고 있다. 외부 분석가들도 매출 시나리오가 구매자의 수요에 달려 있다고 신중론을 달았다. 엔비디아가 한 번도 1등이었던 적 없는 추론 시장에서, 경쟁사 세레브라스(Cerebras) 등이 이미 SRAM 기반 접근을 밀고 있는 상황을 정면으로 겨냥한 포석이라는 점은 분명하다.

04베라 CPU — 사람이 아니라 에이전트를 위한 CPU

황이 가장 공들여 설명한 부품은 의외로 GPU가 아니라 CPU였다. 그의 논리는 이렇게 시작한다. 지금까지의 CPU는 모두 사람을 위해 만들어졌다. 클라우드에서 코어를 시간 단위로 빌려 쓰는 임대 모델, 즉 초(second) 단위로 흘러가는 세계에 맞춰진 칩이다. 그런데 에이전트는 다르다.

비유

에이전트는 인내심이 없다. 사람은 응답이 몇 초 늦어도 견디지만, 에이전트는 나노초(nanosecond) 단위로 산다. 도구를 부르면 즉시 답이 와야 하고, 데이터베이스를 조회하면 곧바로 결과가 돌아와야 한다. 에이전트가 기다리는 모든 순간은 비싼 GPU가 놀고 있는 시간이다. 옆자리 GPU가 너무 비싸고 귀하니, 그 옆을 지키는 CPU는 한순간도 머뭇거려선 안 된다. 사람용 CPU가 "여러 손님을 한꺼번에 받는 대형 식당"이라면, 에이전트용 CPU는 "주문이 떨어지자마자 음식을 내는 즉석 주방"이어야 한다.

그래서 엔비디아는 처음부터 새 아키텍처를 설계했다. 코드명은 올림푸스(Olympus) 코어다. 황이 강조한 특징은 네 가지로 정리된다.

요소	내용
클록당 명령어(IPC)	단일 스레드 성능을 최우선으로 설계. 클록당 10개의 명령어를 가져와 디코딩·실행하는 10-와이드 구조
코어당 대역폭	데이터를 코어 안팎으로 옮기는 속도를 업계 최고 수준으로 끌어올림
전체 대역폭	모든 코어를 빛의 속도에 가깝게 잇는 3.6 TB/s 패브릭. PCIe 6세대 첫 적용
에너지 효율	토큰 생성에서 전력을 빼앗지 않도록, 같은 전력으로 더 많은 CPU를 욱여넣는 효율

구체적인 수치도 제시됐다. 88개의 올림푸스 코어를 하나의 모놀리식 메시(mesh)로 묶었고, 메모리와 코어를 칩렛으로 쪼개지 않은 덕에 코어 간 통신이 전통적 CPU보다 50% 빠르다. LPDDR5X 메모리를 쓰면서도 다중 오류를 동시에 정정하는 기술을 처음 적용해, x86 대비 최대 40% 낮은 메모리 지연을 달성했다고 한다. 메모리 대역폭은 1.2 TB/s로, 시장 최고 성능 CPU의 두세 배 수준이다. NVLink 칩투칩으로 GPU와 직접 연결되고, CPU 간에도 여러 소켓으로 확장된다.

황이 든 실제 작업 성능 사례는 두 가지다. 데이터베이스 표준 언어 SQL이 베라 CPU에서 3배 빨라지고, 뉴욕증권거래소(NYSE)가 쓰는 실시간 스트림 처리가 6배 빨라졌다는 것이다. 그는 "GPU에서 성능 배수를 말하는 건 흔하지만, CPU의 실제 워크로드에서 배수를 말하는 일은 드물다"며 5%, 10% 개선도 어려운 영역에서 이 정도 속도 향상은 이례적이라고 자평했다.

전략적 함의도 분명히 했다. 직전 세대의 그레이스 CPU는 이미 모든 클라우드·기업의 AI 인프라에서 검증을 마쳤고, 소프트웨어 스택이 최적화돼 있다. 베라도 같은 길을 밟아 "가장 최적화된 에이전트용 CPU"가 될 것이라는 논리다. 황은 사람이 약 10억 명인 데 비해 에이전트는 수십억, 수백억 개가 될 것이므로, 에이전트용 CPU 시장이 기존 시장보다 커질 것이라고 내다봤다.

05엔터프라이즈 AI 툴킷 — 모든 회사가 에이전트 회사가 된다

하드웨어 다음은 그 위에서 돌아갈 소프트웨어다. 황은 "모든 기업이 에이전트를 돌리게 될 것이고, 모두가 '에이전트를 안전하게 어떻게 운영하느냐'를 묻게 된다"며 엔비디아 엔터프라이즈 AI 툴킷을 제시했다. 구성은 앞서 설명한 에이전트의 네 요소와 정확히 맞물린다. 모델, 하니스, 도구·스킬, 런타임이다.

모델

수정 가능한 오픈 모델 (네모트론 등)

하니스

오케스트레이션 (오픈셸·헤르메스 등)

도구·스킬

CUDA-X 라이브러리 + 사용설명서

런타임

클라우드·온프레미스·기기에서 실행

핵심 런타임은 오픈셸(OpenShell)이다. 기업 내부에서 에이전트를 안전하게 돌리기 위한 보안 셸로, 에이전트를 보안 정책 안에 가두고 신원·권한·프라이버시를 보호한다. 오픈소스로 공개되며 레드햇, 캐노니컬, 마이크로소프트 등이 채택을 예고했다. 황은 클로드 코드(Claude Code)나 코덱스(Codex) 같은 외부 에이전트도 이 셸 안에서 돌릴 수 있다고 강조했다.

네모트론 3 울트라

모델 쪽 발표는 네모트론 3 울트라(Nemotron 3 Ultra)다. 상태공간모델(SSM, State Space Model)과 전문가 혼합(MoE, Mixture of Experts)을 결합한 하이브리드 아키텍처로, 엔비디아가 "이 구조로는 세계 최초"라고 소개했다. 속도가 5배 빠르고, 총 연산량과 추론 시간 기준으로 가장 비용 효율이 높은 모델보다도 30% 더 저렴하다는 주장이다. 핵심은 단지 모델 가중치만이 아니라 학습에 쓴 데이터와 학습 스크립트까지 함께 공개한다는 점이다. 받아서 자기 것으로 개선하라는, 오픈 모델의 정공법이다.

비유

"5배 빠르다"가 왜 중요할까. 같은 비용으로 5배 빠르면, 같은 비용으로 5배 더 오래 생각하게 할 수 있다. 시험 시간을 5배 늘려 주는 것과 비슷하다. 어려운 문제일수록 답을 길게 따져볼 여유가 곧 정답률로 이어지는데, 빠른 모델은 그 여유를 값싸게 사주는 셈이다.

케이던스 칩설계 슈퍼에이전트

툴킷의 쓰임새를 보여준 사례가 반도체 설계 회사 케이던스(Cadence)와의 협업이다. 칩 설계는 엔비디아 자신에게도 가장 중요한 작업인데, 이를 에이전트화했다. 코덱스나 클로드 코드가 전체 과정을 조율하고, 네모트론이 떠받치며 오픈셸이 보안을 맡는 가운데, RTL 생성·테스트벤치 작성·회귀 테스트·디버깅을 담당하는 전문 하위 에이전트들이 수백 건의 시뮬레이션을 자동으로 돌린다. 황은 "몇 주 걸리던 검증 주기가 몇 시간으로, 40배 이상 빨라졌다"고 했다. 그러면서 "엔비디아는 수천 명의 칩 설계자를 두고 있는데, 여기에 수십만 개의 케이던스 슈퍼에이전트를 고용하겠다"고 덧붙였다.

여기서도 황의 메시지는 일관된다. 에이전트가 시장을 파괴하는 것이 아니라, 케이던스·크라우드스트라이크·서비스나우·팔란티어·SAP 같은 소프트웨어 회사에게 사상 최대의 기회를 연다는 것이다.

06RTX 스파크 — 40년 만에 다시 그린 윈도우 PC

데이터센터 이야기를 마친 황은 무대를 PC로 돌렸다. 그는 윈도우의 역사를 짚으며 "윈도우 3.1과 윈도우 95가 PC를 개인의 물건으로 만든 지 40년이 지났다"고 운을 뗐다. 그리고 "이제 마이크로소프트와 엔비디아가 PC를 다시 발명한다"고 선언했다. 이 발표가 갖는 무게는 단순히 신제품 한 대가 아니라, 엔비디아가 그동안 거의 손대지 않았던 소비자 PC 프로세서 시장에 들어왔다는 데 있다.

주인공은 RTX 스파크(RTX Spark)다. Arm 기반 시스템온칩(SoC, System on Chip)으로, 미디어텍(MediaTek)·마이크로소프트와 공동 설계했다. 코드명은 N1x로 알려져 있다.

NVLink-C2C가 CPU와 GPU를 묶고, 128GB 통합 메모리를 양쪽이 함께 쓴다. 데이터센터 기술을 책상 위로 내린 구조다.

스펙을 정리하면, 20코어 그레이스 CPU와 CUDA 코어 6,144개·5세대 텐서 코어를 갖춘 블랙웰 GPU를 NVLink-C2C로 잇고, 최대 128GB의 통합 LPDDR5X 메모리를 공유한다. TSMC 3나노 공정, 트랜지스터 약 700억 개, FP4 기준 1페타플롭의 로컬 AI 성능이다. 엔비디아는 이 한 대로 1,200억 파라미터급 거대언어모델을 최대 100만 토큰 컨텍스트로 로컬 구동하고, 90GB가 넘는 3D 장면 렌더링과 12K 4:2:2 영상 편집, 레이트레이싱·DLSS를 켠 1440p AAA 게임을 초당 100프레임 이상으로 돌릴 수 있다고 밝혔다.

하드웨어보다 중요한 것은 소프트웨어 환경이다. 마이크로소프트와 함께 윈도우를 에이전트 플랫폼으로 바꾼다. 앞서 데이터센터용으로 소개한 오픈셸을 윈도우에 가져오고, 새로운 보안·격리 기본요소(security primitives)를 더한다. 사용자가 허락한 도구와 데이터에만 에이전트가 접근하도록 막는 안전장치다. 헤르메스 에이전트(Hermes, 누스 리서치)와 오픈클로(OpenClaw) 같은 외부 하니스가 이 위에서 돌아가며, 어도비는 포토샵·프리미어를 RTX 스파크용으로 다시 설계해 두 배 빠른 속도와 에이전트 연동(MCP 서버)을 약속했다. 마이크로소프트 사티아 나델라 CEO는 "윈도우가 있는 모든 가정과 모든 책상에 한도 없는 지능을 전달하는 것"이 목표라고 밝혔다.

엔비디아는 RTX 스파크를 노트북 한 종에 그치지 않고, 데스크톱·노트북·워크스테이션을 아우르는 윈도우 PC 제품군 세 종으로 확장한다고 발표했다. 모두 100% 윈도우 호환, 100% CUDA를 표방한다. 노트북은 마이크로소프트(서피스 랩톱 울트라)·델·HP·레노버·에이수스·MSI가 올가을 출시하며, 14~16인치, 두께 14mm, 무게 약 1.4kg, 탠덤 OLED와 G-SYNC를 갖췄다. 최상위 모델인 DGX 스테이션은 메모리 768GB에 20페타플롭, 메모리 대역폭 8 TB/s를 책상 위에 올려, 1조 파라미터 모델을 로컬에서 다룰 수 있게 한다.

황은 더 멀리 내다봤다. 15~20년 전의 '전화기'가 이제 통화 빼고 모든 일을 하는 물건이 됐듯, 오늘의 PC도 10년 뒤에는 전혀 다른 무언가가 된다는 것이다. 그는 "집집마다 홈시어터와 식기세척기가 있듯, 언젠가 집 안에 AI 슈퍼컴퓨터가 한 대씩 놓여 모든 에이전트를 돌릴 것"이라며, 그것은 PC라기보다 R2-D2나 C-3PO에 가까운 존재가 될 것이라고 말했다.

07피지컬 AI — 데이터가 가장 어려운 문제

마지막 축은 물리 세계의 AI, 즉 자율주행차와 로봇이다. 황은 "에이전트 AI는 결국 디지털 로봇"이라며, 이해·추론·계획·실행이라는 같은 패턴이 물리 세계로 확장된다고 정리했다. 다만 가장 큰 난관은 데이터다. 언어 모델은 사람이 쓴 인터넷 텍스트로 학습할 수 있지만, 로봇은 로봇의 시점에서 본 데이터가 필요하다. 그런데 세상의 영상 대부분은 3인칭이지 1인칭이 아니다.

해법으로 제시된 것이 코스모스 3(Cosmos 3)다. 세계 최초의 완전 오픈 피지컬 AI 옴니모델(omnimodel)을 표방하며, 트랜스포머 혼합(MoT, Mixture of Transformers) 아키텍처를 쓴다. 텍스트·이미지·영상·주변음·행동 시퀀스를 입력으로 받아 같은 형식으로 출력한다. 자기회귀 트랜스포머가 추론·계획하고, 그 지시를 디퓨전 트랜스포머가 받아 다음 장면을 생성하는 구조다.

코스모스 3 구성

변형 모델. 코스모스 3 나노(160억 파라미터 = 추론 80억 + 생성 80억), 코스모스 3 슈퍼(640억 = 추론 320억 + 생성 320억), 그리고 추후 공개될 코스모스 3 엣지(20억).

공개 방식. 두 모델은 허깅페이스(Hugging Face)에서 상업적 사용을 허용하는 OpenMDW 1.1 라이선스로 배포. 모델·데이터·학습 방법을 모두 공개해 자기 것으로 개선 가능.

역할. 영상을 보고 무슨 일이 벌어지는지 이해하는 시각언어모델(VLM)이자, 물리적으로 정확한 합성 영상을 만드는 월드 모델이자, 정책 학습을 위한 시뮬레이터로 동시에 쓰인다.

알파마요 2 슈퍼 — 추론하는 자율주행차

자율주행 쪽 발표는 알파마요 2 슈퍼(Alpamayo 2 Super)다. 레벨 4 로보택시용 오픈 모델로, "세계 최초의 추론형 자율주행차"를 표방한다. 시연 영상에서 차는 "정지한 선행 차량을 피해 왼쪽으로 비킨다", "끼어드는 차량과 거리를 유지한다"처럼 자기 판단의 근거를 말로 풀어내며 주행했다. 황은 "계속 말하게 두면 사람이 미치겠지만, 차가 스스로에게 말하는 것은 곧 생각하는 것"이라고 했다. 엔비디아 드라이브 하이퍼리온(DRIVE Hyperion) 플랫폼에는 전 세계 자동차 제조사의 약 80%가, 모빌리티 서비스의 약 97%가 연결돼 있다는 점도 강조됐다.

아이작 그루트 — 오픈 휴머노이드 레퍼런스 로봇

가장 시선을 끈 것은 아이작 그루트(Isaac GR00T) 레퍼런스 휴머노이드 로봇이다. 휴머노이드 연구가 어려운 이유는 시뮬레이터·원격조작·데이터 파이프라인·학습 인프라를 매번 처음부터 짜맞춰야 하기 때문이다. 엔비디아는 하드웨어(몸)와 오픈소스 소프트웨어(두뇌)를 한 묶음으로 제공해 이 조각 맞추기를 없애려 한다.

구성	내용
몸체	유니트리(Unitree) H2 플러스 섀시 — 키 약 6피트(180cm), 무게 약 150파운드(68kg), 31자유도
손	샤르파(Sharpa) 웨이브 촉각 5지 핸드 — 손당 22자유도 (총 자유도 약 75)
두뇌	젯슨 AGX 토르(Jetson AGX Thor) T5000 — 블랙웰 기반 2,070 FP4 테라플롭
소프트웨어	아이작 그루트 오픈 워크플로 — 데이터 수집·생성, 시뮬레이션, 학습, 평가, 배포

키노트 자막에는 손가락 자유도가 손당 25개로 나왔으나, 엔비디아 공식 자료 기준으로는 손당 22자유도, 섀시 31자유도를 더해 총 약 75자유도다. 협력 구도도 주목할 만하다. 몸체는 항저우의 유니트리, 손은 싱가포르의 임바디드 AI 스타트업 샤르파가 맡았다. ETH 취리히, 스탠퍼드 로보틱스 센터, Ai2, UC 샌디에이고 등 주요 연구기관이 도입을 확정했고, 출시는 2026년 10월로 예정돼 있다. 공교롭게도 이 시점은 유니트리의 중국 STAR마켓 상장 심사와 맞물린다.

08시장 반응과 한국 — 무엇이 걸려 있나

키노트의 파급은 즉각적이었다. 황의 발표에 힘입어 대만 증시는 장 초반 1,000포인트 넘게 뛰어 가권지수가 45,600을 돌파하며 사상 최고치를 새로 썼다. 한국 시장의 반응은 더 직접적이었다. 베라 루빈의 HBM4 공급사로 삼성전자·SK하이닉스·마이크론이 지목되면서, 삼성전자는 10.1% 올라 사상 최고가로 마감했고 LG전자는 30% 가까이 급등했다.

황의 한국 행보도 이를 뒷받침했다. 6월 1일 저녁 엔비디아는 타이베이 다안구의 한 식당에서 첫 '코리아 파트너 나이트'를 열었고, 삼성·SK하이닉스·LG전자·현대차그룹·네이버의 고위 인사들이 황과 함께했다. SK그룹 최태원 회장은 이날 낮 키노트에 직접 참석했다. 이 자리는 황이 이번 주 후반 서울 방문을 앞두고 공급사·파트너 관계를 다지는 자리로 읽혔다.

키노트 본문에서도 한국은 여러 번 등장했다. 황은 AI 클라우드 사례를 들며 한국의 네이버 클라우드(NAVER Cloud)를 거론하고, 그 고객으로 한국은행·현대 등을 언급했다. 베라 루빈의 HBM4 공급, 휴머노이드·로보틱스 협력, 자율주행 생태계까지 더하면, 이번 발표는 한국의 메모리·완성차·플랫폼 산업 전반과 맞닿아 있다.

한국 기업과의 접점

삼성전자 · SK하이닉스 — 루빈 GPU용 HBM4 공급. 삼성은 그록 LPU(4나노)의 파운드리도 맡는 구도.

LG전자 · 현대차그룹 — 로보틱스·물리 AI 협력 기대가 주가에 선반영.

네이버 클라우드 — 키노트에서 지역 AI 클라우드 사례로 직접 거명.

정리 — GPU 회사에서 인프라 회사로

이번 키노트를 관통하는 변화는 엔비디아의 정체성 이동이다. 황은 "엔비디아는 한때 GPU 회사였고, 시스템 회사가 됐으며, 이제 AI 인프라 회사가 됐다"고 스스로 규정했다. 고객이 사고 싶은 것은 컴퓨터가 아니라 AI 공장이며, 그 공장을 처음부터 끝까지(전력·냉각·네트워크까지) 함께 짓는 것이 엔비디아의 새 영역이라는 것이다. 옴니버스(Omniverse) 디지털 트윈에서 공장 전체를 미리 시뮬레이션한 뒤에야 땅을 파고 돈을 투입한다는 DSX 청사진이 그 상징이다.

컴퓨트가 곧 매출이고, 와트당 처리량이 곧 수익률이다.

발표를 한 줄기로 꿰는 명제는 결국 이것이다. 에이전트가 일을 하게 되면서 토큰이 이익을 내는 단위가 됐고, 이익이 나니 더 많은 토큰을 만들려는 수요가 폭발하며, 그 수요가 베라 루빈부터 RTX 스파크까지 모든 제품의 존재 이유가 된다. 같은 에이전트 컴퓨팅 패턴(모델·하니스·도구·런타임)이 클라우드와 기업 서버, 책상 위 PC, 자동차와 로봇으로 똑같이 복제된다는 것이 황의 그림이다.

물론 검증이 필요한 부분도 남는다. 1조 달러 매출(2027년)이나 3,000억 달러 추가 매출 기회 같은 숫자는 프리미엄 등급 서비스에 대한 실제 구매 수요를 전제로 하며, 분석가들도 이 점에 신중론을 달았다. 와트당 35배, 절대 처리량 350배 같은 성능 배수 역시 특정 워크로드와 비교 기준에 따라 달라지는 값이다. 그럼에도 분명한 것은, 엔비디아가 자체 칩(루빈 CPX)을 접고 외부 기술(그록 LPU)을 받아들이면서까지 추론 시장에 들어왔고, 비워뒀던 소비자 PC 프로세서 시장에도 발을 디뎠다는 사실이다. 두 시장 모두 엔비디아가 1위였던 적이 없는 곳이라는 점에서, 이번 키노트는 제품 발표인 동시에 영역 확장의 선언이었다.