jacobhan.me

반도체 · AI 인프라

엔비디아 베라(Vera) CPU — GPU 옆자리까지 가져가는 AI 데이터센터 전략

한 회사의 GPU(Graphics Processing Unit, 그래픽처리장치)가 시장을 장악한 뒤, 그 옆에 붙는 부품들까지 한 묶음으로 빨려 들어가고 있다. 서버용 CPU(Central Processing Unit, 중앙처리장치) 벤치마크 한 건이 그 흐름을 가장 선명하게 보여 준다.

2026년 5월 28일·읽는 데 약 12분


벤치마크 한 건이 던진 질문

최근 한 독립 성능 측정에서, 엔비디아의 차세대 서버용 CPU ‘베라(Vera)’가 전작인 그레이스(Grace) 대비 기하평균 기준 약 63% 빠른 성능을 냈다. 더 눈길을 끈 대목은 비교 대상이다. AMD와 인텔(Intel)이 현재 시장에 내놓은 최상위급 서버 CPU들과 견줘도 베라가 앞서는 결과가 나왔다.

구체적으로는 단일 스레드 성능이 가장 빠른 x86 칩으로 꼽히는 AMD 에픽(EPYC) 9575F를 약 10% 앞섰고, 128코어를 탑재한 인텔 제온(Xeon) 6980P(코드명 그래니트 래피즈, Granite Rapids)는 약 55% 차이로 따돌렸다. ARM(Advanced RISC Machines, 암) 계열 프로세서가 고성능 x86 서버 칩을 정면으로 넘어선 사례 자체가 흔치 않다.

다만 이 숫자만 보고 “인텔과 AMD가 끝났다”고 읽는 것은 성급하다. 그 이유는 뒤에서 따로 짚는다. 더 중요한 것은 이 사건이 단순한 ‘CPU 성능 순위 변동’을 넘어선다는 점이다. AI(Artificial Intelligence, 인공지능) 데이터센터에서 구매의 기본 단위가 칩 한 개에서 랙(rack, 서버 장비를 꽂는 캐비닛) 전체로 옮겨 가고 있음을 보여 주는 신호이기 때문이다.

베라가 무엇인가

베라는 엔비디아가 직접 설계한 차세대 서버용 CPU다. 기존 그레이스 CPU의 후속이며, 엔비디아의 차세대 AI 시스템인 ‘베라 루빈(Vera Rubin)’ 플랫폼의 두뇌 역할을 맡는다. 그레이스가 ARM의 표준 설계(네오버스 V2, Neoverse V2)를 가져다 쓴 반면, 베라는 엔비디아가 자체 개발한 ‘올림푸스(Olympus)’ 코어를 처음 적용했다. 남의 설계도를 빌려 쓰던 단계에서 자기 손으로 코어를 그리는 단계로 넘어간 것이다.

코어 구성
88개 올림푸스 코어 · Armv9.2 ISA
스레드
176개 · 공간 멀티스레딩
메모리
LPDDR5X · 대역폭 약 1.2 TB/s
캐시
L2 2 MB/코어 · L3 통합 164 MB
연산 정밀도
FP8 네이티브 지원 · SVE2 벡터
입출력
PCIe Gen6 · CXL 3.1
소비 전력(TDP)
약 450 W · 메모리 별도 약 50 W
트랜지스터
약 2,270억 개

FP8은 숫자 하나를 8비트로 표현하는 저정밀 연산 방식으로, 정확도를 약간 양보하는 대신 같은 시간에 훨씬 많은 AI 계산을 처리한다. 이 기능을 GPU가 아닌 CPU 코어 안에 직접 넣었다는 점이 베라 설계의 특징이다.

핵심은 “엔비디아도 CPU를 만들었다”가 아니라 “엔비디아가 왜 CPU를 만들 수밖에 없었나”이다. AI 데이터센터는 GPU만 빠르다고 끝나지 않는다. GPU가 쉬지 않고 일하려면, 누군가 그 옆에서 데이터를 끊임없이 떠먹여 줘야 한다. 메모리에서 데이터를 꺼내고, 저장장치에서 가져오고, 네트워크로 다른 서버와 보조를 맞추고, 수많은 작업을 GPU에 나눠 배분하는 일이 모두 CPU의 몫이다.

◆ 비유로 이해하기 — 무대 위와 무대 뒤

GPU가 무대 위의 주연 배우라면, CPU는 무대 뒤에서 조명·음향·동선·소품 이동을 조율하는 스태프다. 주연이 아무리 뛰어나도, 뒤에서 조명이 꺼지거나 소품이 제때 올라오지 않으면 공연은 멈춘다.

예전에는 무대 뒤가 한가했다. 그런데 공연(AI 연산)이 점점 길고 복잡해지면서, 이제는 무대 뒤 스태프가 분주하게 움직이지 않으면 주연이 무대 위에서 멍하니 기다리게 된다. 베라는 ‘더 빠르고 손이 많은 스태프’를 만들겠다는 시도다.

왜 지금 CPU가 다시 중요해졌나

한동안 CPU는 데이터센터의 ‘조연’으로 밀려나 있었다. 무거운 AI 계산은 GPU가 도맡았고, CPU는 곁다리 취급을 받았다. 그런데 AI의 사용 방식이 바뀌면서 무게중심이 다시 흔들리고 있다. 결정적 변화는 이른바 ‘에이전트형 AI(agentic AI)’의 확산이다.

지금까지의 AI가 질문 하나에 답 하나를 내놓는 식이었다면, 에이전트형 AI는 사람을 대신해 여러 단계를 스스로 밟는다. 코드를 실행하고, 외부 도구를 호출하고, 검색 결과를 받아 다시 다음 행동을 정한다. 사람은 도구를 가끔 쓰지만, 수억 개의 AI 에이전트는 도구를 쉴 새 없이, 그리고 매우 빠르게 호출한다. 이 모든 ‘도구 호출과 흐름 제어’는 GPU가 아니라 CPU가 처리하는 일이다.

여기에 더해, 대화가 길어지고 사용자가 늘고 에이전트가 여러 도구를 동시에 부르면 데이터의 양이 폭증한다. GPU 내부의 초고속 메모리(HBM, High Bandwidth Memory, 고대역폭 메모리)만으로는 그 데이터를 다 품고 있기가 어렵다. 이때 CPU가 옆에서 메모리와 데이터 흐름을 붙잡고 끌고 가야 한다. 베라가 메모리 대역폭(초당 약 1.2 테라바이트)과 코어를 모두 늘린 이유가 여기에 있다.

과거: 병목은 GPU 안에서만 GPU 연산이 곧 성능 CPU·메모리·네트워크는 조연에 머무름 에이전트형 AI 현재: 병목이 GPU 주변으로 번짐 GPU CPU 메모리 네트워크 랙 연결 GPU를 둘러싼 부품들이 새 병목 지점이 됨
AI 데이터센터의 병목은 더 이상 GPU 내부에서만 터지지 않는다. CPU·메모리·네트워크·랙 연결로 번지고 있으며, 베라는 그중 CPU 자리를 엔비디아가 직접 채우려는 움직임이다.

그래서 베라의 진짜 의미는 ‘CPU 성능 경쟁’이 아니라 ‘병목이 CPU 쪽으로 옮겨 가고 있다는 신호’로 읽는 편이 정확하다. 예전에는 CPU가 서버의 중심이고 GPU가 곁에 붙은 가속기였다. 지금의 AI 데이터센터에서는 GPU가 중심이고, CPU는 그 GPU 군단을 먹이고 묶고 조율하는 ‘시스템 부품’으로 역할이 재편되고 있다.

숫자를 정확히 읽기 — 그리고 그 한계

벤치마크 결과를 한 장의 그림으로 정리하면 베라의 위치가 분명해진다. 아래는 여러 시험 항목의 기하평균을 베라 100을 기준으로 환산한 상대 성능이다.

100 (베라 기준) 0 엔비디아 베라 100 AMD 에픽 9575F 91 인텔 제온 6980P 65 엔비디아 그레이스 61 상대 성능 지수 · 전체 시험 항목 기하평균 · 베라 = 100
막대가 길수록 성능이 높다. 베라는 전작 그레이스 대비 약 63%, 인텔 최상위 제온 대비 약 55%, AMD 최상위 에픽 대비 약 10% 앞섰다. (양산 전 실리콘으로 측정한 제한적 초기 결과)
⚠ 이 숫자를 곧이곧대로 받아들이면 안 되는 이유

① 측정에 쓰인 칩은 양산 전 시제품(pre-production)이다. 정식 양산품에서 같은 성능이 유지될지는 별개 문제다. ② 시험 항목이 컴파일·메모리 대역폭·파이썬/자바 실행·영상 인코딩·데이터베이스 등 제한된 워크로드로 한정됐고, 그 범위를 엔비디아가 골랐다. ③ 무엇보다 전력 효율 데이터가 공개되지 않았다. 전력 관리 기능이 아직 다듬어지는 중이라 소비 전력·동작 주파수 측정이 막혀 있었다. 서버 CPU에서 진짜 질문은 “얼마나 빠른가”만이 아니라 “그 성능을 몇 와트로 냈는가”다.

요약하면, 베라의 초기 성능은 인상적이지만 “AMD·인텔이 끝났다”는 결론과는 거리가 멀다. 컴파일·데이터베이스·과학계산·AI 전처리 등 작업 종류에 따라 결과는 얼마든지 달라질 수 있고, 전력당 성능과 양산성, 실제 가격이라는 검증대가 아직 남아 있다.

진짜 그림 — 칩이 아니라 랙을 판다

이 사건이 의미심장한 까닭은 베라가 단독 칩이 아니라 ‘베라 루빈(Vera Rubin)’이라는 거대한 시스템의 한 조각이라는 데 있다. 엔비디아는 이 시스템을 ‘익스트림 코디자인(extreme co-design)’, 즉 여러 칩을 처음부터 한 몸처럼 함께 설계하는 방식으로 만든다. 베라 루빈 NVL72라는 랙 한 대에는 서로 다른 여섯 종류의 칩이 들어가며, 각자 따로 노는 것이 아니라 하나의 유기체처럼 맞물려 동작하도록 설계됐다.

베라 루빈 NVL72 랙 — 한 묶음으로 설계·판매 루빈 GPU 연산의 중심 HBM4 메모리 베라 CPU 데이터 공급·흐름 제어 초고속 직결 NVLink 6 스위치 GPU 간 초고속 연결 ConnectX-9 SuperNIC 서버 간 네트워크 카드 BlueField-4 DPU 보안·저장·통신 전담 Spectrum-6 스위치 이더넷 데이터 교환
여섯 칩이 처음부터 한 세트로 설계된다. 베라 CPU(왼쪽)는 그중 ‘마지막 퍼즐 조각’으로, 그동안 외부 업체에 맡기던 자리를 엔비디아가 직접 채운 결과다. DPU·NIC·스위치는 데이터 처리장치·네트워크 카드·교환기를 가리킨다.

이 구조에서 엔비디아가 고객에게 던질 수 있는 메시지가 바뀐다. “GPU를 우리 것으로 쓴다면, CPU도 네트워크도 메모리 구조도 랙 시스템도 전부 우리 플랫폼으로 맞추는 편이 가장 빠릅니다.” GPU는 이미 엔비디아가 잡았고, 네트워크(ConnectX·BlueField·Spectrum)와 랙 단위 연결(NVLink)도 자사 제품으로 묶여 있다. 거기에 베라로 CPU 자리까지 메우면, 마지막으로 남아 있던 외부 의존 조각이 사라진다.

◆ 비유로 이해하기 — 부품 한 개 vs 공장 한 채

예전의 서버 구매는 ‘냉장고를 살 때 모터를 어느 회사 것으로 할까’를 고르는 일에 가까웠다. 부품 하나하나의 성능을 비교했다.

지금의 AI 데이터센터 구매는 ‘식품 공장을 통째로 한 채 사는 일’에 가까워지고 있다. 이때 중요한 것은 “모터가 10% 더 빠른가”가 아니라 “공장 전체가 멈추지 않고 안정적으로 돌아가는가”다. 엔비디아는 이 ‘공장 한 채’를 자기 이름으로 팔고 싶어 하고, 베라는 그 패키지를 완성하는 마지막 조각이다.

실제로 베라 루빈 시스템은 2026년 1분기에 양산에 들어갔고, 클라우드·서버 제조사들을 통한 본격 공급은 2026년 하반기로 예고돼 있다. 베라는 이 랙 시스템의 두뇌로 들어가는 동시에, 처음으로 GPU 없이 CPU만 꽂는 ‘독립형 CPU 랙’으로도 판매된다. 엔비디아가 서버 CPU라는 새 시장에 정식으로 진입한다는 뜻이다.

실패한 인수의 우회로

베라의 서사에는 한 가지 역사적 맥락이 깔려 있다. 엔비디아는 한때 ARM이라는 회사를 통째로 사들이려 했다. 2020년 9월 약 400억 달러 규모의 인수를 발표했지만, 미국 연방거래위원회(FTC, Federal Trade Commission)와 영국·유럽연합(EU)·중국의 규제 당국이 잇따라 제동을 걸면서 2022년 2월 거래가 무산됐다. ARM은 수많은 경쟁사가 함께 쓰는 ‘중립적 설계 공급자’였던 만큼, 한 회사가 독점하면 경쟁이 왜곡된다는 우려가 컸다. 엔비디아는 계약금 12억 5,000만 달러를 잃었다.

당시에는 이 무산이 엔비디아 CPU 전략의 큰 좌절처럼 보였다. 그런데 AI 시대가 열리자 우회로가 생겼다. ARM이라는 회사를 사지는 못했지만, ARM의 설계 라이선스를 활용해 CPU를 직접 만드는 길은 막히지 않았던 것이다. 엔비디아는 무산 과정에서도 20년 장기 라이선스를 확보해 두었고, 그 위에서 자체 코어(올림푸스)를 설계해 GPU·네트워크·랙 시스템 안에 끼워 넣는 방식으로 다른 길을 뚫었다.

회사를 인수하는 대신, CPU가 필요한 시장의 ‘중심’을 먼저 장악한 셈이다. AI 인프라의 주도권을 쥐면서, 닫혀 있던 CPU 시장의 문을 다른 방식으로 다시 연 것이 베라의 진짜 이야기다.

경쟁 구도는 어떻게 바뀌나

이 변화가 AMD와 인텔에 부담인 이유는 싸움의 성격 자체가 달라지기 때문이다. 두 회사는 서버 CPU 시장에서 오래 경쟁해 왔다. AMD는 에픽으로 데이터센터 점유율을 빠르게 키워 2026년 1분기 기준 서버 CPU 매출의 약 46%를 차지하기에 이르렀고, 인텔은 제온 생태계와 기업 고객 기반을 지켜 왔다. 그런데 엔비디아가 ‘CPU 하나’가 아니라 ‘AI 데이터센터 전체를 어느 플랫폼으로 맞출 것인가’라는 더 큰 판으로 싸움을 끌고 가면, 부품 단위의 성능 비교만으로는 방어가 어려워진다.

양사의 응전 카드

경쟁의 무게중심이 ‘코어 수와 클럭(동작 속도) 싸움’에서 ‘AI 인프라 전체 설계 싸움’으로 옮겨 가고 있다는 점이 핵심이다. 이제 빠른 CPU 하나를 가졌다는 것만으로는 충분하지 않다.

설계만으로 끝나지 않는다 — 공급망이라는 관문

엔비디아가 ‘AI 공장 한 채’를 파는 회사가 되려면 칩 설계만 잘해서는 부족하다. 그 칩을 실제 서버로 만들고, 랙으로 조립하고, 데이터센터에 설치할 수 있어야 한다. 이 단계에서 대만 중심의 공급망이 결정적이다. 첨단 반도체 제조의 중심인 TSMC, 그리고 AI 서버와 랙 생산을 담당하는 대형 조립 업체들이 ‘설계도 위의 시스템’을 실제 물량으로 찍어 내는 역할을 한다. 베라 루빈처럼 여섯 칩을 한 몸으로 묶은 시스템은, 보드·냉각·네트워크·전력 공급망이 모두 맞물려야 비로소 안정적으로 양산된다.

다시 말해, 벤치마크에서 빠른 것과 거대한 시스템이 공급망 위에서 안정적으로 쏟아져 나오는 것은 완전히 다른 문제다. 전자가 출발점이라면, 후자가 진짜 경쟁력이다.

앞으로 지켜봐야 할 네 가지

베라가 벤치마크만 좋은 칩인지, 아니면 차세대 AI 시스템 안에서 GPU를 쉼 없이 먹여 살리는 핵심 부품인지는 다음 네 가지가 가른다.


정리 — 부품을 따로 고르는 시대가 얼마나 남았나

이번 벤치마크는 “엔비디아 CPU가 인텔·AMD보다 몇 퍼센트 빨랐다”는 기술 뉴스로 끝나지 않는다. 그보다는 엔비디아가 AI 데이터센터의 모든 층(연산·메모리·네트워크·CPU·랙 연결)을 자기 아키텍처 안으로 끌어들이는 과정의 한 장면으로 읽는 편이 정확하다. GPU 회사가 CPU까지 만들기 시작했다기보다, GPU를 중심으로 데이터센터 전체를 다시 설계하다 보니 CPU마저 그 생태계 안으로 빨려 들어오기 시작했다고 보는 것이다.

그래서 베라가 던지는 질문은 “엔비디아가 CPU 시장에서 몇 퍼센트를 가져갈 것인가”가 아니다. 더 근본적인 질문은 이것이다. 앞으로 AI 데이터센터에서 CPU라는 부품을 따로 골라 사는 시대가 얼마나 남아 있는가. AI가 기업 간 경쟁 구도와 순위까지 다시 짜는 지금, 엔비디아·AMD·인텔, 그리고 서버 시장에 도전하는 다른 회사들의 판도가 어떻게 재편될지가 진짜 관전 포인트다.