Technology & Industry Report

추론의 분화: AI 에이전트 시대의
반도체 재편과 토큰 경제

2026년 상반기, AI(Artificial Intelligence, 인공지능) 산업의 무게중심이 모델 학습에서 추론 연산으로 옮겨갔다. 접시만 한 웨이퍼 칩을 만드는 회사가 뉴욕 증시에서 한나절 만에 시가총액 1,000억 달러를 넘봤고, 한 AI 기업은 경쟁사의 데이터센터 전체를 통째로 빌렸으며, 메모리 반도체 가격은 분기마다 두 자릿수씩 뛰고 있다. 흩어져 보이는 이 사건들은 하나의 구조 변화, 즉 '추론의 분화'로 수렴한다. 이 보고서는 그 변화의 기술적 원리와 산업적 결과를 정리한다.

2026년 6월 5일 · 전력·반도체·AI 산업 분석

용어 정리

한국어에서 '추론'은 두 가지 다른 개념의 번역어로 함께 쓰여 혼란을 일으킨다. 하나는 인퍼런스(inference)로, 학습이 끝난 AI 모델을 실제로 실행해 답을 만들어내는 연산 과정 전체를 가리킨다. 다른 하나는 리즈닝(reasoning)으로, 모델이 답하기 전에 단계적으로 '생각'을 전개하는 방식을 뜻한다. 이 보고서에서 '추론' 또는 '추론 연산'은 별도 표기가 없는 한 인퍼런스, 곧 모델 실행을 의미한다. 리즈닝은 추론 연산 안에서 토큰(token, 모델이 읽고 쓰는 텍스트의 최소 단위) 소비를 크게 늘리는 한 요인이다.

1웨이퍼 한 장이 던진 질문

2026년 5월 14일, AI 반도체 기업 세레브라스 시스템스(Cerebras Systems)가 미국 나스닥에 상장했다. 공모가는 당초 희망 범위였던 115~125달러를 두 차례 끌어올린 끝에 185달러로 확정됐는데, 첫 거래는 그보다 89% 높은 350달러에서 시작됐고 장중 한때 386달러까지 올랐다. 종가는 311.07달러로 공모가 대비 68% 상승, 시가총액은 약 950억 달러에 이르렀다. 3,000만 주를 팔아 55억 5,000만 달러를 조달했으니, 2019년 우버(Uber) 이후 미국 기술기업 최대 규모의 기업공개(IPO, Initial Public Offering)였다. 청약 수요는 공모 물량의 20배를 넘었던 것으로 전해진다.

흥미로운 점은 이 회사가 불과 석 달 전인 2026년 2월의 비공개 투자 라운드에서 231억 달러로 평가받았다는 사실이다. 석 달 만에 시장이 매긴 값이 네 배 이상으로 뛴 셈이다. 실적 자체는 그 절반도 설명하지 못한다. 세레브라스의 2025년 매출은 5억 1,000만 달러로 전년 대비 76% 늘었고, 약 5억 달러 적자에서 2억 3,780만 달러 흑자로 돌아섰다. 의미 있는 성장이지만 시가총액 950억 달러를 정당화하는 숫자는 아니다. 시장이 산 것은 현재의 매출이 아니라 추론 연산 시장의 구조 변화에 대한 베팅이었다.

+68%

상장 첫날 종가 상승률 (공모가 185달러 → 311.07달러)

55.5억 달러

공모 조달액 — 2019년 이후 미국 테크 IPO 최대

231억 → 약 950억 달러

2026년 2월 비공개 평가액 → 상장 첫날 시가총액

200억 달러+

OpenAI와 체결한 추론 용량 계약 규모 (750MW, 2028년까지)

실제로 상장 전후의 사업 변화가 이 베팅의 근거를 보여준다. 세레브라스는 2024년까지 매출의 85% 이상을 아랍에미리트의 AI 기업 G42 한 곳에 의존했고, 이 관계는 미국 외국인투자심의위원회(CFIUS, Committee on Foreign Investment in the United States)의 심사 대상이 되기도 했다. 그러나 2026년 1월 OpenAI와 750메가와트(MW) 규모의 추론 용량을 공급하는 200억 달러 이상의 다년 계약을 발표했고, 3월에는 아마존웹서비스(AWS, Amazon Web Services)와 손잡고 자사 시스템을 AWS의 AI 서비스에 올렸다. 단일 고객 리스크가 큰 하드웨어 회사에서, 폭증하는 추론 수요에 용량을 파는 클라우드형 사업자로 변신한 것이다.

그렇다면 질문은 이렇게 바뀐다. 왜 지금, 추론 연산이 별도의 칩과 별도의 회사를 정당화할 만큼 중요한 시장이 되었는가. 답은 칩의 구조와 AI 사용 방식의 변화, 두 층위에 걸쳐 있다.

2가장 큰 칩: 메모리를 연산 옆에 두다

일반적인 반도체는 지름 300mm의 둥근 실리콘 웨이퍼 위에 같은 회로를 수백 개 찍은 뒤, 이를 잘라 낱개의 칩(다이, die)으로 만든다. 세레브라스는 이 '자르는' 단계를 생략한다. 주력 제품인 WSE-3(Wafer Scale Engine 3)는 웨이퍼 한 장에서 잘라낼 수 있는 최대 정사각형 전체, 즉 46,225mm²가 통째로 하나의 칩이다. 엔비디아(NVIDIA) H100 GPU(Graphics Processing Unit, 그래픽 처리 장치)의 다이 면적이 826mm²이니 57배 크기다. 이 한 장 안에 트랜지스터 4조 개와 AI 연산 코어 90만 개가 들어 있다.

WSE-3와 엔비디아 H100 다이의 면적 비교(축척 반영). 세레브라스 공개 사양 기준이며, 대역폭 수치는 단일 H100의 HBM(High Bandwidth Memory, 고대역폭 메모리) 대역폭과 WSE-3의 온칩 합산 대역폭을 비교한 것이다.

크기 자체보다 중요한 것은 메모리의 위치다. GPU는 연산 회로와 메모리(HBM)가 물리적으로 분리되어 있어, 데이터가 둘 사이를 끊임없이 오가야 한다. 반면 WSE-3는 90만 개 코어 각각의 바로 옆, 수십 마이크로미터 거리에 48KB씩의 SRAM(Static Random Access Memory, 정적 램)을 붙여 총 44GB의 메모리를 칩 위에 올렸다. 모든 코어가 매 사이클 자기 옆 메모리를 직접 읽고 쓰기 때문에, 합산 메모리 대역폭이 초당 21페타바이트(PB/s)에 이른다. H100 한 장의 HBM3 대역폭(3.35TB/s)의 약 7,000배, 최신 블랙웰(Blackwell) B200과 비교해도 2,000배를 훌쩍 넘는 수치다. 그 결과 세레브라스는 4,000억 매개변수급 대형 모델에서 사용자당 초당 2,500토큰의 생성 속도를 시연했는데, 이는 동급 GPU 시스템의 두 배 이상이다.

비유

GPU와 HBM의 관계가 '책상에서 일하다가 필요한 책을 옆 방 서고에 가서 가져오는' 구조라면, 웨이퍼 스케일 칩은 '90만 명의 사서가 각자 자기 책상 위에 담당 책을 펼쳐 놓고 일하는' 구조다. 서고를 오가는 시간이 사라지니 책 한 권당 처리 속도, 즉 응답 지연(latency, 레이턴시)이 극적으로 줄어든다. 대신 책상 위 공간(SRAM 용량)은 서고(HBM·DRAM)보다 훨씬 작아서, 도서관 전체를 옮기려면 책상을 여러 줄로 늘어세워야 한다.

약점도 같은 구조에서 나온다. SRAM은 빠르지만 비싸고 면적을 많이 차지해, 웨이퍼 한 장을 다 써도 44GB가 한계다. 700억 매개변수급 모델만 해도 메모리 요구량이 140GB를 넘기 때문에 모델의 층(layer)을 여러 시스템에 나눠 싣는 파이프라인 방식이 필요하고, 수천억~수조 매개변수 모델이나 매우 긴 출력을 다루는 작업에서는 효율이 떨어진다. 시장조사기관 트렌드포스(TrendForce)도 2026년 초 보고서에서 SRAM 기반 가속기를 '저지연 추론에 강점이 있으나 비용과 용량 제약 때문에 HBM을 대체하기보다 보완하는 위치'로 평가했다. 즉 이 칩은 만능이 아니라 특정한 종류의 추론을 위한 특화 도구다. 그렇다면 그 '특정한 종류'를 가르는 기준은 무엇인가. 여기서 AI 사용 방식의 변화, 곧 에이전트의 등장이 등장한다.

3시간 지평선: AI가 혼자 일하는 시간

2025년까지의 AI는 본질적으로 '대화 상대'였다. 사람이 질문하면 답하고, 사람이 확인한 뒤 다음 지시를 내리는 핑퐁 구조다. 이 구조에서는 사람이 옆에 붙어 있어야 하므로 AI가 한 번에 처리할 수 있는 일의 크기가 사람의 인내심과 모델의 집중력에 의해 제한됐다. 2025년 말부터 이 제약이 눈에 띄게 풀리기 시작했다. 사람이 과제를 맡기고 자리를 떠도, AI가 스스로 계획을 세우고 실행하고 결과를 검증하며 몇 시간씩 일을 이어가는 에이전트(agent)형 사용이 코딩을 시작으로 사무 업무 전반에 퍼진 것이다.

이 변화를 정량적으로 추적해 온 곳이 AI 평가 전문 연구기관 METR(Model Evaluation & Threat Research)이다. METR은 2025년 3월 '50% 시간 지평선(50% time horizon)'이라는 지표를 제안했다. 어떤 과제를 숙련된 사람이 수행하면 걸리는 시간을 기준으로, AI가 성공 확률 50%로 해낼 수 있는 과제의 최대 길이를 재는 것이다. 신입 직원에게 "혼자 몇 시간짜리 일까지 믿고 맡길 수 있는가"를 묻는 셈이다. METR의 측정에 따르면 이 지표는 지난 6년간 약 7개월마다 두 배씩 늘어 왔는데, 최근 1년 사이의 도약이 특히 가파르다.

모델별 50% 시간 지평선. 2025년 초 1시간 수준이던 자율 작업 길이가 1년 만에 십수 시간 단위로 늘었다. 다만 성공률 기준을 80%로 높이면 지평선이 30분 안팎으로 떨어진다는 측정도 함께 보고되어, '야심찬 과제를 절반쯤 해내는 능력'과 '안정적으로 해내는 능력' 사이의 간극은 여전히 크다.

구체적으로 보면, 2025년 2월의 Claude 3.7 Sonnet은 약 1시간, 같은 해 8월의 GPT-5는 2시간 17분 수준이었다. 2025년 11월 말 출시된 Claude Opus 4.5는 4시간 49분으로 당시 최고치를 기록했고, 비슷한 시기를 전후해 명령줄 코딩 도구와 일반 사무용 에이전트 제품이 잇따라 보급되면서 '맡겨 두는 사용법'이 실제 업무 현장에 자리 잡았다. 2026년 2월의 Claude Opus 4.6에 대해 METR은 약 14.5시간이라는 추정치를 내놓았다. 측정 불확실성이 크다는 단서가 붙었지만, 방향 자체는 분명하다. 퇴근 전에 과제를 맡기면 출근할 때 검증까지 끝난 결과물을 받는 작업 방식이 기술적으로 가능해진 것이다.

비유

시간 지평선 1시간짜리 AI는 '10분마다 상사가 들여다봐야 하는 인턴'이다. 일을 시켜 놓고 자리를 뜰 수 없으니, 일을 잘게 쪼개 주고 매번 결과를 확인해야 한다. 시간 지평선이 열 시간을 넘는 AI는 '아침에 업무를 주면 저녁에 보고하는 주니어 직원'에 가깝다. 이때부터 관리자의 관심사가 바뀐다. 인턴에게는 "빨리 답해라"가 중요하지만, 주니어에게는 "끝까지 제대로 해 와라"가 중요하다. 이 차이가 뒤에서 살펴볼 추론 연산의 분화를 만든다.

에이전트형 사용은 토큰 소비 구조도 바꿨다. 코딩 에이전트는 회원가입 화면 하나를 만들 때도 코드베이스 전체의 구조, 즉 데이터베이스 설계와 다른 기능과의 연결 관계를 읽고, 코드를 쓰고, 테스트를 돌리고, 실패하면 원인을 찾아 고치는 반복 루프(loop)를 돈다. 사람과의 대화 한 턴이 토큰 수천 개를 쓰는 작업이었다면, 에이전트의 자율 루프는 한 과제에 토큰 수백만~수천만 개를 태운다. 같은 '추론'이라도 양과 성격이 완전히 다른 수요가 등장한 것이다.

4추론이 둘로 갈라진다

추론 연산의 분화는 두 개의 축에서 동시에 진행되고 있다. 하나는 한 번의 추론 내부가 성격이 다른 단계들로 쪼개진다는 것이고, 다른 하나는 추론 서비스가 요구 조건이 정반대인 두 시장으로 갈라진다는 것이다.

축 1 — 프리필과 디코드: 한 번의 추론 안에서

대형 언어모델이 답을 만드는 과정은 크게 두 단계다. 첫 단계인 프리필(prefill)은 입력된 질문과 문서 전체를 한꺼번에 읽어 이해하는 과정이다. 모든 입력 토큰을 동시에 처리할 수 있어 병렬성이 높고, 연산량이 지배하는 단계(compute-bound)다. 행렬 곱셈을 대규모 병렬로 처리하는 GPU의 본령이 가장 잘 발휘되는 구간이기도 하다.

두 번째 단계인 디코드(decode)는 답을 토큰 하나씩 순차적으로 생성하는 과정이다. 다음 단어를 고르려면 지금까지 나온 모든 단어와의 관계를 매번 다시 참조해야 하는데, 이 참조 정보를 저장해 두는 것이 KV 캐시(Key-Value cache)다. 즉 디코드는 토큰을 한 개 만들 때마다 모델 가중치와 KV 캐시라는 방대한 데이터를 메모리에서 읽어 와야 하는, 메모리 대역폭이 지배하는 단계(memory-bound)다. 연산기가 아무리 빨라도 메모리에서 데이터를 퍼 오는 속도가 느리면 그만큼 놀게 된다.

비유

동시통역사를 떠올리면 된다. 연사의 발언을 듣고 이해하는 단계(프리필)는 문장 전체를 한 덩어리로 받아들일 수 있지만, 통역을 내보내는 단계(디코드)는 어차피 한 단어씩밖에 말할 수 없다. 그리고 다음 단어를 고를 때마다 '지금까지 무슨 말을 했더라'를 적어 둔 속기 노트(KV 캐시)를 들춰봐야 한다. 말하는 속도를 높이는 관건은 입이 아니라, 노트를 얼마나 빨리 펼쳐 볼 수 있느냐다.

성격이 이렇게 다르니, 두 단계를 서로 다른 하드웨어에 맡기는 분리형 추론(disaggregated inference)이 2025~2026년 사이 업계 표준 설계로 자리 잡았다. 가장 상징적인 사건이 엔비디아의 행보다. 엔비디아는 2025년 12월 24일, SRAM 기반 추론 칩 LPU(Language Processing Unit)를 만들어 온 스타트업 그로크(Groq)와 200억 달러 규모의 계약을 맺고 핵심 인력과 기술 라이선스를 확보했다. 이어 2026년 3월 GTC(GPU Technology Conference) 행사에서 차세대 플랫폼 베라 루빈(Vera Rubin)에 Groq 3 LPU를 디코드 전용 보조 프로세서로 통합한 랙(rack) 제품을 공개했다. LPU 한 개의 온칩 SRAM은 500MB에 불과하지만 칩당 대역폭이 150TB/s에 달하고, 랙 하나에 LPU 256개를 채워 GPU가 프리필을, LPU가 디코드를 맡는 구조다. GPU 군단의 제왕이 'GPU만으로는 안 되는 구간'의 존재를 자사 로드맵으로 인정한 셈이다.

축 2 — 초저지연과 완결성: 두 개의 추론 시장

서비스 차원에서는 요구 조건이 정반대인 두 시장이 갈라지고 있다.

첫째는 초저지연(ultra-low latency) 추론이다. 사람과 실시간으로 상호작용하는 모든 장면, 즉 음성 대화, AI 안경 같은 착용형 기기, 금융 거래, 의료 보조, 안보·방위 분야가 여기 속한다. 여행지에서 AI 안경에 "이 메뉴판에서 땅콩 안 들어간 것만 골라 줘"라고 물었는데 답이 30초 뒤에 온다면 쓸모가 없다. 이 시장의 화폐는 응답까지의 시간이며, 메모리를 연산 옆에 붙인 SRAM 계열 아키텍처, 곧 세레브라스의 웨이퍼 스케일 칩이나 그로크의 LPU가 구조적 우위를 갖는 영역이다.

둘째는 완결성(completion) 추론이다. 앞 장에서 본 장시간 자율 에이전트가 만들어낸 시장이다. 잠들기 전에 맡긴 과제가 8시간 걸리든 10시간 걸리든, 사용자가 아침에 받아 보는 결과물이 검증까지 끝나 있는 것이 중요하다. 응답 속도에 둔감한 대신 토큰 처리량과 비용 효율, 거대한 컨텍스트(context, 문맥)와 KV 캐시를 감당할 메모리 용량이 관건이다. 이 영역에서는 범용 GPU와 HBM은 물론, 캐시와 중간 산출물을 받아 줄 일반 DRAM(Dynamic Random Access Memory, 동적 램), 대용량 저장장치, 그리고 에이전트의 순차적 작업 흐름을 조율하는 CPU(Central Processing Unit, 중앙처리장치)까지 동원되는, 말 그대로 혼성군 체제가 효율적이다. 배치(batch) 처리로 장비 가동률을 끌어올릴 수 있어 야간 유휴 용량 활용 같은 운영 최적화의 여지도 크다.

추론 연산의 두 축 분화. 위쪽은 한 번의 추론 내부에서 일어나는 프리필·디코드 단계 분리, 아래쪽은 서비스 요구 조건에 따른 시장 분리를 나타낸다. 두 분화 모두 '하나의 칩이 모든 추론을 감당한다'는 전제를 무너뜨린다.

정리하면, 학습 시장에서 GPU의 지위는 흔들리지 않았고 추론의 프리필 구간에서도 GPU는 여전히 중심이다. 그러나 디코드 구간과 초저지연 시장에서는 SRAM 계열 가속기가, 완결성 시장에서는 범용 메모리·저장장치·CPU를 아우르는 혼성 구성이 각각 제 몫을 갖게 됐다. 세레브라스 상장에 시장이 열광한 진짜 이유가 여기에 있다. 한 종목의 성공담이 아니라, 추론이 단일 시장이 아니라는 사실이 공모주 가격으로 공인된 사건이었기 때문이다.

5반도체 믹스의 재편

추론의 분화는 반도체 수요를 특정 품목의 독주에서 포트폴리오 전체의 동반 강세로 바꿔 놓았다. 품목별로 살펴보면 변화의 폭이 잘 드러난다.

GPU: 백화점 전략으로의 전환

엔비디아는 2026년 3월 GTC에서 베라 루빈 플랫폼을 '추론의 종류별로 칸을 나눈 시스템'으로 제시했다. 루빈 GPU 72개와 자체 설계 베라 CPU 36개를 묶은 랙을 중심에 두고, 초저지연 디코드용 Groq 3 LPU 랙, 네트워킹 랙을 곁들여 워크로드 성격에 따라 조합하는 구성이다. 분리형 추론을 소프트웨어로 조율하는 운영체계까지 함께 내놓았고, 블랙웰 대비 추론 처리량 10배·토큰당 비용 10분의 1이라는 수치를 내세웠다. 행사에서 엔비디아 경영진은 에이전트 확산으로 필요한 토큰과 연산량이 1만 배 수준으로 불었다며, 2027년까지의 매출 전망을 1조 달러로 올려 잡았다. 특정 추론 칩이 GPU를 대체하는 미래가 아니라, GPU 회사가 추론 칩들을 자기 매대에 들여놓는 백화점 전략으로 응수한 것이다.

메모리: HBM의 독주가 범용 메모리의 품귀로

메모리 시장에서는 더 극적인 일이 벌어졌다. AI 가속기용 HBM은 같은 용량의 DDR5(Double Data Rate 5) 대비 웨이퍼를 약 3배 소비한다. 제조사들이 수익성 높은 HBM과 서버용 고용량 DDR5에 생산능력을 몰아주자, 그 그림자에서 범용 DRAM과 낸드(NAND) 플래시의 공급이 말라붙었다. 시장조사기관 IDC(International Data Corporation)는 2025년 말 이 현상을 일시적 품귀가 아니라 '세계 웨이퍼 생산능력의 영구적·전략적 재배치'일 수 있다고 진단했고, 2026년 공급 증가율을 DRAM 16%, 낸드 17%로 역대 평균 아래로 전망했다. AI 데이터센터가 2026년 전 세계 DRAM 생산량의 약 20%를 흡수한다는 추정도 나왔다.

2026년 메모리 계약가격의 분기별 상승률. 통상 시간이 지날수록 싸지는 부품이 분기마다 두 자릿수씩 오르는, 메모리 산업 역사에서 전례를 찾기 어려운 가격 곡선이다.

그 결과 가격은 수직으로 뛰었다. DDR5 현물가는 2025년 9월 개당 6.84달러에서 12월 27.20달러로 넉 달이 안 되어 4배가 됐고, 트렌드포스 집계 기준 2026년 1분기 범용 DRAM 계약가는 전 분기 대비 90~95%, PC용은 105~110% 상승해 분기 기준 최대 상승 기록을 갈아치웠다. 낸드는 2025년 한 해에만 246% 올랐다는 집계가 있고, 2026년 2분기에도 70~75%의 추가 상승이 전망됐다. 가장 상징적인 장면은 단종 수순이던 구형 DDR4의 현물가가 일부 규격에서 DDR5를 추월한 가격 역전이다. '구식 메모리'가 에이전트 추론의 캐시·버퍼 수요와 공급 축소가 겹치며 희소 자원이 된 것이다. 삼성전자와 SK하이닉스는 부족이 2027년 이후까지 이어질 수 있다고 경고했고, 기업용 SSD(Solid State Drive)와 하드디스크는 5년짜리 장기 공급계약이라는 이례적 관행까지 등장했다.

CPU와 저장장치: 조연의 복권

에이전트의 작업 흐름은 모델 연산 사이사이에 파일 처리, 코드 실행, 데이터베이스 조회 같은 전통적 컴퓨팅을 대량으로 끼워 넣는다. 이 직렬적 잡무들의 처리자는 결국 CPU이고, 수 시간짜리 작업의 중간 산출물과 거대한 KV 캐시를 받아 두는 곳은 대용량 저장장치다. 2026년 들어 서버용 CPU 수요가 급증해 공급 부족과 가격 인상으로 번졌고, x86 진영 제조사들이 데이터센터 부문에서 기록적인 분기 실적을 냈다. AI 사이클에서 소외됐다고 여겨지던 품목들이 에이전트 시대의 필수재로 복귀한 것이다.

이 재편을 자본 흐름이 확인해 준다. 2026년 5월 말 앤트로픽(Anthropic)의 시리즈 H 투자 라운드에는 삼성전자, SK하이닉스, 마이크론(Micron) 등 메모리 3사가 전략적 투자자로 나란히 참여했다. 토큰을 만드는 회사와 토큰의 물리적 기반을 만드는 회사들이 지분으로 묶이기 시작했다는 뜻이며, 메모리 산업이 AI 추론 수요를 일시적 특수가 아닌 구조적 고객으로 본다는 신호다.

품목	에이전트 추론 시대의 역할	2026년 상반기 수요·가격 동향
GPU + HBM	학습 전반, 추론의 프리필, 유연한 범용 추론	공급 부족 지속, 플랫폼화(시스템 단위 판매)로 진화
SRAM 가속기	초저지연 디코드 (대화·음성·착용형·안보)	웨이퍼 스케일 칩 상장 흥행, GPU 진영도 LPU 통합
범용 DRAM (DDR5/DDR4)	KV 캐시·버퍼, 서버 메인 메모리	분기 60~110% 상승, DDR4-DDR5 가격 역전
NAND·SSD·HDD	에이전트 중간 산출물·로그·콘텍스트 저장	연간 세 자릿수 상승, 5년 장기계약 등장
CPU	에이전트 잡무(직렬 처리)·오케스트레이션	서버 CPU 부족·가격 인상, 데이터센터 매출 신기록

6병목의 경제학: 토큰이 돈이 되기까지

수요가 얼마나 빠르게 불어나고 있는지는 공개된 숫자만으로도 가늠된다. 구글은 2026년 5월 연례 개발자 행사에서 자사 서비스 전반의 월간 토큰 처리량이 3,200조(3.2 quadrillion) 개를 넘었다고 밝혔다. 2024년 5월 9.7조, 2025년 5월 480조였으니 1년 만에 7배, 2년 만에 약 330배다. 모델 API(Application Programming Interface, 응용 프로그램 인터페이스)만으로 분당 190억 토큰을 처리하고, 최근 1년간 1조 토큰 이상을 소비한 기업 고객이 375곳이라는 수치도 함께 공개됐다.

구글이 공개한 월간 토큰 처리량. 세로축이 로그 눈금이므로 한 칸이 10배다. 한 기업의 자체 집계지만, 추론 수요의 기울기를 보여주는 가장 큰 공개 표본이다.

문제는 공급이다. 토큰을 찍어내는 공장인 데이터센터는 부지·전력·장비 확보에 수년이 걸려 공급 곡선이 완만하게 우상향하는 반면, 에이전트가 끌어올린 수요 곡선은 수직에 가깝다. 그 간극이 일상에서 체감되는 형태가 사용 한도다. 2025년 하반기부터 주요 AI 서비스에 주간 사용량 상한이 도입됐고, 무거운 에이전트 작업을 돌리는 사용자들 사이에서는 유료 요금제의 한도가 주초에 바닥나는 일이 흔한 불만이 됐다.

경제학의 기본대로, 병목은 병목을 쥔 쪽에 초과 이윤을 안긴다. 첫 번째 수혜자는 칩과 메모리를 쥔 하드웨어 진영이었다. 그런데 2026년에는 두 번째 수혜자가 뚜렷해졌다. 토큰 생산 능력 자체를 쥔 모델 기업이다. 기업 고객 입장에서 업무에 이미 깊이 박힌 에이전트의 토큰 공급이 끊기는 것은 조업 중단과 같으므로, 더 내고라도 용량을 확보하려는 수요가 줄을 선다. 모델 기업은 이 수요를 받아 다시 컴퓨팅을 사들인다.

이 순환의 가장 극적인 사례가 2026년 5월 초 공개된 앤트로픽과 스페이스X(SpaceX)의 계약이다. 앤트로픽은 스페이스X 산하 AI 부문이 미국 멤피스에 지은 슈퍼컴퓨터 '콜로서스(Colossus) 1'의 컴퓨팅 용량 전체를 빌렸다. GPU 22만 개 이상(H100·H200·GB200 혼성), 전력 300MW 규모로, 이후 스페이스X의 상장 신청 서류를 통해 월 12억 5,000만 달러, 2029년 5월까지 총 400억 달러를 넘는 계약임이 드러났다. 명목상 경쟁사의 인프라를 통째로 임차해서까지 확보한 이 용량의 주 용도는 신모델 학습이 아니라 기존 유료 가입자의 추론 병목 해소였다. 흥미로운 기술적 배경도 있다. 콜로서스 1은 세대가 다른 GPU가 섞인 혼성 구조라 단일 거대 모델의 학습에는 효율이 떨어졌지만, 작업을 잘게 나눠 돌리는 추론 용도로는 충분히 쓸 만했다. 임대인은 학습용으로는 애매해진 자산에서 안정적 현금흐름을 얻고, 임차인은 당장의 병목을 풀었으니, 추론 수요가 만든 시장이 한 세대 전 하드웨어의 용도까지 재정의한 셈이다.

비유

가뭄이 들면 물값이 오르고, 저수지를 가진 쪽이 돈을 번다. 지금의 AI 산업에서 물은 토큰이고 저수지는 데이터센터다. 다만 특이한 점이 있다. 이 가뭄은 비가 안 와서가 아니라, 논이 갑자기 100배로 늘어서 생겼다. 그리고 목마른 농가들이 줄을 서자, 물장수가 옆 마을의 놀고 있던 저수지까지 통째로 빌리기 시작했다.

병목의 경제는 모델 기업의 재무제표를 바꿔 놓았다. 앤트로픽의 연 환산 매출은 2025년 연간 약 100억 달러에서 2026년 초 300억 달러, 5월 말에는 470억 달러로 뛰었다. 기업가치는 2026년 2월 시리즈 G에서 3,800억 달러, 불과 석 달 뒤인 5월 28일 시리즈 H에서 9,650억 달러로 평가되며 같은 시점 OpenAI의 평가액(3월 말 기준 8,520억 달러)을 처음으로 넘어섰고, 6월 1일에는 비공개로 상장을 신청했다. 매출 대부분이 기업 고객과 API에서 나오는 이 회사의 성장은 투자자들에게 'AI가 미래가 아니라 현재 시제로 돈을 번다'는 가장 직접적인 증거로 받아들여졌다. 그리고 모델 기업이 번 돈은 클라우드 임차료와 칩 구매로 흘러 하이퍼스케일러(hyperscaler, 초대형 클라우드 사업자)와 반도체 기업의 실적을 끌어올린다. 알파벳(Alphabet)이 2026년 설비투자 안내를 1,800억~1,900억 달러로 올려 잡으면서 내건 근거도 내부와 외부 양쪽에서 밀려드는 추론 수요였다.

이 흐름은 1년 전까지 유효했던 비판 하나를 무력화하고 있다. 2025년의 회의론은 'AI 투자금이 칩 회사에서 모델 회사로, 다시 칩 구매로 되돌아올 뿐 최종 소비자의 지갑에서 나오는 돈이 없다'는 순환 거래(circular deal) 논쟁이었다. 2026년의 그림은 다르다. 일반 기업들이 자기 사업 예산으로 토큰값을 치르고 있고, 그 돈이 모델 기업과 인프라 기업의 손익계산서에 잡히기 시작했다. 물론 이것이 곧 거품의 부재를 뜻하지는 않는다. 뒤에서 보듯 지불하는 쪽에서는 비용 통제라는 반작용이 이미 시작됐다.

7광고와 장바구니: 소비자 시장의 수익화

기업 시장이 토큰 사용량에 비례해 돈을 내는 종량제 경제로 굳어가는 동안, 소비자 시장은 전혀 다른 수익 모델을 향해 움직이고 있다. 수억 명의 무료 이용자에게 직접 요금을 물리는 대신, 검색 엔진과 소셜 미디어가 20년 넘게 다듬어 온 방식, 곧 광고와 커머스를 대화형 AI 위에 얹는 것이다. 이용자는 공짜로 쓰고, 광고주와 판매자가 그 비용을 대는 양면 시장(two-sided market) 구조다. B2B(Business to Business, 기업 간 거래)가 토큰 경제로 간다면, B2C(Business to Consumer, 기업-소비자 거래)는 관심 경제로 간다.

이 전환의 속도는 예상을 앞질렀다. OpenAI는 2026년 1월 16일 미국의 무료 및 저가(Go) 요금제 이용자를 대상으로 ChatGPT 안에 광고를 띄우는 시범 운영을 시작했다. 초기에는 노출 1,000회당 비용을 뜻하는 CPM(Cost Per Mille) 방식으로 약 60달러라는 프리미엄 단가를 불렀으나 광고주 반응을 보며 20달러대 중반까지 내렸고, 4월 21일에는 아예 클릭당 비용을 뜻하는 CPC(Cost Per Click) 방식으로 과금 체계를 바꿨다. 클릭당 3~5달러 수준으로, 이용자가 광고를 실제로 눌러야만 돈을 받는 구조다. 대화형 화면에서는 노출 자체보다 '추천을 보고 행동했는가'가 가치의 단위라는 판단이다. 이 실험은 시작 6주 만에 연환산 1억 달러 매출 규모에 도달했고 600개 이상의 브랜드가 집행에 참여한 것으로 알려졌다. 시장에서는 OpenAI의 광고 매출이 2026년 24억~25억 달러, 2027년 110억 달러 규모로 커질 수 있다는 전망이 나온다. 지역도 빠르게 넓어져 4월 중순 캐나다·호주·뉴질랜드로, 5월 초에는 영국·멕시코·브라질·일본, 그리고 한국까지 확대가 공식화됐다. 유료 구독(Plus·Pro·Enterprise) 이용자는 광고 노출 대상에서 제외된다. 무료로 쓰면 광고를 보고, 광고가 싫으면 돈을 내라는, 동영상 스트리밍에서 익숙해진 공식이 대화형 AI에 그대로 이식되는 셈이다. 반면 앤트로픽은 같은 시기 미국 슈퍼볼 광고를 통해 자사 서비스에는 광고를 붙이지 않겠다는 입장을 공개적으로 못박으며 반대편에 섰다. 기업 고객 중심 회사와 소비자 트래픽 중심 회사의 수익화 전략이 정확히 갈라진 장면이다.

구글의 답은 광고에서 한 걸음 더 나아간 거래 자체의 내재화다. 2026년 5월 구글 연례 개발자 행사에서 공개된 유니버설 카트(Universal Cart)는 검색과 제미나이(Gemini) 대화 안에서 여러 쇼핑몰의 상품을 하나의 장바구니에 담아 결제까지 끝내는 기능이다. 이를 받치는 것이 서로 다른 판매자 시스템을 하나의 규격으로 잇는 UCP(Universal Commerce Protocol, 범용 커머스 프로토콜)로, 여름부터 검색과 제미나이에 적용한 뒤 유튜브와 지메일로 넓힌다는 일정이 제시됐다. 질문에 답하는 화면이 곧 매대이자 계산대가 되는 것이다. 광고가 '추천에 돈을 받는' 모델이라면, 커머스 내재화는 '거래 수수료를 받는' 모델이며, 둘 다 무료 이용자를 수익원으로 바꾼다는 점에서 같은 방향을 가리킨다.

비유

지상파 방송은 시청자에게 수신료 대신 광고를 보게 했고, 대형마트는 입장료 대신 진열대 자릿세와 판매 수수료로 돈을 벌었다. 소비자용 AI가 가는 길도 같다. 답변 화면이 방송 시간대이고, 추천 목록이 진열대다. 다른 점이 하나 있다면, 이 매장은 손님 한 사람 한 사람의 질문 맥락을 알고 진열을 실시간으로 바꾼다는 것이다.

소비자 시장의 수익화는 추론 수요를 한 번 더 키우는 요인이기도 하다. 무료 이용자에게 광고와 커머스를 붙여 수익이 나기 시작하면, 사업자 입장에서는 형편없는 질문에도 좋은 답을 줘서 이용자를 오래 붙잡아 둘 유인이 커진다. 구글 검색의 AI 모드가 쓰는 질의 분기(query fan-out)가 대표적이다. 이용자가 '건성 피부에 맞는 로션 추천해 줘'라고 한 줄을 던지면, 시스템이 이를 연령대·계절·피부 고민·예산 같은 여러 갈래의 하위 질문으로 쪼개 각각 검색과 모델 호출을 수행한 뒤 결과를 종합해 답을 만든다. 질문 하나가 내부적으로는 열 개 안팎의 추론 작업이 되고, 최종 답변에 찍히는 토큰보다 중간 과정에서 소모되는 토큰이 더 많아진다. 한때 'AI 시대에는 질문을 잘하는 능력, 곧 프롬프트 엔지니어링(prompt engineering)이 경쟁력'이라는 말이 유행했지만, 사업자들이 어떤 질문이든 알아서 분해하고 보강하는 쪽으로 기술을 밀어붙이면서 그 격언의 유효기간도 짧아지고 있다. 질문 품질의 부담을 이용자에게서 시스템으로 옮기는 만큼, 그 비용은 고스란히 데이터센터의 추론 부하로 쌓인다.

구글이 같은 행사에서 최상위 모델보다 경량 모델(Flash)을 먼저 출시하는 순서를 택한 것도 이 맥락에서 읽힌다. 수억 명이 무료로 쓰는 화면 뒤에서 질의 분기까지 돌리려면, 토큰당 원가를 낮춘 모델로 트래픽의 대부분을 받아내는 것이 합리적이기 때문이다. 소비자 시장의 수익화와 추론 원가 절감은 동전의 양면이다.

8기업 현장: 전면 도입과 비용 통제의 줄다리기

2025년의 기업 AI 도입이 태스크포스 하나 꾸려서 해 보는 시범 사업의 해였다면, 2026년은 전사 도입의 해다. 분위기를 바꾼 것은 기술 성숙도만이 아니라 경쟁 압력이다. 경쟁사가 코딩 에이전트로 개발 속도를 올리고 있다는 소식, 같은 업종의 해외 기업이 전 직원에게 AI 도구를 깔아 줬다는 소식이 들리는 순간, 보안 검토를 이유로 도입을 미루던 회사도 더는 버티기 어려워진다. AI 도입이 국가적 자존심이나 기술 주권의 문제가 아니라 당장의 시장 경쟁력 문제로 번역되는 순간, 확산 속도는 톱다운 캠페인이 아니라 시장 논리를 따라 빨라진다.

그런데 전면 도입은 곧바로 청구서 충격으로 이어졌다. 가장 널리 알려진 사례가 우버(Uber)다. 미국 언론 보도에 따르면 우버는 2026년 한 해치로 잡아 둔 AI 코딩 도구 예산을 4월, 그러니까 넉 달 만에 소진했다. 사내에서 엔지니어별 AI 활용도를 순위표로 공개하며 사용을 독려한 결과 1인당 월 사용액이 수백 달러에서 2,000달러까지 치솟은 것이다. 회사는 6월 들어 직원 1인당 코딩 도구별 월 1,500달러의 상한을 도입했고, 경영진에서는 늘어난 지출만큼 생산성이 늘었는지 입증을 요구하는 목소리가 나왔다. 월마트(Walmart)가 자체 코딩 도구의 토큰을 배급제로 돌리고, 마이크로소프트(Microsoft)가 내부에서 쓰던 외부 코딩 에이전트 라이선스 대부분을 비용 등의 이유로 정리했다는 보도도 같은 흐름 위에 있다. 연간 예산을 한 분기 만에 태우고, 청구서가 예상의 두세 배로 나오는 일이 미국 기업 재무 부서의 새 골칫거리가 됐다는 것이다.

4개월

우버가 2026년 연간 AI 코딩 예산을 소진하는 데 걸린 시간

월 1,500달러

우버가 6월 도입한 직원 1인당 코딩 도구별 사용 상한

864억 → 약 2,070억 달러

가트너(Gartner)가 집계·전망한 AI 에이전트 소프트웨어 지출 (2025 → 2026, +139%)

대응은 모델 차등 배정(tiering)으로 나타나고 있다. 핵심 부서나 난도 높은 작업에는 최상위 모델을, 일상 업무에는 한 단계 아래의 값싼 모델을 배정하는 식이다. 같은 회사 안에서도 부서별로 쓸 수 있는 모델 등급과 토큰 한도가 달라지고, 임원 결재 항목에 '토큰 예산'이라는 줄이 새로 생긴다. 공급자 쪽도 이에 맞춰 움직인다. 정액 구독에 사실상 무제한 사용을 끼워 주던 초기 모델은 2025년 여름 주간 사용 한도 도입을 기점으로 빠르게 종량제 중심으로 재편됐고, 지능을 전기나 수도처럼 쓴 만큼 계량해 파는 유틸리티로 보는 관점이 업계 공통의 언어가 됐다. 모델 단가 자체는 계속 떨어지는데도 청구서가 커지는 역설은, 에이전트가 한 과제에 쓰는 토큰량이 단가 하락 속도보다 빠르게 늘기 때문이다. 시장조사업체들이 추론 비용이 2030년까지 90% 가까이 떨어질 것으로 보면서도 지출 총액 전망은 계속 올려 잡는 이유다.

이 국면의 승자와 패자는 자본력으로 갈린다. 병목으로 비싸진 토큰을 넉넉히 사서 전 부서에 돌릴 수 있는 대기업은 AI 전환(AX, AI Transformation)에 가속이 붙고, 토큰 가격이 버거운 중소기업은 도입 자체가 늦어진다. 클라우드 시대의 격차가 서버 구매력이었다면, 에이전트 시대의 격차는 토큰 구매력이다. 공급이 수요를 따라잡기 전까지, 이 부익부 구조는 당분간 굳어질 가능성이 높다.

9우주로 가는 데이터센터

지상의 병목이 풀릴 기미가 보이지 않자, 공급 곡선을 늘리려는 시도는 결국 지구 밖으로 향하고 있다. 2026년 5월 스페이스엑스(SpaceX)가 미국 증권 당국에 제출한 상장신청서(S-1)는 위성 인터넷과 발사 사업의 실적을 공개하는 문서였지만, 시장의 시선을 가장 끈 대목은 따로 있었다. 이르면 2028년부터 AI 연산용 위성, 곧 궤도 데이터센터를 띄우겠다는 계획이 공식 문서에 올라온 것이다. 회사는 이미 1월에 미국 연방통신위원회(FCC, Federal Communications Commission)에 최대 100만 기 규모의 위성망 운용을 신청해 두었고, 위성 간 레이저 링크로 연결된 군집이 태양을 계속 바라보는 궤도(태양동기궤도)를 돌며 끊김 없이 태양광 전력을 공급받는 구조를 제시했다. 신청서 기준으로 이 회사의 2025년 매출은 187억 달러, 스타링크(Starlink) 가입자는 1,030만 명, 운용 위성은 약 9,600기에 위성 간 레이저 단말이 2만 3,000기를 넘는다. 6월로 예정된 상장에서 약 750억 달러를 조달하겠다는 목표는 사상 최대 규모의 기업공개 시도다. 한편 2026년 2월에는 AI 회사 xAI가 스페이스엑스에 합병되면서, 발사체·위성망·AI 모델·데이터센터를 한 회사가 수직으로 쥐는 구도가 만들어졌다.

왜 하필 우주이고, 왜 첫 화물이 추론인가. 우주 공간의 장점은 전력과 냉각이라는 지상 데이터센터의 두 족쇄에서 비교적 자유롭다는 것이다. 송전망 증설을 기다릴 필요 없이 태양전지판이 곧 발전소이고, 진공에서는 복사 방열판으로 열을 버린다. 대신 제약도 뚜렷하다. 우주 방사선이 반도체의 비트를 뒤집는 오류를 일으키는데, 회로 선폭이 가는 최신 미세공정 칩일수록 이런 단일 사건 오류(single-event upset)에 취약하다. 상대적으로 선폭이 굵은 구형 공정의 메모리와 프로세서가 내방사선성과 내구성 면에서 유리한 이유이고, 초기 궤도 데이터센터에 최첨단 칩보다 검증된 구세대 반도체가 먼저 실릴 가능성이 거론되는 배경이다. 구형 반도체 수요를 끌어올리는 또 하나의 경로가 궤도 위에서 열리는 셈이다. 엔비디아 역시 3월 개발자 행사에서 차세대 플랫폼의 우주 모듈 버전을 예고하며 이 흐름에 발을 걸쳤다.

작업 부하의 성격도 궤도행 화물을 결정한다. 지상과 궤도를 오가는 통신 지연과 제한된 대역폭 때문에, 밀리초를 다투는 음성 응답이나 검색 같은 작업은 궤도에 맞지 않는다. 반면 몇 시간짜리 과제를 받아 혼자 돌고 결과만 내려보내면 되는 에이전트형 추론은 지연에 둔감하고 완결성이 기준이라 궤도 환경과 궁합이 맞는다. 실제로 상장신청서는 폭증하는 추론 수요를 궤도 연산의 핵심 작업 부하로 지목하면서 장기적으로 토큰 원가를 낮출 수 있다는 기대를 적는 동시에, 이 기술이 아직 검증되지 않은 새로운 시도라는 위험 요인도 함께 명시했다. 4절에서 본 추론의 이분법, 곧 초저지연 갈래와 완결성 갈래의 분화가 데이터센터의 입지 선정에까지 그대로 투영되는 것이다.

비유

급한 민원 창구는 시내 한복판에 두어야 하지만, 야간 일괄 정산 전산실은 땅값 싼 교외에 두어도 된다. 궤도 데이터센터는 그 교외를 지구 밖까지 밀어낸 것이다. 전기료(태양광)는 공짜에 가깝고 부지 경쟁도 없지만, 출퇴근(발사 비용)과 시설 보수(방사선·열 관리)가 비싸다. 그래서 첫 입주자는 '즉답이 필요 없는 긴 숙제'를 하는 에이전트형 추론이 된다.

지구와 궤도 사이에는 통신망이라는 또 하나의 층이 있다. 엔비디아가 2025년 10월 통신장비 기업 노키아(Nokia)에 10억 달러를 투자하며 추진하는 AI 내장형 기지국(AI-RAN, AI Radio Access Network)은 이동통신 기지국 자체를 소형 추론 거점으로 바꾸려는 시도다. 초저지연 추론은 이용자 가까이의 기지국과 단말에서, 완결성 추론은 지상 초대형 데이터센터와 장기적으로는 궤도에서. 추론의 분화는 이렇게 칩 단위에서 시작해 데이터센터의 지리, 나아가 지구 안팎의 공간 배치까지 다시 그리고 있다.

10담론의 교체, 그리고 남은 변수

이 모든 변화를 한 발 떨어져서 보면, 바뀐 것은 칩과 청구서만이 아니다. 산업이 스스로를 설명하는 언어가 바뀌었다. 2023~2024년의 AI 담론을 지배한 것은 AGI(Artificial General Intelligence, 범용 인공지능)가 머지않았다는 시간표, 일자리 대체의 공포, 그리고 각국이 자체 모델을 가져야 한다는 소버린(sovereign) AI론이었다. 이 서사들은 수익이 보이지 않던 시기에 투자를 끌어모으는 언어이기도 했다. 미래가 두려울수록, 그리고 국가적 사명이 걸릴수록 돈은 움직였다. 그런데 2026년 들어 기업 설명회와 투자자 행사에서 이런 단골 화두가 눈에 띄게 옅어졌다. 자리를 채운 것은 토큰 처리량, 추론 원가, 사용량 매출 같은 회계의 언어다. 거대 담론이 필요 없어진 이유는 단순하다. 분기마다 찍히는 매출이 그 역할을 대신하기 때문이다. 마찬가지로 AI를 국가 주권의 문제로 틀던 시각도, 경쟁사가 쓰는데 우리만 안 쓰면 뒤처진다는 시장 경쟁력의 문제로 빠르게 번역되고 있다.

다만 담론이 차분해졌다는 것이 위험이 사라졌다는 뜻은 아니다. 남은 변수는 적어도 넷이다. 첫째, 가격표다. 세레브라스의 상장 첫날 시가총액 약 950억 달러는 2025년 매출 5억 1,000만 달러의 180배가 넘고, 앤트로픽의 9,650억 달러 평가액도 연환산 매출의 20배 수준이다. OpenAI와의 대형 계약 역시 단계적으로 집행되는 구조여서 실제 매출로 바뀌는 속도는 지켜봐야 한다. 성장 기대가 실적을 한참 앞질러 달리고 있다는 사실 자체는 변하지 않았다. 둘째, 신뢰성 격차다. 3절에서 본 시간 지평선은 '성공 확률 50%' 기준이며, 기준을 80%로 올리면 자율 수행 가능 시간이 30분 안팎에서 좀처럼 늘지 않는다는 측정도 함께 보고된다. 열에 다섯은 해내는 일과 열에 여덟을 해내는 일 사이의 간극이 좁혀지지 않으면, 완결성 서사가 약속하는 무감독 위임의 범위도 제한된다. 셋째, 기업의 투자수익률(ROI, Return on Investment) 입증이다. 8절의 비용 통제 국면에서 생산성 증거를 내놓지 못하는 도구부터 예산이 깎일 것이고, 이는 토큰 수요 곡선의 기울기를 직접 바꾼다. 넷째, 공급 측 변수다. 메모리 부족이 2027년 이후까지 이어진다는 제조사들의 경고, 데이터센터 전력 확보 경쟁, 급등한 부품 가격이 일으킬 수요 위축 가능성까지, 병목은 특수를 낳는 동시에 그 특수의 지속 가능성을 갉아먹는다.

그럼에도 2026년 상반기가 하나의 분기점이라는 사실은 분명해 보인다. 웨이퍼 한 장을 통째로 쓰는 칩의 상장에서 출발한 이 이야기는, AI가 혼자 일하는 시간이 시간 단위로 길어지는 변화를 지나, 추론 연산이 초저지연과 완결성이라는 두 갈래로 쪼개지는 지점에 닿았다. 그 분화가 첨단 칩부터 구형 D램과 CPU까지 반도체 수요 지도를 다시 그렸고, 폭증하는 토큰 소비가 만든 병목이 모델 회사와 인프라 회사 양쪽에 현금을 흘려보내기 시작했으며, 그 흐름이 광고와 커머스로, 기업의 예산 회의로, 끝내는 지구 궤도로 번져 나갔다. 2025년의 AI가 '언젠가 올 미래'를 파는 산업이었다면, 2026년의 AI는 토큰 단위로 계량되고 청구되는 현재형 경제다. 다음 분기점은 아마 이 경제가 첫 번째 가격 조정, 혹은 첫 번째 공급 과잉을 만나는 순간일 것이다.