AI 경쟁이 모델에서 인프라로: 엔트로픽-스페이스X 컴퓨팅 협력의 의미

2026년 5월 24일 · 분석 리포트

2026년 5월 6일, 엔트로픽(Anthropic)은 두 가지를 한꺼번에 발표했다. 하나는 클로드(Claude)의 사용 한도 확대였고, 다른 하나는 스페이스X(SpaceX)와의 대규모 연산 인프라 협력이었다. 겉으로는 "이제 클로드를 더 많이 쓸 수 있다"는 소비자 친화적 소식처럼 들린다. 그러나 두 발표를 하나로 묶어 읽으면 전혀 다른 그림이 떠오른다. 인공지능 경쟁의 무게중심이 누가 더 좋은 모델을 만드느냐에서 누가 더 많은 연산 인프라를 확보하느냐로 옮겨가고 있다는 신호다.

표면의 사건: 한도가 풀렸다

엔트로픽이 공식적으로 밝힌 변화는 세 가지다. 모두 발표 당일부터 적용되었다.

클로드 코드(Claude Code)의 5시간 단위 사용 한도를 프로(Pro), 맥스(Max), 팀(Team), 좌석 기반 엔터프라이즈(Enterprise) 요금제에서 두 배로 늘렸다.
프로와 맥스 계정에 적용되던 피크 시간대 한도 축소를 폐지했다. 사용자가 몰리는 시간에도 한도가 줄지 않는다.
클로드 오푸스(Opus) 모델의 API(Application Programming Interface, 응용 프로그램 인터페이스) 요청 한도를 대폭 상향했다. 일부 보도는 모델과 등급에 따라 2배에서 16배까지 늘었다고 전한다.

그리고 이 한도 확대를 가능하게 한 물리적 근거가 스페이스X와의 협력이다. 엔트로픽은 스페이스X의 콜로서스 1(Colossus 1) 데이터센터의 연산 케파(capacity, 용량) 전체를 사용하기로 합의했다. 미국 테네시주 멤피스에 있는 이 시설은 엔비디아(NVIDIA) GPU(Graphics Processing Unit, 그래픽 처리 장치) 22만 장 이상, 전력 기준 300메가와트(MW) 규모다. 더 눈여겨볼 대목은 시점이다. 앞으로가 아니라 한 달 안에 가동할 수 있는 자원이다.

여기서 흔히 멈춰서 "한도가 늘었구나" 하고 지나간다. 그러나 진짜 질문은 그다음에 있다. AI 서비스 하나의 사용 한도를 푸는 데 왜 GPU 22만 장과 300MW급 데이터센터가 통째로 필요한가. 이 질문을 따라가면 지금의 경쟁 구도가 훨씬 또렷하게 보인다.

클로드 코드는 왜 연산을 폭식하는가

클로드의 한도 문제는 모델이 나빠서 생긴 일이 아니다. 오히려 모델이 너무 쓸 만했기 때문에 생긴 일이다. 개발자들이 클로드 코드를 실제 작업 흐름 안으로 끌어들이면서, 예상보다 훨씬 빠른 속도로 추론(inference) 요청이 쏟아졌다. 단순한 대화가 아니다. 코드베이스를 통째로 분석하고, 파일을 수정하고, 에러 로그를 해석하고, 디버깅을 스스로 수행하고, 결과를 다시 검토한다. 사람이 자는 동안에도 돌아간다.

핵심은 챗봇과 에이전트(agent, 자율 작업형 AI)의 비용 구조가 근본적으로 다르다는 점이다. 일반 챗봇은 질문 하나에 답 하나를 내주면 끝난다. 반면 에이전트형 도구는 한 번 지시를 받으면 스스로 묻고-읽고-고치고-검증하는 과정을 수십 번 반복하는 루프(loop)를 돈다. 사용자는 한 명이지만, 그 한 명이 시스템에 던지는 연산 요청은 수십 배로 불어난다.

같은 사용자 1명이라도 챗봇과 에이전트형 도구의 연산 부담은 크게 다르다. 에이전트는 한 번의 지시로 GPU를 오래 붙잡고 수십 번의 내부 루프를 돈다.

비유

챗봇이 창구에서 주문 한 번 받고 음료 한 잔 내주는 카페라면, 에이전트형 도구는 주방에 들어와 재료를 직접 꺼내 쓰고 맛보고 다시 조리하기를 반복하는 셰프다. 손님은 한 명이지만 주방을 점유하는 시간과 자원은 비교가 안 된다.

그렇다면 이 루프가 구체적으로 어떤 연산을 그렇게 많이 잡아먹는가. 대형 언어 모델(LLM, Large Language Model)의 추론은 크게 두 단계로 나뉜다.

프리필과 디코드, 그리고 메모리 병목

첫 단계는 프리필(prefill)이다. 사용자가 넣은 입력 전체를 모델이 한꺼번에 읽어 들이는 단계다. 이전 대화, 첨부 문서, 프로젝트 전체 맥락을 해석한다. 클로드 코드처럼 프로젝트 전반을 컨텍스트로 밀어넣는 경우, 입력이 방대해지면서 프리필 비용 자체가 폭증한다.

둘째 단계는 디코드(decode)다. 모델이 답을 토큰(token, 단어 조각) 하나씩 생성하는 단계다. 코드를 고치고 설명을 붙이고 백그라운드에서 작업을 돌리는 동안, 모델은 GPU를 오래 붙잡는다. 데이터센터 입장에서는 특정 사용자에게 GPU가 묶여 다른 요청을 받지 못한다.

디코드 단계에서는 토큰을 만들 때마다 모델 가중치와 누적된 컨텍스트가 GPU와 HBM(High Bandwidth Memory, 고대역폭 메모리) 사이를 쉴 새 없이 오간다. 병목은 계산력이 아니라 메모리 대역폭에서 생긴다.

여기서 하드웨어가 등장한다. 대형 언어 모델은 계산만 많이 하는 것이 아니다. 모델 가중치와, 프리필에서 해석해둔 맥락을 키-밸류 캐시(KV cache)라는 형태로 저장해두고 토큰을 생성할 때마다 반복해서 읽어야 한다. 이 저장과 읽기를 담당하는 것이 HBM(High Bandwidth Memory, 고대역폭 메모리)이다. 대화가 길어질수록 참조해야 할 맥락이 쌓이고, KV 캐시는 계속 불어난다. 그래서 디코드 단계의 진짜 한계는 계산력이 아니라 메모리 대역폭이다. GPU가 아무리 빨라도 HBM이 데이터를 제때 내보내지 못하면 전체 응답이 늘어진다.

비유

아무리 손이 빠른 요리사라도 식재료가 냉장고에서 도마까지 제때 오지 못하면 칼을 든 채 멈춰 기다릴 수밖에 없다. 병목은 칼질 속도(GPU 계산)가 아니라 재료를 나르는 속도(HBM 대역폭)다. 클로드 코드처럼 긴 맥락을 계속 붙잡아야 하는 작업일수록 냉장고와 도마 사이의 통로가 붐빈다.

클로드 코드를 써본 사람이라면 답변이 한동안 시작되지 않거나, 피크 시간에 더 빨리 막히거나, 세션이 중간에 끊기는 경험을 했을 것이다. 이는 프리필에 시간이 걸리거나, 프리필을 수행할 GPU를 배정하는 오케스트레이션(orchestration, 자원 조율) 단계에서 지연이 생기거나, 단순히 물리적 자원이 부족하기 때문이다. GPU, HBM, 메모리 대역폭, 전력, 냉각이 모두 모자란 상황이다. 엔트로픽은 이 부족을 스페이스X를 통해 메우려 한 것이다.

월 20달러 구독의 경제학

겉으로 보면 클로드 프로의 월 20달러 요금제는 기존 소프트웨어 구독(SaaS, Software as a Service)과 비슷하다. 그러나 실제 비용 구조는 다르다. 누군가는 적게 쓰고 누군가는 헤비 유저로 엄청나게 쓴다. 헬스장이나 수영장처럼 월초에는 붐비다 차츰 발길이 뜸해지는 패턴과 달리, AI 도구의 헤비 유저는 일단 작업 흐름에 들어오면 꾸준히, 그리고 점점 더 많이 쓴다.

사용량이 늘면 엔트로픽이 부담하는 것은 GPU 임대 비용만이 아니다. 전력이 들고, 전력은 열을 만들어 냉각이 들고, 네트워크 비용이 붙는다. 한 명의 헤비 유저가 만들어내는 연산이 시스템 전체의 채산성을 위협할 수 있다. 지금까지의 사용 한도, 즉 레이트 리밋(rate limit)은 모델을 일부러 인색하게 풀어서가 아니라, 물리적 자원이 받쳐주지 못해 걸어둔 안전장치에 가까웠다. 한도를 풀면 사용자 만족도는 올라가지만 그만큼 비용도 늘어난다. 그 비용을 감당할 물리적 케파를 확보했다는 것이 이번 발표의 본질이다.

왜 하필 스페이스X였나: 돈이 아니라 시간을 샀다

이번 협력에서 가장 결정적인 숫자는 22만이나 300이 아니라 1이다. 한 달 안에 가동한다는 것. 일반적인 데이터센터를 새로 짓는다고 생각해보자. 먼저 땅을 산다. 부동산을 처리하고, 송전망 연결이 가능한지 확인하고, 전력 인입을 마치고, 냉각 시스템을 설계하고, 네트워크를 깔고, GPU를 들여놓아야 한다. 이 모든 과정은 보통 수개월에서 수년이 걸린다.

일반 신축은 토지부터 가동까지 긴 사슬을 거친다. 엔트로픽은 이미 전력 인입과 냉각, 네트워크까지 끝난 시설을 통째로 빌려 그 사슬을 건너뛰었다.

비유

일반적인 데이터센터 신축이 빈 땅에 집을 처음부터 짓는 일이라면, 엔트로픽이 한 것은 이미 완공되어 전기와 수도, 가구까지 들어찬 집에 즉시 입주한 것이다. 같은 평수라도 입주 시점이 몇 년 차이 난다.

그래서 엔트로픽이 스페이스X에서 산 것은 단순한 GPU가 아니라 시간이고 속도다. 냉각, 랙(rack, 서버 거치대), 네트워크가 모두 붙어 즉시 운영 가능한 케파를 확보했기에, 클로드의 한도를 곧바로 풀 수 있었다. 실제로 엔트로픽의 다른 대형 협력들, 가령 아마존(Amazon)이나 구글(Google) 계약은 상당 부분이 2026년 말에서 2027년에 가서야 본격 가동된다. 콜로서스 1은 그사이의 공백을 지금 메우는 다리 역할을 한다.

오해하기 쉬운 지점: 콜로서스 1은 왜 비어 있었나

이 협력은 흔히 경쟁 관계였던 쪽이 마음을 바꿔 시설을 내준 미담처럼 단순하게 읽히곤 한다. 그러나 배경에는 빠뜨리면 안 되는 구조 변화가 있다.

콜로서스는 원래 AI 기업 엑스에이아이(xAI)가 그록(Grok) 학습을 위해 멤피스에 세운 슈퍼컴퓨터다. 그런데 2026년 초, 엑스에이아이는 독립 기업으로 남지 않고 스페이스X에 흡수 합병되었다. 합병 후 브랜드는 스페이스X에이아이(SpaceXAI)로, 두 회사를 합친 가치는 약 1.25조 달러로 평가되었다. 즉 지금 콜로서스 1은 합병을 거쳐 스페이스X가 운영하는 자산이 되었다.

그리고 핵심은 가동률이다. 합병 이후 학습 워크로드가 차세대 시설인 콜로서스 2로 옮겨가면서, 콜로서스 1은 GPU 가동률이 한 자릿수대(약 11퍼센트로 보도됨)까지 떨어진 유휴 자원이 되었다. 막대한 자본이 들어간 시설을 놀리느니, 연산이 절실한 엔트로픽에 통째로 임대해 수익화하는 편이 합리적이다. 스페이스X가 기업공개(IPO, Initial Public Offering)를 앞두고 안정적 매출원을 확보하려는 시점이라는 점도 맞물린다.

정리하면

이는 경쟁사에게 호의를 베풀었다기보다는, 합병으로 남게 된 유휴 시설을 연산이 부족한 쪽에 임대해 양쪽이 모두 이득을 본 거래에 가깝다. 공개적으로는 우호적 분위기가 부각되기도 했지만, 거래의 실질적 토대는 정서가 아니라 수급 불균형이다.

이 대목이 중요한 이유는, AI 연산이 워낙 귀해지면 경쟁자끼리도 거래할 수밖에 없다는 새로운 규칙을 보여주기 때문이다. 모델로는 경쟁하더라도 그 모델을 돌릴 물리적 인프라는 서로 빌려주고 빌려 쓴다.

합종연횡: 엔트로픽의 인프라 포트폴리오

스페이스X 협력은 단발성 사건이 아니라 다변화 전략의 한 조각이다. 엔트로픽은 특정 진영에 묶이지 않고 여러 공급원에 걸쳐 케파를 확보하고 있다.

엔트로픽은 아마존, 구글-브로드컴, 마이크로소프트-엔비디아, 플루이드스택(Fluidstack), 스페이스X로 공급원을 분산하고, 칩도 트레이니엄(Trainium), TPU(Tensor Processing Unit, 텐서 처리 장치), 엔비디아 GPU로 다변화한다.

이 다변화에는 일관된 논리가 있다. 엔트로픽은 클로드를 트레이니엄, TPU, 엔비디아 GPU 등 여러 종류의 하드웨어 위에서 학습하고 운영한다. 특정 칩 공급이나 특정 클라우드의 사정에 발이 묶이지 않으려는 것이다. 아마존 협력에는 아시아와 유럽의 추론 인프라가 포함되어 있고, 규제 산업 고객을 위한 국가별 데이터 주권(data residency) 요구에 대응하려는 의도도 깔려 있다. 모델을 만드는 회사, 클라우드를 운영하는 회사, 반도체 회사, 전력 회사, 데이터센터 운영자가 서로 적이자 고객이자 공급자로 얽힌다. 산업이 성숙해가는 전형적인 모습이다.

규모 감각: 0.3GW와 그 너머

300MW가 작아 보일 수 있다. 엔트로픽이 아마존, 구글과 맺은 계약이 각각 5기가와트(GW) 규모이고, 다른 대형 프로젝트는 10GW급도 거론되기 때문이다. 그러나 300MW는 0.3GW, 그 자체로 거대한 산업 설비 하나에 맞먹는 전력 규모다. 서버 몇 대 수준이 아니다.

규모만 보면 Colossus 1의 0.3GW는 5GW, 10GW급 계약 옆에서 작아 보인다. 그러나 다른 계약은 대부분 2026년 말에서 2027년 가동인 반면, 이 0.3GW는 한 달 안에 가동된다는 점이 다르다.

이 그림이 말해주는 바는 분명하다. 앞으로 아마존, 구글, 브로드컴(Broadcom) 등이 기가와트 수준의 설비를 계속 지어 올릴 것이고, 그것이 향후 몇 년의 경쟁을 좌우한다. 그 와중에 한 달 만에 끌어올 수 있는 0.3GW는 당장의 숨통을 틔워준다는 점에서 값이 다르다.

앞으로: 인프라를 얼마나 잘 운용하느냐의 싸움

이제 AI 서비스의 품질은 모델 성능 지표만으로 설명되지 않는다. 사용자가 체감하는 것은 응답이 얼마나 빨리 시작되는지(지연 시간), 어떤 작업을 안정적으로 해내는지, 에이전트가 반복 호출을 해도 끊기지 않는지다. 그 체감의 배경에는 언제나 인프라가 있다. 누가 GPU를 더 많이 가졌고, 그 GPU가 잘 돌아가게 하는 네트워크와 데이터센터를 얼마나 잘 갖췄는가.

그래서 AI 기업들은 앞으로 모델 라우팅(model routing)을 더 적극적으로 쓸 것이다. 쉬운 요청은 작고 빠른 모델로, 복잡한 요청은 큰 모델로 흘려보내 한정된 자원을 효율적으로 배분하는 방식이다. 데이터센터 안에서 자원을 잘 운용하는 기업일수록 더 많은 마진을 남긴다. 결국 "모델의 한도가 늘었다"는 소비자 관점의 사건 뒤에는, 그 한도를 떠받치는 인프라 확보 경쟁이 자리한다.

한 걸음 물러서서

이번 협력은 세 가지를 동시에 보여준다. 첫째, AI 경쟁의 축이 모델 성능에서 연산 인프라 확보로 옮겨갔다. 둘째, 연산이 귀해지자 경쟁자끼리도 유휴 자원을 거래하는 합종연횡이 시작됐다. 셋째, 전력과 냉각, 네트워크, 반도체를 공급하는 산업이 AI 경쟁의 실제 승부처로 떠올랐다. 모델은 경쟁의 결과물이지만, 그 결과물을 세상에 내보내는 통로는 점점 더 물리적 인프라가 쥐고 있다.

앞으로 다른 AI 기업들이 어떤 진영에서 어떻게 케파를 확보하는지, 그리고 경쟁자 사이의 합종연횡이 어디까지 번지는지가 산업의 다음 국면을 가를 것이다. 모델 발표 못지않게, 누가 어떤 인프라를 손에 넣었는지를 함께 읽어야 하는 시대다.