jacobhan.me

AI 산업 구조 해설

토큰 이코노미
AI 시대의 새로운 통화

인공지능을 조금이라도 써 본 사람이라면 한 번쯤 들어 봤을 단어가 있다. 바로 토큰(token)이다. 토큰은 단순한 사용량 단위를 넘어, 어느새 한 사람의 업무 성과와 한 회사의 경쟁력을 가늠하는 잣대처럼 쓰이고 있다. 토큰이 무엇이고, 그것을 둘러싼 시장이 어디로 흐르고 있으며, 정작 누가 돈을 버는지를 차례로 짚는다.

2026년 5월 · 약 12분 분량

01토큰이라는 단어가 일상으로 들어왔다

문장 하나로 소프트웨어를 만들어 내는 이른바 바이브 코딩(vibe coding, 자연어 지시만으로 코드를 작성하는 방식)이 퍼지면서, 토큰이라는 말도 함께 흔해졌다. 작업을 돌리다 토큰을 다 써서 추가 요금을 내는 일도 일상이 됐다. 그런데 토큰이 정확히 무엇을 가리키는지 설명할 수 있는 사람은 많지 않다.

토큰은 AI가 글을 처리할 때 쓰는 가장 작은 의미 단위다. 그리고 이 작은 단위가 비용, 성능, 기업 전략, 나아가 국가 간 경쟁까지 한 줄로 꿰는 핵심 고리가 되었다. 토큰을 이해하면 지금 AI 산업에서 벌어지는 돈의 흐름이 비로소 또렷하게 보인다.

02토큰이란 무엇인가

컴퓨터에 문장을 넣어 해석하게 한다고 해 보자. 컴퓨터는 문장을 통째로 보지 않는다. 잘게 나눠서 본다. 이렇게 텍스트를 분석할 때 의미를 가르는 최소 단위가 토큰이다. 영어에서는 한 토큰이 평균 네 글자 안팎에 해당하고, 한 문단은 대략 100개 토큰쯤 된다. 대형 언어 모델(LLM, Large Language Model)도 똑같이 이 토큰 단위로 글을 읽고 쓴다.

“인공지능은 토큰으로 글을 읽는다”
↓ 모델이 보는 방식
인공지능 토큰으로 읽는
모델은 문장을 통으로 보지 않고 토큰이라는 조각으로 나눠 처리한다. 위 문장은 약 9개의 토큰으로 쪼개진다.
비유

토큰은 사람이 글을 읽을 때의 ‘음절’이나 ‘낱말’에 가깝다. 우리가 책 한 권을 읽을 때 글자를 한 음절씩 받아들이듯, AI는 글을 토큰 단위로 받아들인다. 따라서 글이 길수록 읽어야 할 음절이 늘어나는 것과 같은 이치로, 처리해야 할 토큰도 늘어난다.

03왜 토큰이 비용과 성능을 한꺼번에 가리키는가

토큰이 단순한 처리 단위인데도 이렇게까지 주목받는 이유는 두 가지다. 첫째, 토큰은 곧 비용이다. 입력이든 출력이든 AI가 다뤄야 할 토큰이 많아질수록 더 많은 연산이 필요하고, 연산이 늘면 시간과 전기, 즉 돈이 든다. 그래서 AI 기업들은 요금을 토큰 단위로 매긴다. 보통 100만 토큰당 얼마라는 식이다.

둘째, 토큰은 성능과도 직결된다. AI가 한 번에 기억하고 다룰 수 있는 정보량, 즉 처리할 수 있는 토큰의 양이 많을수록 더 길고 복잡한 작업을 감당할 수 있다. 토큰이 비용과 성능을 동시에 가리키는 단위이다 보니, AI 시장 전체를 가리켜 토큰 경제(token economy)라는 말까지 나왔다.

04폭증하는 사용량과 ‘토큰 맥싱’ 문화

AI 사용자가 늘면서 토큰 소비량도 가파르게 치솟고 있다. 단순히 챗봇과 대화만 한다면 이렇게까지 많은 토큰이 나올 수 없다. 폭증의 진짜 원인은 에이전트(agent, 사람의 개입 없이 여러 단계를 스스로 수행하는 AI)에 있다. 에이전트 기반 코딩 도구가 등장하면서 AI가 방대한 코드를 읽고 고치게 됐고, 한 번 지시하면 하루 종일 스스로 돌아가는 작업도 가능해졌다. 그만큼 토큰 소비는 기하급수적으로 늘어난다.

규모를 가늠해 보자. 중국 국가데이터국이 2026년 3월 공개한 수치에 따르면, 중국의 하루 평균 토큰 사용량은 140조 개에 이르렀다. 2024년 초 하루 1,000억 개였던 것이 2년 만에 약 1,000배로 불어난 것이다.

비유

토큰 과금은 전기요금이나 수도요금과 닮았다. 수도꼭지를 잠깐 트는지(짧은 질문) 욕조를 가득 채우는지(긴 문서 분석)에 따라 요금이 달라지듯, AI도 처리한 토큰의 양만큼 돈이 나간다. 에이전트가 하루 종일 작업하는 것은, 비유하자면 수도를 종일 틀어 두는 것과 같다.

실리콘밸리에서는 누가 토큰을 더 많이 썼는지 겨루는 이른바 토큰 맥싱(token maxing) 문화까지 생겼다. 토큰 사용량이 곧 AI를 적극적으로 활용하는 증거로 통하면서, 일부 기업은 이를 인사 평가와 채용 기준으로 끌어왔다. 한 전자상거래 기업의 최고경영자(CEO)는 사내 메모에서 직원이 새 인력을 채용하려면 그 일을 AI로 해결할 수 없는 이유부터 입증하라고 못 박았고, 대형 소프트웨어 기업도 AI 활용은 더 이상 선택이 아니라며 적극적인 사용을 주문했다.

이 흐름에 가장 적극적인 인물은 그래픽처리장치(GPU, Graphics Processing Unit) 시장을 사실상 장악한 반도체 기업 엔비디아의 CEO 젠슨 황이다. 그는 2026년 한 대담에서, 연봉 50만 달러를 받는 엔지니어가 1년에 토큰을 5,000달러어치밖에 쓰지 않았다면 크게 우려할 일이라고 했다. 그가 내건 기준은 분명하다. 그 정도 연봉이라면 적어도 절반인 25만 달러어치는 토큰에 써야 한다는 것이다.

연봉의 절반은 토큰에 쓰라는 주문이다. 토큰을 아끼는 것은, 그의 비유를 빌리면 설계 도구를 마다하고 연필로 도면을 그리겠다는 것과 같다.

그는 회사가 엔지니어 전체를 위해 쓰는 토큰 비용을 연 20억 달러 수준까지 늘리려 한다고도 했다. 토큰은 이제 채용 협상 테이블에까지 오른다. 내 일자리에는 토큰이 얼마나 딸려 오는지가 조건이 되는 식이다.

중국에서 이 흐름은 가격 전쟁으로 번졌다. 2024년 한 대형 정보기술 기업이 자사 모델의 토큰 가격을 90% 넘게 끌어내리자, 경쟁사들이 줄줄이 값을 따라 내렸다. 토큰은 점점 더 흔하고 값싼 상품처럼 다뤄지기 시작했다. 한 대형 기업은 토큰 관련 사업을 한데 묶은 전담 조직을 새로 만들었고, 중국 당국은 토큰을 기술 공급과 상업 수요를 잇는 결제 단위라고 공식적으로 규정하기에 이르렀다.

140조
중국의 하루 평균 토큰 사용량 (2026년 3월)
약 1,000배
2024년 초 대비 2년간 증가폭
25만 달러
엔비디아 CEO가 제시한 연봉 50만 달러 엔지니어의 권장 토큰 지출

05추론 비용의 붕괴

사람들이 이렇게 토큰을 펑펑 쓸 수 있게 된 근본 이유는, 토큰을 처리하는 비용(추론 비용)이 빠르게 떨어지고 있기 때문이다. 스탠퍼드 인공지능 보고서에 따르면, GPT-3.5 수준의 성능을 내는 데 드는 비용은 2022년 11월 100만 토큰당 20달러였지만 2024년 10월에는 0.07달러로 떨어졌다. 약 2년 만에 280배가 빠진 것이다.

$20 $10 $1 $0.1 $20.00 2022년 11월 $0.07 2024년 10월 280배 약 2년 만에 하락 세로축은 로그 눈금 · GPT-3.5 수준 성능 기준 100만 토큰당 추론 비용
같은 성능을 내는 비용이 2년 사이 280배 떨어졌다. 세로축이 로그 눈금이라는 점에 유의. 한 칸 내려갈 때마다 비용이 10분의 1로 줄어든다.

이 흐름은 지금도 이어지고 있고, 여러 분석기관은 앞으로도 비용이 가파르게 더 내려갈 것으로 본다. 하드웨어 효율이 매년 좋아지고, 같은 작업을 더 적은 토큰으로 끝내는 모델 설계가 발전하기 때문이다. 비용이 떨어지면 소비자에게는 반가운 일이다. 같은 성능을 더 싸게 쓸 수 있는 모델이 있다면 당연히 그쪽으로 옮겨 간다. 그래서 떠오른 화두가 토큰 가성비다.

06가성비 경쟁, 그리고 미국과 중국의 갈림길

가성비 경쟁의 신호탄은 2025년 초 중국 스타트업 딥시크가 쏘아 올렸다. 당시 최고 수준이던 미국 모델에 견줄 만한 추론 능력을 갖춘 모델을, 토큰 비용은 훨씬 낮게 책정해 공개한 것이다. 성능이 크게 뒤지지 않으면서 값이 압도적으로 쌌으니 이용자가 몰릴 수밖에 없었다. 이후 딥시크가 내놓은 신형 모델 역시 가격 경쟁력을 앞세웠다. 미국의 비슷한 등급 모델과 성능은 엇비슷하지만 값은 훨씬 싸다는 메시지다.

실제로 토큰값이 싸면서 성능이 쓸 만한 모델은 대부분 중국산이고, 토큰값이 비싼 모델은 거의 다 미국산이다. 가장 비싼 축에 드는 것이 미국 선두 기업들의 최신 플래그십 모델이다. 왜 이런 차이가 날까. 핵심은 컴퓨팅 자원에 있다.

비유

토큰값을 빵값에 빗대 보자. 미국 기업은 세계 최고급 오븐(고성능 GPU)을 쓰는 대신 그 오븐값이 빵값에 그대로 얹힌다. 중국 기업은 좋은 오븐을 마음껏 살 수 없으니, 같은 빵을 더 적은 재료와 더 싼 연료로 굽는 법을 연구한다. 빵값이 싸지는 것이다.

더 나은 모델을 만들려면 더 많은 GPU, 곧 더 많은 컴퓨팅 자원이 필요하다. 최첨단 모델의 토큰값은 결국 비싼 GPU값에 묶인다. 그 결과 토큰 100만 개당 수십 달러라는 고가가 나온다. 다만 미국 기업도 그 안에서 효율을 찾는다. 한 선두 기업의 최신 모델은 직전 모델보다 토큰 단가가 올랐는데도 이용자 반응이 나쁘지 않다. 같은 일을 시켜도 이전보다 훨씬 적은 토큰으로 끝내기 때문이다. 토큰 한 개의 값이 비싸도, 쓰는 토큰 수가 줄면 총비용은 비슷하거나 더 낮아질 수 있다.

중국이 값을 낮출 수 있는 세 가지 이유

중국은 엔비디아의 고성능 GPU를 쓰고 싶어도 쓸 수 없다. 미국이 첨단 반도체 수출을 막고 있어서다. 그래서 좋은 GPU를 충분히 못 쓰는 대신 더 효율적인 모델을 만드는 데 집중한다. 둘째, 중국 모델은 중국어 데이터 위주로 학습해 중국어에 최적화돼 있다. 같은 내용도 중국어로 처리하면 토큰이 덜 들어 비용이 더 내려간다. 그래서 일부 개발자는 중국 모델을 쓸 때 일부러 중국어로 작업한다. 셋째, 모델 훈련에 드는 막대한 전기를 값싼 재생에너지로 충당해 비용을 더 낮춘다.

그 결과 일부 개발자는 기본 작업은 중국 모델로 처리하고, 복잡한 과제에만 비싼 미국 모델을 쓴다. 한 대규모 모델 중개 플랫폼의 토큰 사용량 상위권을 중국 모델이 차지하는 까닭이다.

한국어를 쓰면 토큰이 더 든다

토큰이 언어에 따라 다르게 매겨진다는 점은 한국어 사용자에게 남의 일이 아니다. 같은 내용을 한국어로 쓰면 영어보다 토큰이 훨씬 많이 든다. 한 클라우드 기업의 분석에 따르면 한국어는 같은 정보를 담는 데 영어의 약 2.4배 토큰이 필요하다. 측정 방식과 모델에 따라 1.5배에서 많게는 3배 안팎으로 본다. 토큰을 나누는 방식이 영어 위주로 만들어져, 한글을 더 잘게 쪼개기 때문이다.

같은 내용을 처리할 때 드는 토큰 수 영어 약 10 토큰 한국어 약 24 토큰 ×2.4 측정 방식·모델에 따라 약 1.5~3배 · 예시 수치
영어로 10개면 되는 일이 한국어로는 24개쯤 든다는 예시. 토큰 단위로 요금과 사용량 한도가 매겨지므로, 한국어 사용자는 같은 값을 내고도 불리해진다.

비용에 민감한 작업이라면 한국어 사용자가 일부러 영어로 지시하는 편이 유리할 때가 있다. 중국이 자국어에 최적화된 모델로 토큰값을 낮추는 것과 정반대 위치에 한국어 사용자가 놓여 있는 셈이다.

비유

같은 양의 짐을 옮기는데 한국어 사용자에게만 더 작은 상자를 쥐여 주는 것과 같다. 짐은 똑같아도 상자를 더 많이 써야 하니, 상자 수로 매기는 운임이 더 나온다.

중국 정부는 여기서 한발 더 나아가 토큰 경제의 주도권 자체를 노린다. 2026년 3월, 중국 국가데이터국은 토큰의 공식 중국어 명칭을 츠위안(词元)으로 정했다. 말을 뜻하는 츠(词)에 화폐 단위 위안(元)을 붙인 것이다. 연산 단위에 자국 화폐명을 얹어, 토큰 경제 하면 자연스럽게 중국을 떠올리게 하려는 브랜딩이다.

달러가 오랫동안 세계 금융의 축이었다면, 토큰 경제의 새 잣대는 전력 한 단위로 토큰을 얼마나 뽑아내느냐다. 중국이 노리는 우위는 바로 그 지점에 있다.

07토큰으로 정작 돈을 버는 곳

토큰 경제가 이렇게 커졌으니 토큰을 파는 AI 기업들은 큰돈을 벌고 있을 것 같다. 그렇지 않다. 오히려 적자가 쌓이는 역설이 벌어진다. 월스트리트저널이 입수한 두 선도 기업의 내부 재무 자료를 보면, 모델 훈련 비용을 빼면 곧 흑자에 가깝지만 훈련 비용까지 더하면 그림이 달라진다. 한 곳은 2030년경, 다른 한 곳은 2028년경에야 흑자로 돌아설 것으로 전망된다. 토큰을 팔아 버는 돈보다 새 모델을 훈련하는 데 쓰는 돈이 훨씬 크기 때문이다.

그렇다면 토큰에 쓰이는 천문학적인 돈은 어디로 흘러가는가. 진짜로 버는 쪽은 컴퓨팅 자원을 파는 기업들이다. GPU 칩을 만드는 엔비디아, 그리고 그 칩을 데이터센터에 쌓아 두고 빌려주는 클라우드 기업들이다.

규모를 보자. 한 AI 기업은 클라우드 파트너와 손잡고 텐서처리장치(TPU, Tensor Processing Unit, 구글이 AI 연산용으로 자체 설계한 칩) 최대 100만 개와 1기가와트(GW)가 넘는 컴퓨팅 용량을 확보했다. 다른 클라우드와는 우리 돈으로 140조 원에 이르는 컴퓨팅 계약을 맺었다. 또 다른 선도 기업은 한 클라우드와의 독점에서 벗어나 여러 클라우드를 동시에 쓰는 전략으로 돌아섰고, 33기가와트급 초대형 인프라 사업에도 직접 뛰어들었다. 이 돈의 상당 부분은 결국 칩과 전력으로 흘러간다.

엔비디아 CEO는 오래전부터 AI 시장을 5단 케이크에 빗대 왔다. 맨 아래에 모든 것을 떠받치는 에너지가 있고, 그 위에 칩, 그 위에 클라우드 인프라가 있다. 다시 그 위에서 AI 모델이 돌아가고, 가장 위에 그 모델로 만든 애플리케이션과 서비스가 있다.

애플리케이션·서비스 AI로 만든 제품이 매출을 낸다 AI 모델 오픈AI · 구글 · 앤트로픽 · 딥시크 클라우드 인프라 데이터센터에 GPU를 쌓아 빌려준다 반도체 칩 엔비디아 GPU · 구글 TPU 에너지 토큰을 만드는 가장 밑단 원료 수익은 아래층으로 흐른다
위층에서 만든 애플리케이션이 돈을 벌면, 그 수익은 모델·인프라·칩·에너지로 차례차례 흘러내린다. 칩을 쥔 쪽이 웃는 구조다.

위층 애플리케이션이 돈을 벌면 그 수익은 결국 아래층으로 흘러내린다. 칩을 쥔 엔비디아가 가장 행복할 수밖에 없는 구조다. 최근에는 칩을 넘어 에너지 인프라 효율을 끌어올리는 기술까지 팔고 있어 수익은 더 늘어날 여지가 있다.

08토큰은 상품이자 통화가 되었다

토큰은 이제 새로운 상품이자, 새로운 통화에 가까운 무언가가 되어 가고 있다. 그러나 토큰이 중요해질수록 그 숫자에 사람들이 과하게 매달리는 부작용도 함께 커진다. 한 대형 소프트웨어 기업의 개발자는, AI를 너무 적게 쓴다고 지적받을까 봐 굳이 필요하지 않은 일까지 에이전트에 맡긴다고 털어놓았다. 회사의 압박과 경쟁 분위기 속에서 부풀려진 토큰 사용량이 생겨나는 것이다.

가짜 사용량이라도 비용은 진짜로 남는다. 단순히 돈의 문제만은 아니다. 토큰 하나를 만들고 처리하는 데에는 막대한 전기와 냉각용 물이 들어간다. 토큰 경제가 커질수록 그 뒤에 깔린 자원의 청구서도 함께 불어난다.

한 선도 기업의 CEO가 공개한 수치를 보면, 대화 한 번에 드는 전기는 약 0.34와트시(Wh), 물은 약 0.3밀리리터로 찻숟가락의 15분의 1 정도다. 한 번만 보면 미미하다. 그러나 이 회사 한 곳만 해도 하루 수십억 건의 대화를 처리하니, 작은 숫자에 거대한 횟수가 곱해지면 이야기가 달라진다. 게다가 이 값은 짧은 평균 질문 기준이고 모델을 훈련하는 데 드는 몫은 빠져 있어, 실제 부담은 더 클 수 있다는 지적도 나온다. 같은 CEO는 먼 장래에 지능의 비용이 결국 전기값에 수렴할 것이라고 본다. 토큰 경제의 가장 밑바닥에 에너지가 놓이는 이유다.

토큰을 알면 지금 AI 산업의 돈이 어디로 흐르는지가 보인다. 모델을 파는 기업은 적자를 견디며 경쟁하고, 그 경쟁이 격해질수록 칩과 전력을 쥔 아래층이 돈을 번다. 그리고 그 모든 연산의 밑바닥에는 결국 에너지가 있다. 토큰 경제가 다음에 어디로 향할지는, 이 다섯 개 층 중 어디에서 가치가 새로 만들어지느냐에 달려 있다.