SpikingBrain — 트랜스포머 너머, 스파이크와 함께

선형 어텐션(linear attention), 스파이킹 뉴럴 네트워크(SNN, Spiking Neural Network), 모듈식 전문가 시스템(MoE, Mixture-of-Experts)이 비(非)NVIDIA 클러스터 위에서 만났을 때 — 76B 파라미터 규모로 끝까지 학습된 한 편의 통합 시스템 연구.

원논문SpikingBrain: Spiking Brain-inspired Large Models arXiv2509.05276v4 (2026-05-08) 제1저자Yuqi Pan 교신Bo Xu, Guoqi Li (CAS Institute of Automation) 공개 코드github.com/BICLab/SpikingBrain-7B

한눈에 보는 핵심 수치

중국과학원 자동화연구소(CAS Institute of Automation) 주도의 연구진은 트랜스포머(Transformer)의 두 가지 효율성 병목 — 학습 연산량이 시퀀스 길이의 제곱으로 증가하고 추론 메모리가 선형으로 증가하는 문제 — 를 해결하기 위해, 선형 어텐션과 적응형 스파이킹 뉴런을 결합한 LLM(Large Language Model, 거대언어모델) 계열인 SpikingBrain을 제안하였습니다. 두 모델(7B 선형 모델, 76B 하이브리드 선형 MoE 모델)을 중국산 MetaX C550 GPU(Graphics Processing Unit) 클러스터에서 수백 개 단위로 학습하여, NVIDIA가 아닌 플랫폼에서 76B급 모델을 안정적으로 학습할 수 있음을 보였습니다.

기존 처음부터 학습 대비 사용 토큰 비율 (약 150B 토큰)

100×

4M 토큰 입력 시 TTFT(Time to First Token) 가속비 (외삽)

69.15%

스파이킹 활성화 희소성(sparsity)

23.4%

MetaX C550에서 달성한 MFU(Model FLOPs Utilization)

핵심 메시지

SpikingBrain은 단일 모델이 아니라, (1) 하이브리드 선형 아키텍처, (2) 변환 기반 경량 학습, (3) 적응형 임계값 스파이크 코딩, (4) 비NVIDIA 하드웨어 시스템 엔지니어링의 네 축이 결합된 통합 파이프라인입니다. 이 가운데 어느 하나만 떼어 보면 새로운 기법이 아니지만, 76B 규모로 모두 묶어 비NVIDIA 클러스터에서 끝까지 돌렸다는 점이 본 연구의 변별점입니다.

Chapter 01

들어가며 — 왜 이 논문이 흥미로운가

한 줄로 요약하면, SpikingBrain은 "트랜스포머를 통째로 갈아엎지 않고, 그 위에서 효율을 한 차원 더 짜내는 동시에 NVIDIA가 아닌 GPU에서 학습한 거대 모델"입니다.

현재 LLM의 모든 길은 트랜스포머로 통합니다. ChatGPT, Claude, Gemini 모두 같은 골격을 공유합니다. 이 골격이 안고 있는 두 가지 본질적 한계 — 어텐션 비용이 시퀀스 길이의 제곱으로 늘어나는 문제와, 추론할 때 KV 캐시(KV cache, Key-Value cache)가 시퀀스 길이만큼 쌓이는 문제 — 는 모델을 키울수록 더 무겁게 옭아맵니다. 100만 토큰짜리 코드베이스를 통째로 입력하고 싶다면? 의학 기록 전체를 한 컨텍스트에 담고 싶다면? 트랜스포머 그대로는 비용이 너무 큽니다.

이 한계를 푸는 길은 두 갈래입니다. (A) 트랜스포머를 버리고 새 아키텍처(Mamba, RWKV 등 상태공간 모델 계열)로 갈아타기, 혹은 (B) 트랜스포머의 효율적 변형을 만들고 기존 모델 자산을 최대한 재활용하기. SpikingBrain은 분명히 두 번째 길을 택했습니다. 그리고 그 위에 한 가지를 더 얹습니다 — 생물학적 뉴런에서 영감을 얻은 스파이킹 활성화입니다.

흥미로운 두 번째 축은 하드웨어입니다. 이 연구는 NVIDIA가 아닌 중국산 GPU(MetaX C550) 위에서 수백 장 규모로 76B 파라미터 모델을 끝까지 학습합니다. AI 칩 공급망이 정치적 의미를 갖게 된 지금, 이 사실 자체가 작지 않은 신호입니다.

Chapter 02

트랜스포머의 비용 구조

2.1 어텐션은 정확히 무엇이 비싼가

트랜스포머의 어텐션은 시퀀스의 각 토큰이 다른 모든 토큰을 "둘러보는" 연산입니다. 토큰 n개가 있다면 n × n개의 쌍을 계산해야 합니다. 그래서 학습 시 어텐션 계산량이 O(n²)입니다.

실제로 n이 1,024에서 1,048,576으로 천 배 늘어나면, 어텐션 계산량은 백만 배가 됩니다. 같은 시퀀스 길이 증가 폭에서 모델의 다른 부분(FFN(Feed-Forward Network), 임베딩 등)은 선형으로만 늘어나는데, 어텐션만 폭주합니다. 이것이 장문 LLM의 실제 병목입니다.

2.2 KV 캐시는 왜 또 다른 문제인가

학습이 아닌 추론(생성) 단계에서는 또 다른 문제가 있습니다. 트랜스포머는 토큰을 한 번에 하나씩 생성하는데, 지금까지 생성된 모든 토큰의 키(Key)와 값(Value)을 메모리에 보관하고 있어야 다음 토큰을 정확히 만들 수 있습니다. 이걸 KV 캐시라고 부릅니다.

이게 왜 중요할까요? 응답이 길어질수록 GPU 메모리에 이 캐시가 계속 쌓이기 때문입니다. 7B 모델 기준으로 100만 토큰 컨텍스트의 KV 캐시는 수십 GB에 이를 수 있습니다. 메모리에 안 들어가면 그냥 동작이 불가능합니다.

정리

트랜스포머의 두 가지 비용 — 학습 시 어텐션 연산량 O(n²), 추론 시 KV 캐시 메모리 O(n). SpikingBrain이 풀려는 본질적 문제가 바로 이 두 가지입니다.

Chapter 03

선형 어텐션이란 무엇인가

3.1 트릭의 핵심 — 소프트맥스를 떼어내기

표준 어텐션을 거칠게 쓰면 다음과 같습니다.

o_t = Σ exp(q_t · k_s) v_s / Σ exp(q_t · k_s)

여기서 exp(...)이 바로 소프트맥스(softmax)이고, 이게 모든 쌍을 일일이 계산하게 만드는 원흉입니다. 만약 이 비선형 함수를 떼고, 단순히 내적만 쓴다고 가정해봅시다.

o_t = Σ (q_t · k_s) v_s = q_t · Σ k_sᵀ v_s

마지막 등식에서 흥미로운 일이 일어납니다. q_t를 합 밖으로 빼낼 수 있게 된 것입니다. 합산 부분 Σ k_sᵀ v_s은 한 번 계산해두면 다음 토큰을 처리할 때 새 항 하나만 더하면 됩니다. 즉 누적 상태로 표현 가능합니다.

S_t = S_(t-1) + k_tᵀ v_t , o_t = q_t · S_t

이 식이 의미하는 바는 결정적입니다 — 모든 과거 키와 값을 보관할 필요가 없습니다. S_t라는 고정 크기 행렬 하나만 들고 있으면 됩니다. KV 캐시 문제가 사라지는 것입니다.

직관 비유

표준 어텐션이 "내 책상 위에 지금까지 받은 메모를 다 펼쳐놓고, 매번 모든 메모를 다시 읽는다"면, 선형 어텐션은 "메모를 받자마자 한 권의 노트에 요약 갱신하고, 그 노트만 들고 다닌다"는 식입니다. 노트의 두께(상태 크기)는 처음부터 정해져 있고 토큰이 늘어도 두꺼워지지 않습니다.

3.2 그런데 왜 진작 모두가 안 썼나

합리적인 질문입니다. 답은 — 선형 어텐션은 표현력이 더 약합니다. 소프트맥스를 떼면서 잃는 것이 있는데, 특히 멀리 떨어진 특정 토큰을 정확히 "꺼내오는" 회상(recall) 능력이 약화됩니다. 그래서 코드베이스의 정확한 변수명을 찾거나, 의학 기록 깊은 곳에서 특정 검사 결과를 인용하는 작업에서 표준 어텐션보다 떨어진다는 점이 알려져 있습니다.

SpikingBrain은 이 약점을 인정하고, 하이브리드 전략을 택합니다. 모든 층을 선형 어텐션으로 바꾸지 않고, 일부 층은 SWA(Sliding Window Attention, 슬라이딩 윈도우 어텐션)나 풀 어텐션을 남겨 둡니다.

선형 어텐션 — 압축된 메모리 노트

고정 크기 상태에 정보를 누적 압축. 추론 메모리는 상수. 단, 멀리 떨어진 특정 정보를 정확히 꺼내는 데 약점.

SWA — 최근 N개 메모만 펼쳐놓기

현재 토큰 기준 최근 w개만 주목. 국소 패턴은 정확히 잡지만 먼 과거는 잊음. 윈도우가 고정이므로 메모리도 상수.

7B 모델은 선형 어텐션 + SWA를 1:1로 층 간 교차 배치합니다. 76B는 더 욕심을 내서 — 같은 층 안에 선형과 SWA를 병렬로 두고, 일부 층에는 풀 어텐션까지 합쳐 표현력을 추가합니다.

Chapter 04

스파이킹 뉴럴 네트워크 입문

4.1 생물학적 뉴런과 LIF 모델

실제 뇌의 뉴런은 흔히 생각하는 것처럼 항상 활성화 값을 계산하지 않습니다. 뉴런은 시냅스를 통해 들어온 입력을 막전위(membrane potential)에 누적시키고, 이 전위가 어떤 임계값을 넘으면 단 하나의 짧은 펄스 — 활동전위(action potential), 통상 "스파이크" — 를 발사한 뒤 다시 리셋됩니다. 평상시에는 거의 아무 일도 하지 않습니다.

이걸 컴퓨터로 흉내 내는 가장 흔한 모델이 LIF(Leaky Integrate-and-Fire, 누설 적분 발화) 뉴런입니다. 단순화해서 쓰면 — 시간 스텝마다 입력이 막전위 v에 들어와 쌓이고, v가 V_th(임계값)를 넘으면 1을 출력하고 막전위를 리셋합니다. 이 과정이 시간에 걸쳐 반복됩니다.

4.2 왜 이게 에너지 효율적인가

핵심은 희소성과 이벤트 구동(event-driven) 연산입니다.

대부분의 시간 동안 뉴런은 침묵(0)입니다. 0을 곱하거나 더하는 것은 회로상 에너지 비용이 거의 없습니다(혹은 아예 건너뛸 수 있습니다).
스파이크는 1(또는 -1, +1)이므로 행렬곱이 단순한 덧셈이나 부호 있는 덧셈으로 환원됩니다. 곱셈은 일반 디지털 회로에서 가장 에너지를 많이 먹는 연산 중 하나입니다.
본 논문이 보고하는 추정 수치 — FP16 MAC(Multiply-Accumulate, 곱셈 누적) 1.5pJ, INT8 MAC 0.23pJ, 스파이크 트리거 누적 0.034pJ — 가 이 차이를 잘 보여줍니다. 곱하지 않고 더하기만 하면 한 자릿수 이상의 에너지 절감이 산수적으로 가능합니다.

4.3 그런데 왜 어렵나

SNN은 1980년대부터 연구되어 왔는데, 왜 아직도 주류가 아닐까요? 세 가지 이유가 있습니다.

학습이 어렵다. 스파이크는 불연속(0 또는 1)이라 미분이 안 됩니다. 역전파(backpropagation)가 곤란합니다. 우회법으로 대리 기울기(surrogate gradient)를 쓰지만, 학습 안정성과 성능 모두에서 일반 신경망보다 까다롭습니다.
시간 차원이 추가된다. SNN은 같은 입력을 여러 시간 스텝에 걸쳐 처리해야 의미 있는 스파이크 패턴이 나옵니다. 이게 학습 비용을 늘립니다 — 시퀀스 길이가 같아도 시간 스텝 만큼 곱하기로 계산이 증가합니다.
일반 GPU는 SNN에 맞지 않다. GPU는 동기식 고주파 클럭 위에서 모든 연산 유닛을 동시에 돌립니다. 이벤트 구동 희소 신호의 장점을 살리기 어렵습니다. 정작 강점이 발휘되려면 비동기 뉴로모픽 칩 — Intel Loihi, IBM TrueNorth, SpiNNaker 등 — 이 있어야 합니다. 그런데 이런 칩은 양산 규모가 작고, 거기에 LLM을 올린 사례는 거의 없습니다.

SpikingBrain이 우회한 방식

이 세 가지 어려움을 모두 정면 돌파하지 않습니다. 대신 — 학습 단계에서는 스파이크의 시간 차원을 단일 스텝으로 압축해 정수 카운트로 다루고(GPU 친화), 추론 단계에서만 시간 축으로 펼쳐 희소 스파이크 열로 변환합니다. 학습은 일반 LLM처럼 GPU에서 하고, 추론은 (이상적으로는) 뉴로모픽 칩에서 효율을 누리자는 분리 설계입니다.

4.4 적응형 임계값이라는 새 아이디어

고전 LIF의 또 다른 약점은 임계값 V_th가 고정이라는 점입니다. 큰 모델에서는 활성화 값의 분포가 층마다, 채널마다 매우 다른데 같은 임계값을 쓰면 어떤 뉴런은 너무 자주 발화(에너지 낭비), 어떤 뉴런은 거의 침묵(정보 손실)합니다.

SpikingBrain은 임계값을 막전위 분포에 따라 동적으로 조정하는 변형을 제안합니다.

V_th(x) = (1/k) · 평균(|x|)

이 식은 — 활성화 값들의 평균 크기를 보고 임계값을 그에 맞춰 조정한다 — 는 의미입니다. 값이 크면 임계값도 커져 과다 발화를 막고, 값이 작으면 임계값도 작아져 정보를 놓치지 않습니다. 하이퍼파라미터 k로 정확도와 효율의 균형을 잡습니다.

Chapter 05

MoE — 왜 전문가를 나누는가

5.1 모든 파라미터를 항상 켤 필요는 없다

일반 FFN은 모든 입력 토큰에 대해 모든 파라미터를 사용합니다. 70B 모델이라면 토큰 하나를 처리할 때 700억 개의 파라미터가 모두 동원됩니다. 그런데 정말 그래야 할까요? 영어 토큰을 처리할 때 한국어 처리에 특화된 뉴런들도 동원하는 게 효율적일까요?

MoE의 핵심 아이디어는 — FFN을 여러 개의 "전문가(expert)"로 쪼개고, 토큰마다 일부 전문가만 활성화한다는 것입니다. 라우터(router)라는 작은 신경망이 토큰을 보고 "이건 전문가 3, 7번이 처리할 일"이라고 판단해 그 두 개로만 연산을 보냅니다.

p = σ(W_r · x), MoE(x) = Σ_{i ∈ top-k(p)} p_i · E_i(x)

5.2 76B 모델이 12B처럼 동작하는 마법

SpikingBrain-76B를 "76B-A12B"라고 부르는 이유가 여기 있습니다. 총 파라미터는 76B지만, 토큰 하나를 처리할 때 실제 활성화되는 파라미터는 약 12B입니다. 16개의 라우티드 전문가 중 단 1개(top-1)와 1개의 공유 전문가만 켜기 때문입니다.

저장 공간은 76B만큼 필요하지만, 계산 비용은 12B 수준. 큰 두뇌를 유지하되 매 순간 두뇌 전체를 가동하지 않는다는 발상입니다. 이 점이 GPT-4, Mixtral, DeepSeek 등 최근의 거대 모델 다수가 MoE를 택한 이유입니다.

5.3 업사이클링(Upcycling)이라는 우아한 트릭

MoE를 처음부터 학습하는 것은 어렵습니다. 라우터를 무작위로 시작하면 전문가들이 균등하게 학습되지 않고, 일부 전문가만 거의 모든 토큰을 처리하는 불균형이 생깁니다. 본 논문은 이 문제를 우회하는 우아한 방법을 씁니다.

이미 학습된 밀집(dense) FFN의 가중치를 그대로 16개 전문가 모두에 복제합니다. 초기에는 모든 전문가가 같은 함수입니다.
출력 스케일이 변하지 않도록 작은 보정 계수 α ≈ 0.98을 곱해 둡니다.
학습이 진행되면서 라우팅 노이즈와 데이터 분포의 영향으로 전문가들의 가중치가 자연스럽게 분화됩니다.

이 방식의 묘미는 — 초기 시점에서 모델이 이미 밀집 베이스라인과 동일한 동작을 한다는 점입니다. 즉 변환 직후부터 어느 정도 작동하는 모델을 갖고 시작하므로, 학습이 안정적이고 적은 데이터로도 적응이 가능합니다.

Chapter 06

SpikingBrain의 결합 전략

6.1 세 가지가 만나는 지점

지금까지 본 세 가지 — 하이브리드 선형 어텐션, 스파이킹, MoE — 는 각자 다른 학자들이 다른 동기로 연구해 온 별개의 흐름입니다. SpikingBrain의 진짜 기여는 이 셋을 한 모델에 묶어 76B 스케일에서 끝까지 돌렸다는 점에 있습니다. 그런데 그냥 막 합친 게 아닙니다. 각자가 다른 층위의 효율을 담당합니다.

시퀀스 축 — 하이브리드 선형 어텐션

시퀀스 길이 n이 늘어날 때의 비용 폭주를 막습니다. 학습은 O(n), 추론 메모리는 상수.

모델 폭 축 — MoE

총 파라미터 수를 늘리되, 토큰당 활성 파라미터는 일부로 제한합니다. 용량은 크게, 계산은 작게.

연산 정밀도 축 — 스파이크 코딩 + INT8

각 곱셈 연산의 에너지를 줄입니다. FP16 곱셈을 INT8 덧셈으로 환원.

학습 비용 축 — 변환 기반 학습

처음부터가 아니라 기존 Qwen 체크포인트에서 출발합니다. 약 150B 토큰(약 2%)으로 적응.

이 네 축을 따로따로 적용한 연구는 이미 많습니다. 하이브리드 선형 모델 사례로는 Jamba, Zamba, Griffin, Hymba가 있고, MoE는 Mixtral, DeepSeek-MoE, Switch Transformer가 있으며, 스파이킹 LLM 시도로는 SpikeGPT, SpikeLM 등이 있습니다. 네 축을 모두 결합해 76B로 키운 사례는 SpikingBrain이 처음이라는 점이 이 논문의 위치입니다.

6.2 어텐션 맵 대응이라는 통합 원리

저자들이 학습 비용을 그토록 낮출 수 있었던 비결은 — 풀 어텐션, SWA, 선형 어텐션을 모두 같은 어텐션 맵 A의 변형으로 본 관점에 있습니다.

풀 어텐션 — A = softmax(QKᵀ)
SWA — 같은 식에 윈도우 마스크 M'을 추가. 어텐션 맵을 국소화·희소화한 버전.
선형 어텐션 — 소프트맥스를 떼서 A = QKᵀ. 최대 랭크가 d로 제한된 저차원 근사.

이 통합 시각의 실용적 함의는 결정적입니다 — 사전학습된 트랜스포머의 QKV(Query·Key·Value) 투영 가중치를 그대로 선형·SWA 모듈의 초기값으로 가져다 쓸 수 있다는 것입니다. 새 모델을 무작위 초기화로 시작하지 않아도 됩니다. 기존 모델이 이미 학습한 "어떤 쿼리가 어떤 키와 매칭되는지"에 대한 지식이 그대로 옮겨집니다.

왜 150B 토큰으로 충분한가

변환 학습이 처음부터 학습보다 50배 적은 데이터로 끝나는 이유가 이것입니다. 모델은 처음부터 새로 배우는 게 아니라, 이미 학습된 어텐션 패턴을 새 구조로 "재배치"하는 일을 합니다. 어택해야 할 적이 백지장이 아니라 이미 70~80% 완성된 모델이기 때문에 마지막 손질만 하면 됩니다.

6.3 적응형 임계값이 풀어낸 진짜 문제

SpikingBrain의 스파이킹 기법 중 가장 인상적인 부분은 적응형 임계값입니다. 기존 SNN을 LLM 스케일로 키울 때 가장 큰 걸림돌이 — 활성화 분포가 너무 다양해서 고정 임계값으로는 어떤 채널이든 적절히 스파이크하지 못한다 — 는 점이었습니다.

저자들은 막전위의 평균 절댓값이 통계적으로 표준편차의 약 0.8배에 해당한다는 관찰을 활용해, 이 값을 임계값의 기준점으로 삼습니다. 결과적으로 — 활성화 값이 큰 영역에서는 임계값이 자동으로 높아져 과다 발화를 막고, 작은 영역에서는 임계값이 낮아져 적은 양의 스파이크라도 정보를 전달합니다.

또 한 가지 영리한 점 — 큰 모델의 활성화에는 드물게 극단적으로 큰 값(이상치, outlier)이 섞여 있는데, 이는 모델 성능에 결정적으로 중요한 경우가 많습니다. 적응형 임계값은 이상치를 그냥 평균에 흡수시키는 게 아니라, 이상치에 대해서는 더 많은 스파이크를 발화해 정보를 보존합니다. 이게 생물학적 뉴런의 "버스트(burst)" 반응과 유사하다고 저자들은 주장합니다.

6.4 7B와 76B의 서로 다른 미학

같은 베이스 모델에서 출발했지만, 두 산출물의 설계 철학은 명확히 다릅니다.

SpikingBrain-7B — "극단적 효율"

선형 어텐션과 SWA를 층 간 1:1로 단순 교차. 풀 어텐션 없음. 학습·추론 모두 완전 선형. 결과적으로 회복률은 베이스의 약 90% 수준에서 멈춥니다.

SpikingBrain-76B (A12B) — "성능과 효율의 균형"

같은 층 안에 선형 + SWA를 병렬로 두고, [7, 14, 21, 28] 층에 풀 어텐션을 추가. MoE로 용량 확장. 결과적으로 베이스와의 격차를 거의 해소합니다.

주목할 점은 — "풀 어텐션 비중을 조금만 남기면 회상 능력의 큰 부분이 회복된다"는 관찰입니다. 28개 층 중 단 4개(약 14%)만 풀 어텐션이지만, 이걸로 모델은 멀리 떨어진 특정 정보를 정확히 꺼내는 능력을 상당 부분 되찾습니다. 이는 본 논문 이전의 여러 하이브리드 모델 연구(Jamba, StripedHyena 등)에서도 관찰되었던 경험칙으로, 본 논문이 재확인한 셈입니다.

Chapter 07

모델 아키텍처 상세

7.1 네 가지 어텐션 메커니즘의 비교

SpikingBrain은 네 가지 어텐션 유형을 골라 조합합니다. 각각의 특성을 정리하면 다음과 같습니다.

어텐션 유형	학습 복잡도	추론 메모리	특징
Softmax (Full) Attention	O(n²)	O(n)	전 시퀀스 글로벌 상호작용, 정확하나 비용 큼
Sliding Window Attention (SWA)	O(n)	O(1)	고정 윈도우 `w` 내 국소 상호작용에 한정
Linear Attention	O(n)	O(1)	소프트맥스 제거, 상태 기반 선형 재귀로 표현
Hybrid Attention	가변	가변	위 세 가지를 층 간/층 내 결합

본 논문은 게이팅(gating)을 추가한 GLA(Gated Linear Attention) 변형을 채택합니다.

7.2 MoE 구성

희소 MoE는 단일 FFN을 N개의 병렬 전문가 네트워크로 확장하고, 라우터가 토큰별로 상위 k개 전문가만 활성화하는 구조입니다. 본 논문의 76B 모델은 N = 16 라우티드 전문가, top-1 활성화, 공유 전문가 1개를 사용하므로, 한 토큰당 활성 파라미터는 약 12B에 머뭅니다.

7.3 스파이킹 뉴런 모델링

전통적 LIF 뉴런은 다음과 같이 막전위를 누적해 임계값 V_th를 넘으면 스파이크 1을 방출합니다.

v_(t+1) = λ v_t − V_th · s_t + x_(t+1), s_t = 1 if v_t ≥ V_th else 0

그러나 저자들은 LIF가 LLM 스케일에서 세 가지 문제를 일으킨다고 지적합니다 — (i) 감쇠 인자(decay factor)와 리셋이 야기하는 학습 불안정성, (ii) 사전학습 모델에 통합할 때의 잔여 복잡성, (iii) 고정 임계값이 만드는 침묵·과활성 뉴런. 이에 대한 해법으로 적응형 임계값 IF(Integrate-and-Fire) 뉴런을 제안합니다. 감쇠 인자를 제거하고, 임계값을 막전위의 평균 절댓값에 비례하도록 동적으로 설정합니다.

V_th(x) = (1/k) · mean(|x|), s_INT = round(v_T / V_th(x))

이 단일 스텝 정수화 덕분에 GPU에서 안정적인 옵티마이저 동작이 가능해지고, 추론 시점에만 시간 차원을 다시 펼쳐 희소 스파이크 열로 변환할 수 있습니다.

7.4 통합 모델 구조

SpikingBrain-7B는 4K 윈도우의 SWA와 GLA를 1:1로 층 간 교차 배치합니다. FFN은 베이스 모델과 동일한 SwiGLU 설계를 유지하며, 모든 선형 투영 층 활성화에 스파이크 코딩을 적용합니다. 결과적으로 학습 시 선형 시간 복잡도, 추론 시 시퀀스 길이와 무관한 상수 메모리를 확보합니다.

SpikingBrain-76B (A12B)는 총 28층 가운데 어텐션 모듈을 다음과 같이 배치합니다 — [7, 14, 21, 28] 층은 "LA + FA"(Linear + Full Attention), 나머지는 "LA + SWA"의 층 내 병렬 결합. FFN은 28층 중 [1, 2, 3, 5, 7, 9, 11] 일곱 개 얕은 층만 밀집(dense)으로 유지하고, 나머지는 16 라우티드 + 1 공유 전문가의 MoE로 구성됩니다. 추가로 128개의 학습 가능한 sink token을 입력 앞에 prepend하여 softmax 어텐션의 어텐션 싱크(attention sink) 현상을 완화합니다.

아키텍처의 두 가지 선택지

7B는 "극단적 효율"을 목표로 단순화된 순차 하이브리드를 채택했고, 76B는 "성능과 효율의 균형"을 목표로 더 정교한 층 내 병렬 하이브리드 + MoE를 채택했습니다. 둘은 같은 베이스 모델(Qwen2.5-7B-base)에서 변환되었으나 서로 다른 트레이드오프를 보여주는 사례 연구로 위치합니다.

Chapter 08

학습 패러다임과 변환 파이프라인

SpikingBrain은 사전학습된 트랜스포머 체크포인트를 기점으로 어텐션·FFN·스파이크 모듈을 순차 변환하는 경량 변환(conversion) 파이프라인 위에서 학습됩니다. 처음부터 학습하면 약 10조 토큰이 필요하지만, 본 파이프라인은 약 150B 토큰으로 동등 수준의 성능에 도달합니다.

8.1 어텐션 맵 대응 (Attention Map Correspondence)

저자들은 풀 어텐션, SWA, 선형 어텐션을 모두 동일한 어텐션 맵 A ∈ R^(n×n)의 변형으로 간주합니다.

SWA는 어텐션 맵에 강한 최근성(recency) 편향을 부여한 희소화 버전으로 볼 수 있습니다.
선형 어텐션은 어텐션 맵의 저차원(rank ≤ d) 근사로 볼 수 있습니다.

이 대응 관계 덕분에 사전학습 트랜스포머의 QKV 투영 가중치를 SpikingBrain의 선형·국소·하이브리드 어텐션 초기값으로 그대로 재사용할 수 있고, 학습된 QK 유사도를 활용해 적은 데이터만으로 빠르게 수렴합니다.

변환 안정화를 위한 실무 지침

선형 어텐션의 QK 벡터에 비음 활성화(non-negative activation)를 적용합니다 — 7B는 ReLU, 76B는 Sigmoid. 소프트맥스 맵이 본래 비음이므로 변환 후에도 이 성질을 유지해야 합니다.
신규 도입 파라미터(정규화 층, 게이팅, sink token)는 저차원(low-rank)으로 유지합니다. 변환 단계는 학습률이 낮고 데이터가 적어 대량의 랜덤 초기 파라미터를 최적화하기 어렵기 때문입니다.
변환과 장문 확장(long-context extension)을 통합 수행합니다 — 효율적 어텐션은 장문에서 베이스 트랜스포머보다 훨씬 효율적이므로, 변환 도중 컨텍스트 길이를 단계적으로 확장할 수 있습니다.

8.2 MoE 업사이클링

밀집 모델의 단일 FFN 가중치를 N개로 복제한 뒤 랜덤 라우터를 도입합니다. 초기 시점에는 모든 전문가가 동일한 함수이므로 출력이 밀집 베이스라인과 일치하지만, 학습이 진행되면서 라우팅 노이즈와 데이터 분포가 대칭성을 깨고 전문가들이 점차 분화됩니다. 출력 스케일을 보존하기 위해 다음 보정 계수를 적용합니다.

a_MoE = (S + k/N) · a_dense, α = (1 / (S + k/N))^(1/3)

SpikingBrain-76B는 S=1, k=1, N=16이므로 α = 0.98이 적용됩니다.

8.3 다단계 변환 파이프라인 (CPT + SFT)

연속 사전학습(CPT, Continual Pre-Training)은 3단계로 진행됩니다.

1단계 — 8K 시퀀스에서 100B 토큰 학습, 어텐션 패턴을 국소·저차원 변형으로 전환하고 손실 수렴을 보장.
2단계 — 시퀀스 길이 32K로 확장, 20~30B 토큰.
3단계 — 시퀀스 길이 128K로 확장, 20~30B 토큰.

전체 CPT는 약 150B 토큰을 소비하며, 이는 처음부터 학습 시 필요한 10T 토큰의 약 2%에 해당합니다. 모든 단계에서 Matrix 데이터셋을 사용하고, RoPE(Rotary Position Embedding) 기준 주파수는 베이스 모델과 동일한 1M으로 유지합니다.

이어지는 지도 미세조정(SFT, Supervised Fine-Tuning)은 다시 3단계로 — 기초 지식, 대화·지시 이행, 추론(reasoning) — 진행됩니다. 추론 단계는 DeepSeek-R1로 디스틸링한 chain-of-thought 데이터 150K 샘플로 학습되며 중국어·영어 1:1 비율을 유지합니다.

Chapter 09

스파이크 코딩 체계

SpikingBrain의 스파이킹 전략은 두 단계로 분리됩니다.

Step 1: 최적화 시 단일 스텝 정수 생성 — 적응형 임계값으로 활성화를 정수 스파이크 카운트로 압축.
Step 2: 추론 시 다중 스텝 스파이크 확장 — 정수 카운트를 가상 시간 축에서 희소 스파이크 열로 펼쳐, 이벤트 구동 누적 연산으로 행렬곱을 대체.

이 분리 덕분에 학습은 동기식 GPU 위에서 안정적으로 수행되고, 추론은 비동기 이벤트 구동 하드웨어의 강점을 활용할 수 있는 형태가 됩니다.

9.1 세 가지 인코딩 포맷의 비교

방식	값 집합	특징	강점	약점
Binary	{0, 1}	가장 기본적인 이벤트 구동 코딩	구조 단순, 매우 낮은 카운트에 적합	큰 카운트 표현 시 시간 스텝 많음, 부호 없음 (적응형 임계값과 부합 안 됨)
Ternary	{-1, 0, 1}	흥분/억제 양방향 표현	시간 스텝·발화율 절반, 생물학적 흥분·억제 메커니즘과 정합	고카운트에서 여전히 시간 스텝이 비례 증가
Bitwise	비트 단위	카운트를 비트 자릿수만큼 펼침	고정밀·고카운트에서 시간 차원을 로그 스케일로 압축	구현 복잡, 부호 처리는 양방향/2의 보수 변형 필요

카운트 256을 표현할 때 — 이진 코딩은 256 스텝, 삼진 코딩은 128 스텝, 8비트 비트와이즈 코딩은 단 8 스텝이면 됩니다.

9.2 하드웨어 적응성

GPU 상에서는 시간 차원을 단일 스텝으로 압축해 동기식 실행과 호환되도록 시뮬레이션·추론을 수행합니다. 다만 GPU의 고정 클럭 사이클은 본질적으로 이벤트 구동 희소 비동기 신호의 강점을 살리지 못합니다. 따라서 저자들은 본 스파이킹 체계의 진정한 가치는 비동기 뉴로모픽 칩(neuromorphic chip) 위에서 발현된다고 봅니다 — 스파이크가 없으면 회로가 휴면 상태에 머물고, 스파이크가 발생할 때만 덧셈 연산을 수행하는 방식이기 때문입니다.

유의 사항

본 논문이 보고하는 에너지 효율 수치(예: FP16 MAC 대비 97.7% 절감)는 이상적 비동기 하드웨어 가정 위의 추정치입니다. 실제 뉴로모픽 칩이 갖는 메모리 계층, 라우팅 오버헤드, 칩 간 통신 비용 등은 별도 검토가 필요하며 저자들도 본문 부록 C에서 이를 명시적으로 언급합니다.

Chapter 10

MetaX 클러스터 구현과 지정학적 맥락

10.1 CUDA라는 해자(垓字)

전 세계 AI 학습 인프라의 거의 모든 부분이 NVIDIA GPU + CUDA(Compute Unified Device Architecture) 위에 올라가 있습니다. PyTorch, TensorFlow, JAX, 모든 주요 라이브러리가 CUDA를 1차 백엔드로 가정합니다. FlashAttention 같은 최신 커널, Megatron 같은 분산 학습 프레임워크, 모두 CUDA에 최적화되어 있습니다. 새 GPU 제조사가 끼어들기 어려운 진정한 의미의 해자입니다.

최근 몇 년 사이 미·중 기술 패권 경쟁에서 첨단 AI 칩 수출 통제가 핵심 쟁점이 되었습니다. 중국 기업들이 NVIDIA H100, H200, B200을 사기 어렵게 되었고(특정 사양 한도 적용), 이에 따라 자체 GPU 생태계를 키우려는 시도가 가속화되었습니다. 화웨이의 Ascend, 캠브리콘(Cambricon)의 MLU, 그리고 본 논문에 등장하는 MetaX C550이 그런 흐름의 산물입니다.

10.2 MetaX C550이라는 변수

MetaX(중국명 沐曦) Integrated Circuit Co., Ltd는 2020년 상하이에서 설립된 GPU 스타트업으로, 본 논문의 공저자 명단에 합류해 있습니다. C550은 그들의 데이터센터급 GPU이며, NVIDIA A800과 종종 비교됩니다. 본 논문이 직접 보고하는 비교 수치는 다음과 같습니다.

MFU(Model FLOPs Utilization) — MetaX C550에서 23.4%, 동일 구성의 NVIDIA A800에서 25.8%.
학습 안정성 — 2주 이상 중단 없이 학습 지속.
소프트웨어 호환성 — Megatron, Triton, PyTorch 모두 적응시켰으나 일부 구버전 사용 불가피.

2.4%p의 MFU 차이가 의미하는 바를 어떻게 봐야 할까요? 두 가지 관점이 있습니다.

긍정적 관점 — "의외로 실용 격차가 작다"

차이가 10%p 이상이었다면 비용 효율 측면에서 NVIDIA 대안으로 부적합하다고 봤을 것입니다. 2.4%p 차이는, 동등 가격대라면 비용 효율이 거의 동일하다는 의미가 됩니다.

신중한 관점 — "단일 벤치마크의 한계"

한 모델·한 워크로드에서의 비교일 뿐입니다. 추론 효율, 다중 워크로드 동시 처리, 네트워크 통신 비용 등 다른 축에서는 차이가 더 클 수 있습니다. NVIDIA H100과의 비교가 더 의미 있는데, 그 비교는 본 논문에 없습니다.

10.3 분산 학습 적응 — MoE 안정화 4종

MoE 학습 초기 단계에서 메모리·연산 압력을 완화하기 위해 네 가지 기법을 사용합니다.

Hot-Cold Expert Optimization — 라우팅이 불균형한 초기 단계에서 자주 호출되는 전문가를 노드 로컬에 복제해 통신 핫스팟을 줄이고, 부하가 안정화되면 복제본을 제거합니다.
Adaptive Recomputation — 특정 전문가가 임계값 이상의 토큰을 처리하면 활성화 재계산(activation recomputation)을 자동 활성화해 메모리를 절약합니다.
Multi-Granularity Recomputation — 메모리 압박 수준에 따라 (i) 활성화·라우터만, (ii) FFN·공유 전문가 포함, (iii) MoE 층 전체의 세 단계로 재계산 범위를 조절합니다.
Length Alignment — 전문가별 토큰 수 편차가 GEMM 효율을 떨어뜨리므로, 토큰 드롭과 패딩으로 입력 길이를 정렬합니다.

10.4 연산자 적응 — Triton + CUDA → MACA 마이그레이션

적응 작업은 두 갈래로 나뉩니다 — 일부 연산자는 Triton 컴파일러 체인에서 재최적화하고, 나머지 CUDA 종속 연산자는 MACA(MetaX Advanced Compute Architecture)로 마이그레이션합니다.

Triton 적응 (4단계)

① JIT 컴파일 최적화 — 명령어 파이프라이닝과 레지스터 할당 재정렬. ② Grid Search·아키텍처 매칭 — MetaX SM 규모에 맞춘 Block/Grid 탐색. ③ 캐시 구조 명세 — MetaX 온칩 메모리 계층에 정렬된 고정 캐시 설계. ④ MetaX 컴파일러로 목적 코드 생성 — 텐서 코어·SIMD 최적화.

CUDA → MACA 마이그레이션 (4단계)

① 호출 계층 적응 — 기존 CUDA API를 MACA로 리다이렉트. ② 병목 분석 — softmax, exp/sum, 점곱 누적, 정규화 등의 핵심 연산자 재구현. ③ 캐시·아키텍처 매칭 — 누적 행렬과 위치 인코딩 캐시를 고속 캐시에 상주. ④ MetaX 가속 라이브러리(mcFlashInfer2 등)로 핵심 연산자 치환.

10.5 병렬 토폴로지 (DP · PP · EP · SP)

네 가지 병렬 전략을 조합합니다.

데이터 병렬(DP, Data Parallelism) — ZeRO로 옵티마이저 상태를 분산해 GPU 메모리 압박을 분산시킵니다.
파이프라인 병렬(PP, Pipeline Parallelism) — 1F1B 스케줄링을 적용하고, 76B 모델에서는 첫 단계의 메모리 편중을 완화하기 위해 MoE 층과 밀집 FFN을 교차 배치합니다.
전문가 병렬(EP, Expert Parallelism) — 전문가들을 GPU에 분할 배치하고 all-to-all 통신으로 토큰을 분배합니다. Grouped GEMM 커널과 보조 손실(auxiliary loss)로 라우팅 균형을 유도합니다.
시퀀스 병렬(SP, Sequence Parallelism) — 시퀀스를 길이 방향으로 분할합니다. 소프트맥스 어텐션 분기에는 DeepSpeed Ulysses(all-to-all), 선형 어텐션 분기에는 작은 규모에서 AllGather, 다중 노드 규모에서 ZeCO의 All-Scan 프리미티브를 적용합니다.

SpikingBrain 학습 시 적용된 병렬 구성
모델	프레임워크	시퀀스 길이	병렬 구성
SpikingBrain-7B	Colossal-AI	128K	DP 32-way + SP 8-way, ZeRO-2, 활성화 재계산
SpikingBrain-76B	Megatron	8K (기본)	DP 128-way + EP 8-way + PP 4-way, ZeRO, 선택적 재계산
SpikingBrain-76B	Megatron	32K / 128K	기본 구성 + SP 4-way / 8-way

통신 인프라

인트라 노드 통신은 MetaLink 및 PCIe 5.0로, 인터 노드 통신은 InfiniBand 200/400G 또는 RoCE 위의 RDMA로 처리됩니다. 체크포인트는 DLRover의 Flash Checkpoint 기법으로 CPU 메모리에 우선 기록 후 분산 파일 시스템에 비동기 보존되어, I/O 시간을 85% 줄였다고 보고됩니다.

기술 외적 함의

GPU 공급망의 다변화가 가능하다는 신호는 — 미·중뿐 아니라 유럽, 한국, 일본의 정책 결정자에게도 — 의미가 있습니다. 단, 이는 "MetaX가 NVIDIA를 대체할 수 있다"는 강한 주장은 아니며, "특정 워크로드에서 안정적 대안이 될 수 있다"는 한정적 결론입니다.

Chapter 11

실험 결과

11.1 다운스트림 성능

저자들은 OpenCompass 프레임워크 위에서 동일 조건 하에 평가를 수행하였습니다. 변환 학습이라는 특성상 사전학습형 벤치마크(MMLU, C-Eval)에 가중치를 두었고, 베이스 모델 외 다른 베이스라인은 중국어 데이터 비중이 낮아 CMMLU/C-Eval에서 불리한 점을 명시하였습니다.

표 1. SpikingBrain-7B 사전학습 모델 성능 비교 (출처: 원논문 Table 1)
벤치마크	SpikingBrain-7B	Falcon-Mamba	Mistral-7B	Zamba-v1	Llama3.1-8B	Qwen2.5-7B (base)
학습 토큰	+150B	5.8T	–	1T	15T	18T
복잡도 유형	Linear	Linear	Linear	Hybrid	Quad.	Quad.
MMLU	65.84	63.24	62.56	58.19	65.74	74.21
CMMLU	71.58	42.50	44.58	38.42	52.44	81.73
ARC-C	43.32	47.53	45.13	37.18	51.96	44.04
HellaSwag	70.89	71.50	75.81	52.02	71.60	72.81
C-Eval	69.80	41.93	47.04	36.40	51.46	81.60

저자들은 SpikingBrain-7B가 베이스 모델 성능의 약 90%를 회복했다고 평가합니다. 다만 어텐션 구조의 큰 변경 탓에 베이스(Qwen2.5-7B)와는 일정 격차가 남아 있는데, 이는 효율성을 극단까지 추구할 때의 회복 한계로 해석됩니다.

표 2. SpikingBrain-76B 사전학습 모델 성능 비교 (출처: 원논문 Table 2)
벤치마크	SpikingBrain-76B (12B 활성)	Jamba (12B/52B)	Mixtral-8×7B (13B/47B)	Llama2-70B	Gemma2-27B	Qwen2.5-7B (base)
학습 토큰	+160B	–	–	2T	13T	18T
MMLU	73.58	67.17	71.23	69.57	75.94	75.31
CMMLU	78.83	51.11	52.70	52.94	61.80	81.50
ARC-C	42.00	49.10	48.98	46.21	57.64	43.56
HellaSwag	73.31	79.39	79.42	79.15	79.34	73.37
C-Eval	78.89	48.94	54.39	49.26	61.02	81.68

76B 모델은 베이스와의 격차를 거의 메우며, 활성 파라미터가 더 적음에도 Mixtral-8×7B, Llama2-70B, Gemma2-27B 등 대표적 트랜스포머 베이스라인에 견줄 만한 결과를 보였습니다.

11.2 장문 추론 효율

본 논문이 가장 강하게 내세우는 결과입니다. NVIDIA H100 GPU에서 시퀀스 병렬 환경 하에 측정한 TTFT(Time to First Token, 첫 토큰 생성까지의 지연시간)는 다음과 같습니다.

표 3. 시퀀스 병렬 하 TTFT (ms), NVIDIA H100, 10회 평균 (출처: 원논문 Table 7)
시퀀스 길이	256K	512K	1M	2M	4M
GPU 수	8	16	32	64	128
SpikingBrain-7B	1,015	1,037	1,054	1,070	1,073
Qwen2.5-7B	7,419	14,398	27,929	측정 불가	측정 불가

시퀀스 길이와 GPU 수를 비례적으로 늘릴 때 7B 모델의 TTFT가 거의 일정하게 유지된다는 점이 핵심 관찰입니다. 학습 처리량 측면에서도 MetaX C550 환경에서 128K 시퀀스 길이 기준 베이스 대비 5.36배 TGS(Throughput per GPU Second) 우위가 측정되었습니다.

11.3 CPU 측 추론

1B 파라미터 압축 모델을 llama.cpp 백엔드 위에 배포해 Intel Core i5-12600KF CPU에서 측정한 결과, Llama3.2-1B 대비 시퀀스 길이별로 64K에서 4.04배, 128K에서 7.52배, 256K에서 15.39배의 디코딩 속도 향상이 보고됩니다. SpikingBrain-1B는 KV 캐시 누적 부담이 없어 디코딩 처리량이 출력 길이와 무관하게 안정적으로 유지되는 반면, Llama3.2-1B는 전(全) KV 캐시 연산 탓에 급격히 감속됩니다.

11.4 MetaX 클러스터 성능

1,558

TGS (Tokens per GPU Second), SpikingBrain-7B 학습 기준

23.4%

MetaX C550에서의 MFU

25.8%

참고: 동일 구성 NVIDIA A800 80GB MFU

2주 이상

중단 없이 지속된 학습 기간 (수백 GPU)

11.5 스파이킹 체계 분석

SpikingBrain-7B의 비트와이즈 스파이크 코딩 분포(3 스텝 윈도우 기준)에서, 채널의 69.15%가 어떤 스파이크도 발화하지 않으며, 19.30%가 1회, 9.69%가 2회, 3회 이상 발화하는 채널은 1.85%에 불과합니다.

적응형 임계값 스파이크 코딩과 8비트 가중치 양자화(W8ASpike, INT8 quantization)를 결합한 결과, 정확도 손실은 다음과 같습니다.

표 4. 스파이킹 체계 적용 전후 성능 비교 — 평균 약 1~3% 하락 (출처: 원논문 Table 3)
모델	Winogrande	ARC-e	ARC-c (norm)	HellaSwag (norm)	PIQA	MMLU	CMMLU	평균
SpikingBrain-7B	0.6992	0.8047	0.5566	0.6777	0.7949	0.6751	0.6904	0.6998
SpikingBrain-7B (W8ASpike)	0.6895	0.7861	0.5410	0.6758	0.7979	0.6546	0.6677	0.6875
SpikingBrain-76B	0.7275	0.8125	0.5615	0.7000	0.8125	0.7247	0.7740	0.7304
SpikingBrain-76B (W8ASpike)	0.7148	0.7949	0.5371	0.6863	0.8004	0.7081	0.7512	0.7133

에너지 효율 추정 (45nm 공정 기준)

저자들은 평균 스파이크 카운트 1.13, INT8 덧셈 1회당 약 0.03pJ를 기반으로 다음과 같이 추정합니다.

FP16 MAC — 1.5 pJ/op
INT8 MAC — 0.23 pJ/op
제안 방식 (스파이크 트리거 + INT8 가중치) — 평균 약 0.034 pJ/op

이를 통해 FP16 대비 약 97.7% 절감(43.48배 효율), INT8 대비 약 85.2% 절감(6.76배 효율)이 가능하다고 보고됩니다. 단, 이 수치는 이상적 비동기 하드웨어 가정 위의 추정치임을 거듭 명시합니다.

Chapter 12

결과 수치를 어떻게 읽을 것인가

본 논문에는 인상적인 숫자가 여럿 등장합니다. 한 줄 헤드라인으로 — "4M 토큰에서 100배 가속, 베이스 모델의 90% 성능 회복, 에너지 효율 43배 향상" 같은 것들. 이 숫자들을 곧이곧대로 받아들이기 전에 한 번 살펴봐야 할 지점이 있습니다.

12.1 100배 TTFT 가속 — 무엇과의 비교인가

가장 자주 인용되는 "4M 토큰에서 100배 이상" 수치는 다음 조건에서의 비교입니다.

SpikingBrain-7B 대 Qwen2.5-7B
NVIDIA H100 GPU, 시퀀스 병렬 환경
4M 토큰 입력 기준, TTFT
SpikingBrain은 ZeCO + P2P 통신, Qwen은 풀 어텐션 + All-to-All 통신
Qwen2.5의 4M 측정은 자원 제약으로 직접 불가하여 "피팅 곡선으로 외삽한 추정치"

핵심

1M 토큰까지는 직접 측정이고 그 비율은 26.5배입니다. 4M에서의 100배 이상은 외삽치이며, 정확한 의미는 "이 트렌드가 이어진다면"입니다. 1M에서의 26.5배도 매우 큰 숫자이고 의미 있는 결과이지만, "100배"라는 헤드라인 숫자가 실제 측정인지 외삽인지 정확히 인지하는 게 좋습니다.

또 한 가지 — 이 비교는 어디까지나 특정 워크로드(매우 긴 시퀀스의 첫 토큰 생성)에 한정됩니다. 8K, 32K 같은 짧은 컨텍스트에서는 가속비가 훨씬 작습니다(예: 128K에서 vLLM 기준 2.75배). 일반적인 챗봇 사용자가 체감할 가속이 100배인 것은 아닙니다. 본 모델의 강점은 "긴 컨텍스트에서 더 두드러진다"는 점입니다.

12.2 베이스 모델 90% 회복은 좋은 결과인가

SpikingBrain-7B는 베이스 Qwen2.5-7B 성능의 약 90%를 회복했다고 보고합니다. 표 1에서 직접 보면 — MMLU에서 65.84 대 74.21, ARC-C에서 43.32 대 44.04, HellaSwag에서 70.89 대 72.81. 종목별로 차이가 다르며, 특히 중국어 평가(CMMLU, C-Eval)에서는 거의 차이가 없는 반면 영어 다중과제 평가에서는 격차가 있습니다.

이 90% 수치를 평가하려면 두 가지 맥락이 필요합니다.

맥락 1 — 다른 효율 모델과의 비교: 표 1에서 Falcon-Mamba나 Mistral-7B는 베이스 트랜스포머에 비해 더 큰 격차를 보입니다 (MMLU에서 각각 63.24, 62.56). 즉 효율적 아키텍처 대안 중에서는 SpikingBrain-7B가 경쟁력 있는 편입니다.
맥락 2 — 데이터 효율 관점: 150B 토큰만으로 90% 회복은 인상적인 데이터 효율입니다. Qwen2.5는 18T 토큰으로 학습되었으니, 100분의 1 미만의 데이터로 절반 이상의 능력을 회복한 셈입니다.

한편 76B 모델은 베이스와의 격차를 거의 메웠다고 보고됩니다. MMLU에서 73.58 대 75.31, C-Eval에서 78.89 대 81.68. 단, 76B 모델이 비교되는 베이스도 7B 모델인 Qwen2.5-7B라는 점에 유의해야 합니다. 즉 큰 모델로 작은 베이스의 손실을 회복한 것이지, 같은 크기의 트랜스포머와 직접 경쟁한 것은 아닙니다. Llama2-70B, Mixtral-8×7B 등과의 비교에서는 비슷한 수준이지만, 같은 크기의 최신 트랜스포머(예: Qwen2.5-72B)와는 직접 비교되지 않았습니다.

12.3 에너지 효율 추정치의 신뢰도

가장 신중히 읽어야 할 부분입니다. 본 논문의 에너지 효율 추정 — FP16 MAC 대비 97.7% 절감, 43.48배 효율 — 은 다음 가정들 위에 세워져 있습니다.

45nm 공정 기준 발표 데이터(Yao et al., 2024b) 차용
이상적 비동기 뉴로모픽 하드웨어 가정 — 스파이크가 없으면 해당 채널 회로는 완전히 휴면
가중치 페치(off-chip DRAM → on-chip SRAM, SRAM → 연산기)도 스파이크 발생 시에만 수행된다는 가정
실제 라우팅·통신 오버헤드와 SNN 특유의 시간 차원 처리 비용은 추정에 포함되지 않음

이는 본 논문이 부록 C.2에서 "이상화된 가정"이라고 분명히 언급하는 부분입니다. 저자들 자신도 — 이 수치는 "어떤 하드웨어가 만들어진다면 그 위에서 도달 가능한 상한 추정"이지, 현재 가용한 칩에서 실제로 측정된 수치가 아닙니다.

실용적 결론

에너지 효율 43배는 "이론적 가능성"으로 받아들이는 게 정확합니다. 실제 뉴로모픽 칩에서 LLM을 돌린 사례는 거의 없고, 만들어지더라도 메모리·통신·제어 회로의 오버헤드가 어떤 비중을 차지할지는 미지수입니다. 다만 — FP16 대비 곱셈을 덧셈으로 바꾸는 산수적 효과가 분명히 있으므로, 한 자릿수 수준의 에너지 절감은 합리적 기대치입니다. 두 자릿수 절감은 하드웨어 진보가 동반될 때만 가능합니다.

12.4 69.15% 희소성의 의미

비교적 신뢰할 만한 수치입니다. 이는 측정 가능한 통계이며, 추정이 아니라 학습된 모델의 실제 발화 패턴 분석입니다. 평균적으로 채널의 69.15%가 어떤 스파이크도 발화하지 않는다는 것은 — 이상적 비동기 하드웨어에서는 그만큼의 연산을 건너뛸 수 있다는 의미입니다. GPU에서는 이 희소성을 직접 활용하기 어렵지만, 통계적 사실로서는 의미가 있습니다.

Chapter 13

한계점과 비판적 시각

13.1 회상 능력의 격차는 가벼운 문제가 아니다

저자들이 본문 곳곳에서 언급하고 부록 A.4에서 상세히 다루는 한계 — 선형 어텐션은 LongBench의 회상 중심 과제에서 풀 어텐션 대비 약점이 있습니다. 이게 왜 중요할까요?

장문 모델의 실제 사용처를 생각해보면 — 코드베이스 분석, 의학 기록 조회, 법률 문서 검토, 장기간 대화 맥락 유지 — 의 핵심은 "넓은 컨텍스트 안에서 정확한 정보를 짚어내는 것"입니다. 단순히 "긴 글의 전체 분위기 파악"만으로 충분한 작업은 의외로 적습니다. 76B 모델이 풀 어텐션 층을 일부 남긴 이유가 바로 이것이며, 그럼에도 베이스 풀 어텐션 모델과는 격차가 남습니다.

현실적 의미 — 100만 토큰 입력은 받지만 그 안의 정확한 사실 회상이 약하다면, 그 100만 토큰은 부분적으로만 활용 가능합니다. 사용 시나리오를 신중히 선택해야 합니다.

13.2 뉴로모픽 하드웨어의 현실 점검

본 논문의 가장 흥미로운 약속은 — "이 모델은 미래의 뉴로모픽 칩에서 진가가 발휘된다"는 부분입니다. 그러나 그 미래는 얼마나 가까울까요?

현존하는 주요 뉴로모픽 칩들 — Intel Loihi 2 (2021), IBM TrueNorth (2014), SpiNNaker (맨체스터대), Tianjic (칭화대) — 모두 연구용 단위 칩 수준이며, LLM 규모(76B 파라미터)를 올린 실증은 없습니다.
이들 칩의 메모리·통신 구조는 LLM의 행렬곱 워크로드와는 매우 다르게 설계되어 있습니다. 큰 가중치 행렬을 어떻게 분산 저장하고 라우팅할 것인가는 미해결 문제입니다.
본 논문이 부록 C.2에서 "실제 구현을 향한 방향"을 논의하긴 하지만, 그건 어디까지나 방향 제시일 뿐 구체적 구현은 아닙니다.

한 발 떨어진 평가

SpikingBrain의 스파이킹 부분은 "미래 하드웨어를 위한 워크로드 설계"로 보는 것이 정확합니다. 지금 당장 GPU에서 돌릴 수 있고 정확도 손실도 작지만(약 1~3%), 그것만으로는 일반 INT8 양자화보다 더 큰 이점이 있다고 단언하기 어렵습니다. 진짜 가치는 — 향후 비동기 칩 설계가 진척될 때 거기 올릴 만한 검증된 LLM이 미리 준비되어 있다 — 는 점입니다.

13.3 "뇌 영감(brain-inspired)"이라는 수사

본 논문의 제목과 핵심 메시지는 "뇌 영감"입니다. 이를 어떻게 받아들여야 할까요?

SpikingBrain이 차용한 요소들은 분명히 신경과학에서 출발한 개념입니다 — LIF 뉴런, 활동전위, 흥분·억제 신호, 적응적 임계값, 모듈식 처리. 그러나 실제로 본 모델이 "뇌처럼 작동한다"고 보기는 어렵습니다.

학습 과정은 표준 역전파 + 대리 기울기이며, 헵 시냅스(Hebbian learning) 같은 생물학적 규칙과 무관합니다.
스파이크 코딩은 학습 시 단일 스텝 정수로 압축되고, 추론 시에만 시간 축으로 펼쳐집니다. 실제 뇌의 비동기 시간적 코딩과는 다른 동작입니다.
MoE의 "전문가 특화"가 신경회로의 영역별 처리와 닮았다는 비유는 흥미롭지만, 형식적 유비 수준입니다.

이건 흠이 아닙니다 — 신경과학 영감을 받은 공학적 시스템이 신경과학을 그대로 재현할 필요는 없습니다. 다만 "뇌 영감"이라는 수사가 "이 모델이 인간 뇌와 유사한 효율로 동작한다"는 인상을 줄 수 있다는 점은 경계할 필요가 있습니다. 본 논문이 보고하는 효율 개선은 — 적어도 GPU 위에서는 — 다른 효율적 트랜스포머 변형들이 보이는 개선과 본질적으로 비슷한 자릿수에 머뭅니다.

13.4 그 외 짚어야 할 한계

비교군의 선택 — 표 2의 비교 대상이 Llama2-70B (2023), Mixtral-8×7B (2023)로 다소 오래된 모델들입니다. 최신 트랜스포머(예: Llama3.1-70B, Qwen2.5-72B)와의 직접 비교가 빠져 있습니다.
SFT 정렬의 한계 — 저자들 자신이 인정하듯, 본 연구의 SFT는 데모 목적이며 본격적 대규모 정렬 작업은 후속 연구로 미뤄집니다. 따라서 실제 사용 경험은 별도 평가가 필요합니다.
재현 가능성 — 7B 모델은 GitHub에 공개되었지만, 76B 모델 가중치와 MetaX 학습 환경 재현은 외부에서 쉽지 않습니다.

13.5 저자들이 공개한 부정적 결과

저자들은 보고서 끝에 별도 절을 두어, 기대만큼의 성과를 내지 못한 실험적 시도와 MetaX 하드웨어 적응 과정의 실무적 난점을 솔직히 공유합니다.

장문 데이터 구성의 한계 — 짧은 텍스트를 단순 연결(concatenation)한 데이터로 장문 학습을 진행한 결과, 극단적 컨텍스트 길이에서의 성능 향상이 제한적이었습니다. 자연 발생적 장문 샘플이나 회상 집중 데이터를 추가해야 베이스 트랜스포머와의 격차를 더 줄일 수 있다고 봅니다.
MoE 업사이클링 초기화의 한계 — 전문가 가중치를 부분 랜덤 초기화해 다양성을 키우려는 시도는 유의미한 성능 향상을 가져오지 못했습니다. 결국 단순한 가중치 복제와 재스케일링이 더 안정적인 결과를 보였습니다.
시퀀스 병렬 학습의 안정성 이슈 — 다중 노드 SP 학습 중 GPU 활용률 저하와 OOM(Out-Of-Memory) 또는 데드락(deadlock)이 간헐적으로 관찰되었습니다. 원인은 비동기 연산자 누적에 의한 버퍼 과할당과 노드 간 부하 불균형이었으며, SP 통신 프리미티브 뒤에 명시적 동기화를 삽입해 해결했습니다.
추론 SFT의 컨텍스트 길이 — 추론 SFT 단계에서 8K 컨텍스트는 chain-of-thought 시퀀스를 자주 잘라내, 추론 능력의 상한을 제한했습니다. 32K로 늘릴 경우 더 완전한 추론 궤적이 가능하다고 보고합니다.
MetaX 플랫폼 소프트웨어 호환성 — 개발 시점의 소프트웨어 스택 호환성 제약 탓에, 구버전 PyTorch와 Triton에서 동작하도록 Megatron 프레임워크를 적응시켜야 했습니다. 그 결과 Triton 블록 크기 축소와 자동 튜닝 제약 등 보수적 커널 설계가 필요했으며, 충분히 최적화된 구현 대비 성능이 다소 손해를 봤습니다.

정직성 측면의 가치

본 절은 단순한 부록이 아니라, 대규모 분산 학습 적응 연구에서 흔히 누락되는 "무엇이 잘 안 되었는가"를 명시적으로 공개합니다. 재현성과 후속 연구의 시간 절약에 기여한다는 측면에서 본 논문의 차별점 중 하나입니다.

Chapter 14

시사점과 결론

14.1 이 연구의 진짜 가치

비판적 시각을 충분히 살펴봤으니 이제 본 연구의 진짜 가치를 정리해 보겠습니다. 본 논문의 기여는 세 층위에서 분리해서 봐야 합니다.

학술적 기여 — 방법론 통합

변환 학습 + 하이브리드 선형 어텐션 + 스파이킹 + MoE를 한 파이프라인에 통합한 첫 76B 스케일 사례. 어텐션 맵 대응 원리의 명확한 정리. 적응형 임계값 스파이킹의 LLM 적용.

시스템 엔지니어링 기여 — 비NVIDIA 클러스터 실증

MetaX C550 수백 장 위에서 76B 모델을 2주 이상 안정 학습한 실증. Triton 적응과 CUDA→MACA 마이그레이션의 4단계 워크플로 공유. 부정적 결과 절의 솔직한 공유.

생태계적 기여 — 하드웨어 다변화 신호

NVIDIA 외 클러스터에서도 거대 LLM이 가능하다는 실증. 뉴로모픽 칩 설계자에게 유의미한 LLM 워크로드 패턴 제공. 7B 모델 공개 코드를 통한 후속 연구 기반 마련.

실용적 기여 — 초장문 추론 비용 곡선의 변화

시퀀스 길이가 늘어도 TTFT가 거의 일정한 7B 모델. 1B 모델 기준 CPU에서 15.39배 디코딩 가속. 코드베이스 분석, 의학 기록, 장기간 대화 같은 시나리오에 직접 적용 가능.

14.2 후속 연구가 향할 곳

본 논문은 자체적으로 여러 후속 방향을 시사합니다.

장문 데이터의 질적 개선 — 단순 연결이 아닌, 자연 발생적 장문과 회상 집약적 데이터 추가로 회상 능력 격차를 더 줄이는 작업.
실제 뉴로모픽 칩 위의 검증 — 본 논문이 추정한 에너지 효율이 실측에서 얼마나 발현되는지, 또 어떤 구조의 칩에서 가장 잘 동작하는지.
더 큰 스케일 — 본 연구의 변환 파이프라인이 200B, 500B 규모에서도 동일한 효율로 동작하는지. MoE 전문가 수를 16에서 더 늘렸을 때 어떤 트레이드오프가 생기는지.
표준 트랜스포머와의 직접 경합 — 최신 풀 어텐션 모델(Llama3.1-70B, Qwen3-70B 등)과 같은 데이터 예산 하에서 직접 비교했을 때 효율-성능 곡선이 어떻게 그려지는지.

14.3 한 발 떨어져서

SpikingBrain이 다음 세대 LLM의 표준이 될지는 미지수입니다. 트랜스포머가 워낙 견고한 기준점이고, 효율 향상이 절실한 영역(초장문)에서도 풀 어텐션 + KV 캐시 최적화 같은 정석적 개선이 계속 진척되고 있습니다. 하이브리드 선형 모델 자체도 Mamba 계열, Hymba, Jamba 등 경쟁자가 많습니다.

그러나 — "트랜스포머 한 가지 방식만으로 끝나지 않는다"는 명제, 그리고 "NVIDIA 하나의 생태계만으로 끝나지 않는다"는 명제는 본 논문 이후 더 분명해졌습니다. 그 두 명제를 한 번에 보여주는 76B 규모 실증이 이 논문의 가장 단단한 기여입니다.

마무리

이 글을 따라온 독자라면, SpikingBrain이 단일한 혁신이 아니라 — 변환 학습, 선형 어텐션, MoE, 스파이킹, 비NVIDIA 시스템 엔지니어링이라는 다섯 가지 흐름이 한곳에서 만난 통합 작업이라는 점을 분명히 보셨을 것입니다. 이 다섯 가지 흐름은 각각 별개로도 활발히 연구되고 있고, 향후 다른 조합으로 다시 등장할 가능성이 높습니다. 이 논문은 그 가능성의 한 좌표를 분명히 찍어 놓았습니다.

참고 문헌

Yuqi Pan et al., "SpikingBrain: Spiking Brain-inspired Large Models", arXiv:2509.05276v4 [cs.LG], 2026-05-08.
공개 코드: github.com/BICLab/SpikingBrain-7B
Vaswani et al., "Attention Is All You Need", NeurIPS 2017 — 트랜스포머 원논문.
Katharopoulos et al., "Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention", ICML 2020 — 선형 어텐션 정식화.
Beltagy et al., "Longformer", arXiv:2004.05150 — 슬라이딩 윈도우 어텐션.
Maass, "Networks of Spiking Neurons", Neural Networks 1997 — SNN의 이론적 기반.
Hodgkin & Huxley, J. Physiology 1952 — 막전위 동역학의 정량 모델.
Komatsuzaki et al., He et al., "Upcycling LLMs into MoE", arXiv:2410.07524 — MoE 업사이클링.
Dao & Gu, "Transformers are SSMs", ICML 2024 — 상태공간 모델과 트랜스포머의 통일된 관점.
Lieber et al., "Jamba", 2024 / Glorioso et al., "Zamba", 2024 / De et al., "Griffin", 2024 — 하이브리드 선형·트랜스포머 모델 사례.

본 글의 본문 사실 진술은 원논문 본문·표·그림에 근거합니다. 표 1, 2, 3, 4는 원논문 Table 1, 2, 7, 3을 인용·재구성한 것입니다. 해석, 평가, 비유, 비판적 의견은 작성자에 의한 것이며 원저자들의 입장을 반영하지 않습니다.