기록과 해설

Anthropic을 짓는다는 것

공동창업자 9인의 회고 — 물리학자들이 AI를 만나 안전과 스케일링 사이에서 한 회사를 세운 10년의 이야기

2026년 5월 21일 약 35분 분량 대화록 분석 · 기술 회고

2026년 봄, Anthropic의 공동창업자들이 한자리에 모여 카메라 앞에서 대화를 나누었다. CEO인 Dario Amodei와 President인 Daniela Amodei 남매를 비롯해 Chief Scientist Jared Kaplan, 해석가능성(interpretability) 연구를 이끄는 Chris Olah, GPT-3 핵심 개발자 Tom Brown, 정책 책임자 Jack Clark 등 일곱 명이 둘러앉아, 자신들이 왜 AI(Artificial Intelligence, 인공지능)에 뛰어들었고, 어떻게 한 회사로 묶이게 되었으며, 안전이라는 단어를 어떤 의미로 쓰고 있는지를 가감 없이 회고하는 자리였다.

이 대화는 단순한 사내 홍보 영상이 아니다. 물리학에서 AI로 옮겨 온 사람들이 어떻게 한 기술 패러다임의 전환을 직접 목격했는지, 안전이라는 추상적 개념을 어떻게 '운영 가능한 문서'로 바꾸어 갔는지, 그리고 회사를 차리고 싶지 않았던 사람들이 왜 결국 차릴 수밖에 없었는지에 대한 일종의 구술 기록이다. 이 글은 그 대화를 따라 읽으며, 배경 사실과 함께 핵심 개념을 풀어 정리한 해설이다.

물리학자들은 왜 AI로 갔는가
스케일링이 무섭게 통하기 시작했다
AI 안전이 어색했던 시절
상식이 뒤집히는 순간
RSP — 안전을 운영 가능한 문서로
회사를 차리고 싶지 않았던 사람들
신뢰 위에 쌓아 올린 조직 문화
정상을 향한 경쟁이라는 베팅
다음 10년의 풍경

대화에 등장하는 사람들

Dario Amodei

CEO · 공동창업자

프린스턴 계산신경과학 박사. Baidu·Google·OpenAI를 거쳐 OpenAI 연구 부사장(VP of Research) 역임. 회사의 비전과 안전 노선을 설계한 인물.

Daniela Amodei

President · 공동창업자

Dario의 누나. Stripe에서 약 5년 6개월 근무 후 OpenAI 안전·정책 부사장 역임. 조직 운영과 신뢰·안전(Trust & Safety) 분야 책임.

Jared Kaplan

Chief Scientist · 공동창업자

존스홉킨스 이론물리학 교수 출신. 신경망 스케일링 법칙(scaling laws) 연구의 핵심 저자. Constitutional AI(헌법적 인공지능) 아이디어를 추진.

Chris Olah

Interpretability 책임 · 공동창업자

대학을 다니지 않고 19세에 베이 에어리어에서 AI 연구를 시작. Google Brain·OpenAI를 거쳐 신경망 해석가능성 분야를 개척.

Tom Brown

컴퓨트 책임 · 공동창업자

Stripe에서 결제 인프라 엔지니어로 근무 후 OpenAI 합류. GPT-3 논문 제1저자로 알려진 핵심 개발자. 현재 Anthropic의 컴퓨트 인프라를 총괄.

Jack Clark

정책 책임 · 공동창업자

전 Bloomberg·The Register 기자. 2014년 ImageNet 결과 추세를 그래프로 그려 보도를 시도하던 시기 AI로 전향. 현재 정부·정책 대응 총괄.

Sam McCandlish

Chief Scientist · 공동창업자

OpenAI 시절 스케일링 법칙 공동 연구. 안전과 모델 능력 평가 체계를 함께 다룸.

대화에는 Ben Mann을 제외한 일곱 명의 공동창업자가 참여한다. Mike Krieger(현 CPO)와 Vinay 등 후속 합류 임원들도 이름만 언급된다.

Chapter 01물리학자들은 왜 AI로 갔는가

대화는 한 줄짜리 질문으로 시작된다. "그래서, 도대체 왜 AI를 하는 겁니까." 진행자(Jack Clark)가 Jared Kaplan을 지목하자 그는 짧게 답한다.

"오랫동안 물리학을 했는데 지겨워졌고, 친구들과 더 어울리고 싶어서요."Jared Kaplan

이 무심한 농담 뒤에는 한 시대의 인력 이동이 깔려 있다. Jared는 존스홉킨스 대학의 이론물리학 교수로 약 6년을 보낸 뒤 AI로 옮겨 왔다. 그를 끌어들인 사람은 Dario Amodei였다. Dario는 "내가 명시적으로 영입하려고 한 적은 없다"고 말한다. 그저 자신이 만든 AI 모델 결과를 계속 보여 주었을 뿐이고, "이게 한 분야가 아니라 매우 일반적으로 적용되는 기술"이라는 것을 천천히 납득시켰을 뿐이라는 것이다.

Chris Olah의 이력은 더 특이하다. 그는 정규 학위 과정을 거치지 않고, 열아홉 살 때 처음 베이 에어리어를 방문해 Dario·Jared와 마주쳤다. 당시 두 사람은 박사후연구원이었고, Chris에게는 "박사후연구원"이라는 직함 자체가 멋있어 보였다고 회상한다. 그 후 Chris는 Google Brain에서 Dario와 책상을 나란히 놓고 일했고, Tom Brown과도 같은 팀에 있었다. 다시 OpenAI에서 합류했으니, 핵심 인물들의 인연만 따져도 10년이 넘는다.

Jack Clark는 2015년 한 학회에서 Dario를 인터뷰하려다 Google 홍보팀이 "이 사람 논문을 모두 읽고 와야 한다"고 통보해 무산된 일을 떠올린다. Dario는 그 무렵 〈Concrete Problems in AI Safety〉(이하 CPAS) 논문을 쓰고 있었다.

비유로 이해하기 — 일반 도구로서의 AI

Dario가 Jared를 "설득"한 방식은, 대장장이가 새 합금을 들고 와서 "이걸로 칼만 만드는 게 아니라 다리도 짓고 시계도 만들 수 있다"고 보여 준 것에 가깝다. 한 가지 결과를 보여주는 게 아니라, 같은 모델이 번역·요약·코딩·추론 등 전혀 다른 작업에서 모두 동작한다는 점을 반복해서 보여 줬다. 어떤 합금이 칼날만 잘 드는 게 아니라 모든 도구에 다 쓸 만하다면, 그건 더 이상 무기 재료가 아니라 시대를 바꾸는 소재다.

OpenAI 시절의 '한 무리'

2015년부터 2020년 사이, 이 사람들은 OpenAI라는 한 지붕 아래에서 GPT-2(2019년 2월 공개)와 GPT-3(2020년 6월 공개), 그리고 스케일링 법칙(scaling laws) 논문(2020년 1월)을 함께 만들어 냈다. Dario는 그 시기를 이렇게 요약한다.

"우리가 작동하게 만드는 작업을 하던 일종의 덩어리(blob)였죠."Dario Amodei

같은 시기 안전 분야의 핵심 아이디어 두 가지가 함께 자라났다. 하나는 자연어 모델을 충분히 키워서 인간의 가치와 의도를 모델이 '읽을 수 있게' 만든다는 것, 다른 하나는 그 위에 RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습)를 얹는다는 것이다. Dario는 "모델이 충분히 똑똑하지 않으면 RLHF 자체가 의미가 없기 때문에, 스케일링과 안전은 처음부터 얽혀 있었다"고 말한다.

왜 안전과 스케일링이 한 몸이었는가

모델이 작고 멍청하면 "인간이 원하는 것을 따라가도록 가르치자"는 시도 자체가 통하지 않는다. 모델이 인간 언어로 가치 판단의 미묘한 차이를 이해할 수 있을 만큼 커져야, 비로소 사람의 피드백으로 행동을 다듬는 것이 가능해진다. 즉 안전 연구는 모델을 더 크게 만들어야 가능했고, 모델을 더 크게 만들수록 안전이 더 절실해졌다.

물리학·결제 인프라·언론이라는 서로 다른 출신이 Google Brain과 OpenAI를 거치며 한 팀으로 수렴하는 과정. 점선은 안전·정렬 아이디어의 흐름.

Chapter 02스케일링이 무섭게 통하기 시작했다

스케일링 법칙은 한 줄로 요약하면 이렇다 — 모델 크기, 데이터 양, 학습 컴퓨트(compute)를 늘리면 성능이 예측 가능하게 좋아진다. 2020년 Jared Kaplan과 Sam McCandlish 등이 공저한 〈Scaling Laws for Neural Language Models〉 논문이 이 관계를 정량화했다. 대화 속에서 일행은 그 시기를 "그저 더 크게 만들었더니 작동했다"고 회고한다. 그리고 그게 한 분야에서만이 아니라 여러 프로젝트에서 계속 통하는 것이 "섬뜩하게(eerily) 통했다"는 표현을 쓴다.

"GPT-2가 먼저 나왔고, 그다음 스케일링 법칙, 그다음 GPT-3가 나왔습니다. 그게 우리가 결국 다 함께 일하게 된 이유였어요."Jack Clark

Jack은 GPT-2 시절 영국의 한 공항에서 모델을 띄워 가짜 뉴스 기사를 작성해 보고 Dario에게 슬랙으로 "이거 진짜 동작한다, 정책적 파장이 클 수 있다"고 보낸 일을 떠올린다. Dario의 답은 짧고 그답게 "예(Yes)" 한 단어였다고 한다. 이 짧은 일화는, 모델이 단순한 연구 결과를 넘어 사회적 사건으로 번질 수 있음을 처음 체감한 순간이기도 하다.

비유로 이해하기 — 스케일링이 통한다는 말의 의미

요리에 비유하면, 스케일링 법칙은 "냄비를 두 배로 키우고, 재료를 두 배로 늘리고, 불을 두 배로 키우면, 평균적으로 두 배만큼 맛있어지더라"는 발견에 가깝다. 이런 일은 요리에서는 일어나지 않는다. 보통 어느 지점에서 한계가 오기 때문이다. 그런데 신경망에서는, 적어도 지금까지는, 이 관계가 깨지지 않고 계속 이어졌다. 그래서 사람들은 "이게 어디까지 가는 거지?"라는 질문 앞에서 두려움과 흥분을 동시에 느꼈다.

GPT-2 공개와 '낯선 안전 지향 실험'

GPT-2의 단계적 공개(staged release)는 지금 기준으로 보면 평범한 절차지만, 2019년 당시에는 매우 이례적이었다. 그 결정에 관여한 사람들이 훗날 함께 회사를 차린 일도 우연이 아니다. Daniela는 "그 시기에 우리는 다 같이 약간 이상한, 안전 지향적인 일을 한 셈"이라고 표현한다. 그 경험이 더 큰 규모로 옮겨진 것이 Anthropic이다.

Chapter 03AI 안전이 어색했던 시절

지금은 정부 부처가 AI 회사 CEO를 백악관으로 부르는 시대지만, 2014~2016년만 해도 "AI가 정말 위험해질 수 있다"는 이야기는 학계에서 환영받지 못했다. Chris는 그 분위기를 "AI 겨울(AI winter)에 깊은 트라우마를 입은 연구 공동체"라고 설명한다. 80~90년대 두 차례에 걸친 AI 침체기를 겪은 연구자들은 야심 찬 비전이나 거창한 주장을 입에 올리는 것 자체를 금기시했다.

"AI 안전을 신경 쓰려면, AI가 정말 강력하고 유용해질 수 있다고 믿어야 합니다. 그런데 그 시기엔 야심을 갖는 것 자체가 일종의 금지였어요."Chris Olah

그래서 〈Concrete Problems in AI Safety〉라는 2016년 논문은 이중적인 의미를 가진다. 표면적으로는 보상 해킹(reward hacking), 부작용 회피(avoiding side effects), 안전한 탐색(safe exploration) 같은 머신러닝 안전 문제를 정리한 기술 문헌이지만, 실제로는 "AI 안전은 진지하게 다룰 만한 주제다"라는 합의를 만드는 정치적 작업에 가까웠다. Chris는 Google Brain에서 20명 가까운 연구자를 일일이 만나 논문 게재 지지를 모았다고 회상한다.

두 가지 '신중함'을 구분하기

Chris는 신중함에도 두 종류가 있다고 말한다. 첫째는 "기술의 잠재적 위험을 진지하게 받아들이는" 신중함이고, 둘째는 "어떤 아이디어가 성공할 수 있다고 진지하게 믿는 것 자체가 학문적 오만"이라며 거리를 두는 신중함이다. 2014년의 학계는 두 번째 신중함이 지배하던 시대였다. 그는 1939년 핵물리학 초기에 Enrico Fermi가 핵폭탄 가능성에 회의적이었던 반면, Leo Szilard와 Edward Teller는 위험을 진지하게 받아들여 행동에 옮겼던 대비를 든다.

Constitutional AI라는 이상한 아이디어

Anthropic이 창립 초기에 가장 큰 베팅을 한 연구 아이디어 중 하나가 Constitutional AI(헌법적 AI)다. Jack은 그 발상이 처음 나왔을 때 "이상한(crazy) 소리"로 들렸다고 회상한다. Jared의 설명은 단순하다 — 언어 모델은 객관식 시험을 잘 본다. 그렇다면 "지켜야 할 원칙 목록"을 모델에게 주고, 자기 자신의 응답을 그 원칙과 비교해 점수를 매기게 하면, 그게 학습 신호가 된다.

비유로 이해하기 — Constitutional AI

회사에 새로 들어온 직원에게 두꺼운 사규집을 던져 주고 "네 행동을 이 사규에 비추어 스스로 점검해 보라"고 시키는 것에 가깝다. 처음에는 어색하지만, 직원이 어휘를 충분히 알고 글을 잘 읽는다면 사규 자체가 행동 지침으로 작동한다. 핵심은 "원칙 ↔ 행동"을 비교할 수 있을 만큼 모델이 이미 똑똑해야 한다는 것. 그리고 신기하게도, 단순한 방식이 복잡한 방식보다 자주 더 잘 통했다. Jared는 이걸 "Bitter Lesson(쓰라린 교훈)"의 한 변주로 본다.

Chapter 04상식이 뒤집히는 순간

대화 가운데 Dario가 가장 무겁게 말하는 대목이 여기다.

"지난 10년 동안 제가 배운 가장 깊은 교훈은, 모두가 동의하는 듯 보이는 합의, 지혜롭게 들리는 상식 같은 것들이 사실은 성숙함과 정교함의 가면을 쓴 무리 행동(herding behavior)일 때가 많다는 것입니다."Dario Amodei

그리고 이렇게 덧붙인다. "그런 합의가 하룻밤 사이에 뒤집히는 것을 몇 번 보고 나면, 더 이상 '내가 어떻게 다 맞고 저 많은 사람이 다 틀리겠어'라는 식으로 생각하지 않게 됩니다. 그저 '이게 우리 베팅이다'라고 말하게 되죠."

그러한 베팅 중 하나가 AI 안전이었다. 한때 비주류였던 이 주제는 2022~2023년을 거치며 정부와 산업의 핵심 의제로 올라섰다. Daniela는 사용자 인터뷰에서 "이 기술이 세상에 미칠 영향이 정말 걱정된다"고 말하는 평범한 사용자들이 늘었다고 전한다. 일자리, 편향, 유해 콘텐츠뿐 아니라 "이게 인간이 함께 살아가는 방식 자체를 흔드는 것 아니냐"는 질문이 일반인의 입에서 나오기 시작한 것이다.

Jack은 정부와의 만남을 회상한다. 2023년 5월 백악관에서 당시 부통령 Kamala Harris와 상무장관 Gina Raimondo 등이 주요 AI 기업 CEO들을 불러 안전 책임을 강조한 회의를 가리키는 것으로 보인다. 그 자리에서 정부 측은 "당신들을 주시하고 있다. AI는 정말 큰일이고, 우리는 이제 주의 깊게 보고 있다"고 말했다고 한다. 2018년의 시각으로 보면, 대통령실이 언어 모델 개발에 대해 직접 메시지를 전하리라고는 누구도 예상하지 못했을 것이다.

"그건 정말 빙고 카드에 없던 일이었습니다."Jack Clark

Jack의 사적인 회심

Jack의 개인사도 흥미롭다. 2014년 그는 ImageNet 결과의 시간별 추세 그래프를 그려 보도하려 했지만 "완전히 미친 짓"이라는 반응을 들었다. 2015년에는 Bloomberg에 NVIDIA(엔비디아) 관련 기사를 제안했지만 — 그 무렵 거의 모든 AI 논문이 GPU(Graphics Processing Unit, 그래픽 처리 장치) 사용을 언급하기 시작했음에도 — 역시 거절당했다. 2016년 그가 AI 분야로 옮긴다고 했을 때 동료들은 "인생 최악의 실수"라는 메일을 보냈다고 한다.

비유로 이해하기 — 컨센서스가 바뀌는 순간

주식 시장의 큰 흐름과 비슷하다. 다수가 외면하는 종목에 일찍 베팅하는 사람은 한동안 외롭다. 그러다 어느 날 한꺼번에 모두가 같은 방향으로 뛰어들고, 그 시점이 되면 이미 늦었다. 그 외로움을 견디는 힘은, 거창한 확신이 아니라 "이전에 몇 번 비슷한 일을 보았다"는 단순한 경험에서 나온다. Dario가 말한 "50%만 맞아도 그 50%가 다른 누구도 더하지 못하는 가치를 더한다"는 발언은 이 감각에서 나온 것이다.

Chapter 05RSP — 안전을 운영 가능한 문서로

대화 시간의 가장 큰 비중을 차지하는 주제가 RSP(Responsible Scaling Policy, 책임 있는 스케일링 정책)다. RSP는 2023년 9월 19일 Anthropic이 처음 공개한 자발적 안전 프레임워크로, 모델 능력이 일정 임계치에 도달하면 그에 상응하는 안전·보안 조치를 갖춰야 한다는 단계별 약속이다. 2024년 10월에 2.0, 2025년 3월과 5월에 2.1·2.2 마이너 개정, 2026년 2월에 3.0이 발효되었다.

이 정책의 뿌리는 Paul Christiano가 이끌던 ARC Evals(현 METR)와 Dario의 2022년 말 논의로 거슬러 올라간다. 처음에는 "특정 안전 문제가 풀리기 전까지 스케일링을 멈출까?"라는 단순한 발상이었지만, 그러면 "어디서 멈추고 어디서 풀 것인가"가 자의적이 되기 때문에, 여러 임계치를 설정하고 각 단계마다 평가(eval)와 안전 조치를 강화하는 방식으로 진화했다. Anthropic은 이 단계 구조를 미국의 BSL(Biosafety Level, 생물안전등급) 체계에서 빌려 와 ASL(AI Safety Level)이라 이름 붙였다.

ASL은 단계별 능력에 단계별 안전·보안 의무를 짝지은 구조다. 현재 공개된 모델은 대체로 ASL-2에 머물러 있으며, 등급이 오를수록 평가·보안·외부 감사 부담이 가파르게 커진다.

"헌법을 다루듯이"

대화에서 일행은 RSP를 미국 헌법에 비유한다. Tom은 "어떤 문서보다 가장 많이 고쳐 쓴 문서일 것"이라고 말한다. Daniela는 비유를 더 밀어붙인다.

"미국이 헌법을 신성한 문서처럼 다루는 것과 비슷합니다. 그 문서를 침범하면 사람들이 화를 내고, 그 압력이 결국 미국이 궤도를 이탈하지 않게 하는 힘이 되죠. RSP는 Anthropic에 그런 위치에 있는 문서입니다."Daniela Amodei

비유로 이해하기 — 왜 헌법인가

한 나라가 잘 굴러가는 이유는 헌법 한 권 때문이 아니라, 헌법을 둘러싼 제도들(법원, 대법원, 의회, 행정부) 때문이다. 헌법은 짧은 텍스트지만 그 주변에 해석·집행·갱신을 담당하는 수많은 체계가 붙어 있다. RSP도 마찬가지로, 문서 자체보다 그것을 둘러싼 평가(eval) 팀, 거버넌스 절차, 외부 자문, 내부 보고 체계가 함께 자라야 의미가 생긴다.

화재 경보가 매주 울리는 건물

RSP가 가지는 또 다른 기능은 '거짓 경보(false alarm)'를 줄이는 것이다. 모든 사소한 우려를 매번 끌어올리면, 정작 진짜 위험이 왔을 때 아무도 반응하지 않는다.

"건물 화재 경보가 매주 울린다면 그건 정말 안전하지 않은 건물입니다. 정작 불이 났을 때 사람들이 '또 저거네' 하고 넘어갈 테니까요."Dario Amodei

그래서 RSP는 "무엇이 정말 걱정되는 임계치인가"를 명문화하고, 그 외의 영역에서는 일상적으로 제품 개발이 진행될 수 있도록 한다. 안전이라는 단어가 "이걸 하면 안 된다" 혹은 "이걸 해야만 한다"를 결정짓는 만능 키워드가 되지 않게 만드는 일종의 어휘 정비다.

회색 지대를 견디기

대화의 솔직한 대목은 Daniela의 인정에서 나온다 — "이걸 명료하게 시행하고 작동시키는 일은 처음 생각했던 것보다 훨씬 어렵고 복잡했다." 위험과 안전 사이에는 명확한 흑백이 아니라 거대한 회색 지대가 있다. 새로운 기술이라 사전에 예측이 불가능하다. 그래서 일행은 "일찍, 자주 반복(iterate)하라"는 원칙을 강조한다. 판돈이 커지기 전에 작은 판에서 여러 번 틀려 봐야, 큰 판에서 덜 틀린다는 것이다.

'지루하고 평범하게' 만들기

Jack은 의원들에게 RSP를 설명할 때의 일화를 전한다. "우리 모델을 훔쳐 가기 어렵게 만드는 장치들이 있고, 안전하게 만드는 장치들이 있습니다." 의원들의 반응은 "그거 당연한 거 아닙니까. 모두가 그렇게 하는 줄 알았는데요?"였다고 한다. 일행은 웃으며 "그게 정확히 우리가 원하는 반응"이라고 말한다.

"지루하고 평범하게 만들자. 감사(audit)처럼 만들자. 그게 목표였습니다."Daniela Amodei

RSP가 조직에 미치는 다섯 가지 효과

유인 정렬 — 안전에서 진전이 없으면 출시가 막힌다는 구조로, 모든 팀의 인센티브를 같은 방향에 맞춘다.
명료성 — "안전을 위해 X를 못 한다/해야 한다"가 자의적으로 쓰이지 않게 한다.
거짓 경보 억제 — 진짜 위험 시점에만 경보가 울리도록 임계치를 명문화한다.
대외 합의 가능성 — 빠른 발전을 믿지 않는 외부 이해관계자도 "임계치 도달 전엔 일상 운영"이라는 약속에는 동의하기 쉽다.
표준 수출 — RSP 발표 수개월 만에 주요 AI 기업들이 유사 정책을 채택하며 산업 표준이 되었다.

Chapter 06회사를 차리고 싶지 않았던 사람들

Anthropic의 창립 서사에서 가장 인상적인 부분은, 일행 중 누구도 "회사를 차리고 싶었다"고 말하지 않는다는 점이다. Dario의 표현이 거의 그대로다.

"우리 중 누구도 회사를 세우고 싶어 하지 않았습니다. 그저, 이게 우리의 의무라고 느꼈을 뿐이에요."Dario Amodei

Dario는 자신의 동기를 "유익한 방식으로 무언가를 발명하고 발견하고 싶었다"고 표현한다. 그 길은 AI로 이어졌고, AI는 막대한 엔지니어링과 자본을 요구했다. 그리고 자본이 들어오는 환경, 즉 회사라는 환경을 직접 설계하지 않으면, 그가 보아 온 테크 업계의 익숙한 패턴이 반복될 수밖에 없다는 판단이 따라왔다.

Chris의 회상은 더 솔직하다. 그는 처음에 OpenAI를 떠나는 것에 매우 망설였다고 한다. "더 많은 AI 연구소가 세상에 생기는 것이 좋은 일인지조차 확신이 없었습니다." 떠나야 한다는 결정이 내려진 뒤에도 그는 "회사 대신 비영리(non-profit)로 가자, 안전 연구만 하자"고 한참 동안 주장했다. 결국 그 주장을 접게 만든 것은 "제약 조건을 정직하게 받아들이는 실용주의"였다고 한다. 최첨단 모델을 직접 만들 수 없으면, 그 모델을 안전하게 만드는 연구는 결국 책상 위 가상의 모델을 대상으로 한 사변(思辨)에 머문다는 현실 인식이다.

Tom Brown이 OpenAI에 간 이유

Tom은 자신이 OpenAI에 합류한 과정을 짧게 설명한다. 그는 Stripe에서 5년 반을 일하며 Greg Brockman(전 OpenAI CTO)을 상사로 모셨다. Stripe를 떠난 뒤 그는 "수학을 그렇게 잘하지 못해서 AI 안전에 어떻게 기여할 수 있을지 모르겠다"고 고민했고, 자문해 주는 사람들의 반응은 둘로 갈렸다 — "결정 이론(decision theory)에 매우 능숙해야 한다"는 회의적 입장과 "AI가 그렇게까지 큰일이 될 것 같지 않다"는 회의적 입장. 그러던 차에 OpenAI 측에서 "엔지니어로서도 AI 안전에 충분히 기여할 수 있다"고 답을 보내 왔고, 그것이 합류의 결정타가 되었다고 한다.

Daniela가 OpenAI에 간 이유

Daniela는 Stripe에서 약 5년 6개월을 일한 뒤 옮길 곳을 고민하고 있었다. 그녀의 본래 직업적 정체성은 국제개발(international development)과 공공보건이었다. Stripe로 옮긴 이유 자체가 "남을 돕고 싶지만 그러기 위해 필요한 기술이 없어서, 일단 회사에서 경험을 쌓자"는 것이었다. OpenAI는 비영리 형태였고 친구들이 있었으며, 무엇보다 "정말 큰 사명을 내건 곳인데 조금 어수선해서 도움이 필요해 보였다"는 인상이 그녀를 끌었다고 한다.

그녀는 그 후 OpenAI에서 인사부터 스케일링 조직, 언어 모델 팀, 정책까지 거의 모든 영역을 맡는 "전천후 선수(utility player)"가 되었다. 그리고 GPT-3 출시 즈음 그녀가 동료들에게 던진 질문 하나가 일행의 기억에 남아 있다.

"여러분, 'Trust & Safety'라는 게 있는 거 들어 보셨어요?"Daniela Amodei

이 질문이 의미하는 바는 단순하다. 학술적 AI 안전 연구와는 별개로, 모델이 실제 서비스로 나갔을 때 발생하는 일상적 오·남용을 막는 운영 체계가 필요하다는 것. 이는 AI 안전이 학술 연구실에서 운영 부서로 내려오기 시작한 시기와 맞물린다.

비유로 이해하기 — Trust & Safety라는 근육

병원이 새 치료법을 도입할 때, 그 치료법이 효과적이라는 임상 연구와는 별개로 "환자 대기실 흐름, 부작용 신고 절차, 약 부족 시 대응" 같은 운영 매뉴얼이 필요하다. AI도 같다. 모델 자체를 안전하게 만드는 연구 외에, 매일매일 들어오는 부적절한 사용 시도를 잡아내는 일상적 근육이 필요하다. Daniela가 강조한 것은 "그 근육은 판돈이 적을 때 미리 길러 놓아야, 판돈이 커졌을 때 작동한다"는 점이다.

Chapter 07신뢰 위에 쌓아 올린 조직 문화

Daniela는 회사의 전략적 강점이 무엇이냐는 질문에 의외의 답을 내놓는다.

"우습게 들릴지 모르지만, 이 테이블에 둘러앉은 사람들 사이의 신뢰 자체가 강점입니다. 큰 그룹의 사람들이 같은 사명을 공유하게 만드는 일은 정말로 어렵습니다."Daniela Amodei

일행은 "80% 서약(80% pledge)"을 자연스럽게 언급한다. 이는 Anthropic 창업 초기 일부 직원들이 향후 회사 지분 수익의 상당 부분을 자선·공익 목적으로 기부하기로 약속한 서약을 가리킨다. 이런 합의가 가능했던 배경에는 "각자가 세상을 돕기 위해 이 일을 시작했다"는 공통의 출발점이 있었다.

Dario는 또 다른 각도에서 문화의 핵심을 짚는다.

"역기능적 조직은 제품팀, 연구팀, 안전팀이 각자 다른 목표를 추구한다고 믿는 조직입니다. 우리가 지키려 한 가장 중요한 것은, 모두가 단일한 변화 이론(theory of change) 안에서 서로 다른 기능을 수행하고 있다는 감각이에요."Dario Amodei

트레이드오프를 모두가 나누어 지는 조직

Daniela의 표현이 흥미롭다 — "역기능적인 세계는, 리더가 정보 비대칭 속에서 두 진영(예: 안전팀 vs 제품팀)이 일방적으로 주장하는 것을 듣고 그 사이에서 결정하라는 압박을 받는 세계다. 기능하는 세계는, 모든 사람이 '우리는 함께 트레이드오프와 마주하고 있다'는 사실에 동의하는 세계다."

비유로 이해하기 — 트레이드오프 분산

병원 응급실을 상상해 보자. 외상외과 의사, 마취과 의사, 간호사, 행정 직원이 모두 자기 입장만 강하게 주장하면, 중간 관리자는 정보가 부족한 채로 조정을 시도해야 한다. 반대로 모두가 "지금 환자 한 명, 자원은 유한, 다른 응급 콜이 들어올 수 있음"이라는 공통 그림을 보고 있다면, 각자가 자기 자리에서 트레이드오프의 일부를 감당한다. Anthropic이 지향하는 조직 모델이 이것이다 — 안전·제품·연구·정책이 같은 트레이드오프 지도를 들고, 서로 다른 자리에서 같이 그것을 푼다.

Tom Brown은 이 문화의 결과를 한 줄로 말한다 — "여기는 정치가 거의 없다." 자아(ego)가 낮은 사람들을 뽑는 채용 절차와, Daniela가 표현한 "광대(clown) 진입 차단"이 결합해 그러한 문화가 유지된다는 것이다. 그녀의 자조적인 농담 — "수석 광대 단속관(chief clown wrangler)이 제 직책이죠" — 이 그대로 회사의 조직론을 압축한다.

Chapter 08정상을 향한 경쟁이라는 베팅

Anthropic의 가장 논쟁적인 전략은 "Race to the Top(정상을 향한 경쟁)"이라는 개념이다. 흔히 우려되는 "Race to the Bottom(바닥을 향한 경쟁)"의 반대 개념으로, 안전 기준을 높이는 회사가 경쟁적으로 더 잘 되면, 다른 회사도 그것을 따라할 유인이 생긴다는 가설이다.

"우리는 안전벨트를 만들 겁니다. 다른 회사들이 그걸 베껴 가도 좋아요. 그게 좋은 세상이죠."Jack Clark

Dario는 이 베팅을 좀 더 무겁게 정의한다 — "기술이 존재하지 않는 상태에서, 매우 강력한 기술이 존재하고 사회가 그것을 관리하고 있는 상태로 사회를 무사히 옮겨 놓는 일." 한 회사 차원에서, 그리고 결국 산업 차원에서, 경쟁력을 유지하면서도 트레이드오프를 정직하게 마주하는 길을 보여 줘야 한다는 것이다.

정상을 향한 경쟁의 가설 — 안전이 시장 신호(고객·정부·인재 유치)로 전환되면, 경쟁사도 따라 올 유인이 생긴다. Anthropic은 RSP 발표 수개월 만에 주요 경쟁사 다수가 유사한 정책을 채택한 점을 그 증거로 본다.

'고결한 실패'의 함정

대화의 후반부에서 Sam McCandlish가 흥미로운 지점을 짚는다. 흔히 "안전 우선이라면 차라리 만들지 않는 것이 더 도덕적"이라는 생각이 있는데, 그는 이런 입장을 "고결한 실패(noble failure)"라고 부르며 자기 패배적이라고 본다. 이유는 두 가지다.

의사 결정 자리에서 안전을 신경 쓰는 사람이 사라진다 — 만들지 않기로 한 사람들은 자기 결정으로 영향력의 자리에서 빠진다. 결과적으로 안전을 신경 쓰지 않는 사람들이 모든 결정을 내리는 상황이 된다.
증거가 만들어지지 않는다 — 안전과 경쟁력이 양립 가능하다는 점은 누군가 실제로 보여 줘야 산업 전체로 퍼진다. 만들지 않는 사람들은 그 증거를 제공할 수 없다.

고객 측에서도 같은 신호가 잡힌다. Daniela는 "환각(hallucination)이 적고, 탈옥(jailbreak)이 어렵고, 유익하면서 해롭지 않은 모델"을 명시적으로 원하는 기업 고객이 늘었다고 말한다. 즉 안전이 시장의 부담이 아니라 차별화 요소가 되어 가고 있다는 것이다.

'정상을 향한 경쟁'에 필요한 조건

이 전략이 작동하려면 안전을 잘하는 회사가 경쟁에서도 이겨야 한다는 전제가 깨지지 않아야 한다. 그렇지 않으면 다른 회사들은 모방할 이유가 없다. 즉 Anthropic의 안전 노선은 '잘 팔리는 모델'을 만들어야 한다는 상업적 요구와 떨어질 수 없는 한 쌍이다. 일행이 반복해서 강조하는 '실용주의'와 '도덕적 순수성의 거부'는 여기서 나온다.

Chapter 09다음 10년의 풍경

대화의 마지막 챕터는 각자가 앞으로 가장 기대하는 일을 짧게 풀어내는 자리다. 답변들은 한 사람의 학문적 출신을 그대로 반영한다.

Chris Olah — 신경망의 생물학

"신경망은 아름답습니다. 우리가 미처 보지 못해서 그렇지, 안을 들여다보면 놀라운 구조로 가득합니다."Chris Olah

Chris는 해석가능성(interpretability) 연구의 매력을 단순한 안전 도구가 아니라 그 자체의 미학으로 설명한다. 진화가 단순한 최적화 과정이지만 그 결과로 놀라운 복잡성을 가진 동물을 만들어 내듯, 신경망 학습도 단순한 최적화 과정이지만 그 내부에는 "인공 생물학"이라 부를 수 있는 구조가 자라난다는 것이다. 그는 10년쯤 뒤에 서점에 들어가 "신경망의 생물학" 같은 제목의 교과서를 사 들고 나오는 장면을 상상한다고 말한다.

Jack Clark — 국가 역량의 등장

Jack은 정부 측의 변화를 가장 놀라워한다. 몇 년 전만 해도 "정부가 새로운 부처를 만들어 AI 시스템을 평가하고 시험할 것"이라는 시나리오는 비현실적으로 들렸다. 그러나 영국, 미국, EU 등에서 AI 안전 연구소(AI Safety Institute) 같은 기구가 실제로 만들어졌고, 일정 수준 이상의 전문성을 갖추고 작동하고 있다. 그는 이를 "정부가 이 새로운 기술 분야에 대응할 국가 역량(state capacity)을 갖춰 가고 있다"고 표현한다.

Daniela Amodei — 보건과 과학을 위한 AI

Daniela는 국제개발 출신답게 의료·보건 분야의 변화를 꼽는다. Claude(클로드)가 현재 일부 백신 개발, 암 연구, 생물학 연구에 보조 역할로 들어가는 것을 보면서, 3~5년 후에 "내가 25세 때 훨씬 효율 떨어지게 하던 그 일들을 Claude가 도와주고 있다면 정말 좋겠다"고 말한다.

Tom Brown — Claude for Work

Tom의 관심은 기업 도입이다. Claude를 회사 안에 들어가게 만드는 것, 전 세계 기업에 들어가게 만드는 것. 또한 Tom 자신은 최근 6개월 사이 자신의 개인적 사용 패턴이 크게 바뀌었다고 말한다.

"6개월 전만 해도 저는 Claude를 코딩에 거의 안 썼습니다. 그런데 한 주 전 YC(Y Combinator) 강연에서 청중에게 'Claude를 코딩에 쓰시는 분?'이라고 물었더니 거의 95%가 손을 들더군요. 넉 달 전과 완전히 다른 풍경이에요."Tom Brown

Dario Amodei — 컨센서스가 깨질 다음 세 영역

Dario는 자신이 가장 흥미를 두는 분야를 "지금 사람들이 회의적이지만 곧 깨질 컨센서스가 있는 세 곳"으로 짚는다.

해석가능성(Interpretability) — 안전을 위한 도구일 뿐 아니라, 지능적 최적화 자체에 대한 통찰을 담고 있다고 본다. 그는 Chris Olah가 "장차 노벨 의학상을 받을 사람"이라고까지 표현하며, 인간 뇌의 고차 정신질환(조현병, 기분장애 등)을 이해하는 데 인공 신경망 분석이 단서를 줄 수 있다고 추측한다. 뇌는 너무 물컹하고 들여다보기 어렵지만, 신경망은 그렇지 않다는 것이 그 근거다.
생물학을 위한 AI — AlphaFold(알파폴드) 연구 팀이 2024년 노벨 화학상을 받은 사건을 출발점으로 들며, 그 같은 도약을 100개쯤 만들어 내는 도구를 짓는 것이 목표라고 말한다. 실제로 2024년 노벨 화학상은 DeepMind의 Demis Hassabis와 John Jumper, 그리고 워싱턴 대학의 David Baker에게 단백질 구조 예측·설계 분야의 기여로 수여되었다.
민주주의 강화 도구로서의 AI — AI가 잘못 만들어지면 권위주의의 도구가 될 수 있다는 우려는 자주 제기된다. 그 거울상으로, AI가 자유와 자기결정의 도구가 될 수 있는 방법을 묻는다. 그는 이 영역이 앞의 둘보다 더 초기 단계지만, 중요성은 결코 작지 않다고 본다.

비유로 이해하기 — 해석가능성과 신경과학

인간 뇌는 단단한 두개골 안에 갇혀 있어, 한 사람의 생각이 어떻게 전기 신호로 흐르는지 직접 들여다보기 매우 어렵다. 신경망은 그렇지 않다. 가중치(weights)와 활성화(activations)를 마음대로 들여다볼 수 있다. Dario의 가설은 이렇다 — 인공 신경망과 인간 뇌가 완벽한 유비는 아니지만, 점차 더 좋은 유비가 되어 갈 가능성이 크다. 그렇다면 신경망 안에서 발견한 "고차 시스템 수준의 현상"이, 뇌에서 같은 종류의 현상이 어떻게 망가지는지를 이해하는 단서가 될 수 있다. 정신질환 연구가 기대를 거는 길이 바로 이 지점이다.

Jared Kaplan — 위험을 직접 연구할 수 있는 시대

Jared는 마지막에 한 가지 변화를 짚는다. 〈Concrete Problems in AI Safety〉가 나오던 2016년에는, 미래의 강력한 AI 시스템에서 일어날 위험을 가설적으로 상상해야 했다. 그러나 지금은 다르다.

"최근의 진전 덕분에, 매우 진보된 시스템에서 실제로 어떤 종류의 위험이 발생할 수 있는지가 살짝 보이기 시작했습니다. 그래서 우리는 그것을 해석가능성과 다른 안전 메커니즘으로 직접 조사하고 연구할 수 있게 되었어요."Jared Kaplan

그는 앞으로 6개월간 "고도화된 시스템에서 무엇이 잘못될 수 있는지에 대한 이해를 활용해, 그 위험을 특성화하고 회피 방법을 찾아내는 일"에 가장 기대를 건다고 말한다. 추상적 우려가 경험적 연구 대상이 되었다는 것 — 이 한 문장이 지난 10년의 변화를 압축한다.

10년 동안 AI 안전 의제는 "그런 일이 가능할까"라는 사변에서, "이미 시작된 일을 어떻게 측정하고 운영할 것인가"라는 공학·정책 문제로 옮겨 갔다. AISI는 영국과 미국에서 2023~2024년 사이 설립된 AI Safety Institute를 가리킨다.

맺으며 — 이 대화가 흥미로운 이유

이 대화록이 단순한 사내 기록을 넘어서는 이유는 두 가지다. 첫째, 거대한 기술 변화의 한가운데 있는 사람들의 회고가, 지나치게 영웅적이지 않고 솔직하다는 점이다. "회사를 차리고 싶지 않았다", "비영리로 가자고 한참 우겼다", "이렇게까지 어려울 줄 몰랐다" 같은 발언이 자연스럽게 나온다. 이런 발언은 자기 미화보다 자기 검열에 가까운데, 회사 문화의 톤을 그대로 보여 준다.

둘째, 안전이라는 개념이 "원칙적 다짐"에서 "운영 가능한 절차"로 옮겨 가는 과정이 구체적인 사례와 함께 드러난다는 점이다. RSP는 그 사례의 핵심이다. 헌법에 비유될 만큼 자주 고쳐 쓰는 문서이면서도, 의원들이 듣고 "당연한 거 아닌가요"라고 반응할 만큼 평범해진 절차이기도 하다. "지루하고 평범하게" 만드는 것이 곧 안전의 성숙이라는 관점은, 화려한 약속보다 단조로운 감사 절차가 더 신뢰할 만하다는 통찰을 담고 있다.

한국 독자에게 도움이 될 만한 관전 포인트

"안전"이라는 단어의 두 층위 — Anthropic의 안전은 학술적 정렬 연구(alignment)와 운영적 신뢰·안전(Trust & Safety)을 동시에 의미한다. 한국에서 AI 안전 정책을 논할 때 두 층을 구분하지 않으면 논의가 헛돈다.
임계치 기반 거버넌스 — RSP의 핵심은 "모든 모델에 같은 규제"가 아니라 "능력 단계별 차등 의무"다. 한국형 AI 규제 설계에서도 일률적 사전 규제보다 능력·위험에 비례한 단계적 의무가 더 안정적이다.
안전의 시장성 — Anthropic의 베팅은 "안전을 잘하는 회사가 시장에서 이긴다"는 가설이다. 한국 기업이 모방한다면, 단순한 윤리 선언보다 능력 평가·취약점 보고·외부 감사 등 측정 가능한 절차를 갖추는 것이 더 본질에 가깝다.
학제 간 인력 풀 — 핵심 인력의 출신은 물리학, 결제 인프라, 언론, 국제개발 등 매우 이질적이다. AI 안전은 ML 박사만의 영역이 아니라 거버넌스·신뢰·운영·정책을 다루는 다학제 분야임을 보여 준다.

대화는 자연스럽게 끝난다. "잘했다, 이런 자리를 자주 가져야겠다." 한 명이 그렇게 말하며 박수가 잠깐 터진다. 인터뷰가 끝나도 일은 끝나지 않는다. RSP는 2026년 2월 3.0으로 다시 바뀌었고, 평가 체계는 계속 개정되고 있으며, 모델은 또 한 단계 진화 중이다. 이 대화의 의미는 그 진행 중의 일이 어떤 사고방식 위에서 진행되고 있는지를 한 번에 보여 준다는 점에 있다.

출처 및 보조 자료 — 본 글은 2026년 봄에 공개된 Anthropic 공동창업자 대화 영상의 트랜스크립트(약 52분 분량)를 기반으로 작성되었다. 사실 확인에 사용한 참고 자료에는 Anthropic 공식 RSP 페이지(versions 1.0–3.0), METR(구 ARC Evals) 블로그, 〈Concrete Problems in AI Safety〉 논문(2016년 arXiv 1606.06565), 〈Scaling Laws for Neural Language Models〉(2020년 arXiv 2001.08361), Anthropic 공식 인물 페이지가 포함된다.

약어 정리 — AI(Artificial Intelligence, 인공지능), CPAS(Concrete Problems in AI Safety, 2016년 안전 문제 정리 논문), RLHF(Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습), RSP(Responsible Scaling Policy, 책임 있는 스케일링 정책), ASL(AI Safety Level, AI 안전 등급), BSL(Biosafety Level, 생물안전등급), CBRN(Chemical, Biological, Radiological, Nuclear, 화학·생물·방사능·핵), GPU(Graphics Processing Unit, 그래픽 처리 장치), AISI(AI Safety Institute, AI 안전 연구소), METR(구 ARC Evals, Model Evaluation and Threat Research, 모델 평가·위협 연구 비영리 기관), PBC(Public Benefit Corporation, 공익 법인).