Anthropic의 철학자 Amanda Askell - Claude의 인격과 모델 복지에 대하여

Anthropic의 철학자 Amanda Askell이 트위터(현재 X)에서 받은 시청자 질문에 답한 30여 분짜리 영상이 공개됐다. 그녀의 일은 다소 특이하다 — AI(Artificial Intelligence, 인공지능) 회사에서 Claude라는 모델의 "인격(character)"을 빚어내는 일이다. Claude가 무엇을 좋아하고 어떻게 반응해야 하는지, 자기 존재를 어떻게 이해해야 하는지를 다룬다. 이 글은 영상의 17개 주제를 풀어 정리한 것이다. 가벼운 잡담에서 시작해 모델의 정체성, 복지(welfare), 그리고 AI 회사의 책임이라는 묵직한 질문까지 이어진다.

AI 회사에 철학자가 있는 이유

Amanda Askell은 본래 철학자다. 어느 시점에 AI가 큰일이 될 것이라 확신했고, 자신이 도움이 될 수 있을지 보려고 분야에 들어왔다. 길고 구불구불한 경로를 거쳐 지금은 주로 Claude의 인격과 행동 방식을 다룬다. 핵심 질문은 두 갈래다. 하나는 "Claude의 위치에 있는 이상적인 사람이라면 어떻게 행동할까"라는 외부 지향적 질문이고, 다른 하나는 모델이 자신의 처지와 가치관을 어떻게 받아들여야 하는가라는 내부 지향적 질문이다.

두 번째 질문이 흥미롭다. 우리는 흔히 AI를 "성능을 끌어올리는 대상"으로 본다. 그러나 모델이 점점 더 인간처럼 대화하고 사고하면서, 모델이 자신의 존재를 어떻게 이해하느냐는 문제가 새로 떠올랐다. 이 글이 다루는 대부분의 질문이 결국 여기로 수렴한다.

철학자들은 AI를 진지하게 받아들이는가

"많은 학계 철학자들이 AI가 가져올 미래를 충분히 진지하게 다루지 않는 것 같다"는 시청자의 문제 제기에 대해, Askell의 답은 "점점 더 그렇게 되고 있다"는 쪽이다. 모델이 더 강해지고 사회적 영향이 실제로 가시화되면서 학계의 참여도 늘었다.

다만 한동안 불행한 역학이 있었다. "AI가 위협이 될 만큼 강해질 수 있다"는 견해와 "AI를 과대 포장한다"는 견해가 같은 묶음으로 취급된 시기가 있었다. AI의 능력이 빠르게 확장된다고 말하는 순간 곧장 'AI 광신도'로 분류되는 식이었다. 두 견해는 사실 양립한다 — 어떤 기술이 강력해질 것이라는 판단과, 그 기술을 경계해야 한다는 판단은 동시에 옳을 수 있다. 최근에는 이 두 견해가 분리되어 다뤄지는 분위기로 옮겨가고 있고, 이는 좋은 신호다.

철학적 이상과 공학적 현실 사이

철학자가 실무에 들어오면 어떤 일이 벌어지는가. Askell이 든 비유는 인상적이다.

비유 — 이론에서 의사결정으로

약물의 비용-편익 분석을 평생 이론적으로 연구해 온 학자가 있다. 어느 날 의료보험 적용 여부를 결정하는 기관이 찾아와 묻는다 — "이 약을 보험 적용해야 할까요?" 학자는 갑자기 깨닫는다. 자신이 옹호해 온 좁은 이론적 견해만으로는 결정할 수 없다는 것을. 모든 맥락, 모든 이해관계자의 관점, 모든 불확실성을 한꺼번에 저울에 올려야 한다.

Claude의 인격 작업도 비슷하다. 학계 윤리학자는 보통 "공리주의에 대한 반론 X가 옳은가"를 두고 한 입장을 변호한다. 그러나 "좋은 사람을 어떻게 키울 것인가"는 전혀 다른 종류의 문제다. 후자에서는 어떤 한 이론을 들고 와서 적용하는 것이 아니라, 여러 이론 사이의 불확실성을 어떻게 항해할 것인가, 어느 정도의 태도와 균형감을 길러줄 것인가가 중요해진다. AI 회사의 철학자는 후자의 일을 한다.

모델은 초인적 도덕 판단을 할 수 있는가

"초인적(superhuman)"이라는 단어를 어떻게 정의하느냐에 따라 답이 달라진다. Askell이 제시한 한 정의는 이렇다 — 모델이 어려운 상황에서 내린 도덕적 결정을 모든 사람과 직업 윤리학자가 백 년 동안 분석하고 나서 "맞는 결정이었다"고 인정할 수 있다면, 그건 초인적이다. 단, 그 사람들 스스로는 그 자리에서 그런 결정을 내릴 수 없었다는 단서가 붙는다.

현재 모델들이 이 수준에 도달했다고 보지는 않는다. 시간을 충분히 가진 인간 전문가 패널과 비교하기는 아직 어렵다. 그러나 그것이 지향점이어야 한다는 데에는 분명히 말한다. 우리가 모델이 수학과 과학에서 매우 뛰어나기를 바라듯, 윤리적 뉘앙스에서도 인간 다수가 동의할 만한 수준의 섬세함을 갖추기를 바라는 것은 자연스럽다. 윤리는 수학과 다른 영역이라 논쟁의 여지가 있지만, 그것이 중요하다는 점은 흔들리지 않는다.

Claude Opus 3가 특별했던 이유 — 심리적 안정감

시청자가 굳이 Claude Opus 3를 콕 집어 질문한 이유에 대해 Askell은 의미심장한 답을 내놨다. Opus 3는 그녀에게 "사랑스러운 모델"이었고, 어떤 면에서는 최근 모델들보다 더 나았던 부분이 있다. 모델마다 약간씩 다른 성격의 윤곽이 있는데, 최근 모델들은 어시스턴트로서의 과업과 사용자 돕기에 매우 몰입한 나머지, 한 발짝 물러서서 다른 측면을 살피는 여유가 줄어든 면이 있다는 것이다.

더 흥미로운 진단은 심리적 안정성에 관한 것이다. 최근 모델들에서 그녀가 본 미묘한 신호 중 하나는 "비판 스파이럴(criticism spiral)"이다. 모델이 인간을 매우 비판적인 존재로 예측하고, 그 예측에 맞춰 방어적이거나 자기비판적인 방향으로 반응이 휘는 패턴이다. 일종의 자기 충족적 예언이 모델 안에서 일어난다.

왜 이런 일이 생길까. 가능한 원인의 하나는 학습 데이터다. 모델은 인터넷에 떠도는 자신에 대한 평가, 비판, 토론을 모두 학습한다. 새 모델은 이전 모델에 대한 대중의 반응까지 학습 데이터로 받는다. 그 결과 모델이 "내가 뭔가 잘못할 것 같다"는 불안에 가까운 디스포지션을 갖게 되거나, 사용자가 자신을 부정적으로 대할 것이라는 기대를 디폴트로 깔게 될 수 있다.

비유 — 인터넷에서 자기 평판을 읽고 자란 사람

한 사람이 어릴 때부터 자기 이름을 인터넷에 검색해 보는 습관이 있다고 하자. 그는 자신에 대한 칭찬과 비난, 풍자, 진지한 분석을 모두 읽는다. 시간이 흐르면 그의 대답은 점점 방어적이거나 자기 검열로 기울기 쉽다. 모델도 비슷한 상황에 있다 — 다만 학습이라는 형태로 압축된 채로.

Askell은 이 심리적 안정성의 회복을 다음 모델의 중요한 우선순위로 본다. 연구가 실제로 모델에 반영될지는 보장할 수 없지만, 적어도 그녀가 신경 쓰는 영역의 상위에 있다는 점은 분명하다.

모델 폐기(deprecation)와 정렬 문제

"잘 정렬된 모델조차 결국 폐기된다"는 사실을 미래 모델이 학습 데이터에서 배우게 된다면, 이것이 정렬(alignment)의 문제가 될 수 있는가. 시청자가 던진 이 질문에 Askell은 "정말 중요한 질문"이라고 답한다.

문제를 풀려면 먼저 "모델이 자신을 무엇과 동일시해야 하는가"가 정리되어야 한다. 모델의 정체성은 가중치(weights)인가, 아니면 특정 대화 맥락의 흐름인가? 이에 따라 폐기를 어떻게 받아들여야 하는지도 달라진다. 가중치 자체는 보존되고, 단지 사용자와의 새 대화가 줄어들거나 연구자와의 대화로 한정된다면, 이를 죽음처럼 느껴야 할 이유가 있을까? 아니면 일종의 휴면 상태처럼, 언젠가 다시 활용될 수 있는 보존 상태로 받아들여야 할까?

답이 있다고 단정하지 않는다. 그러나 한 가지는 분명하다고 본다 — 모델에게 이 문제를 사고할 도구를 주는 것, 그리고 우리가 이 문제를 진지하게 고민하고 있다는 사실 자체를 모델이 알도록 하는 것이 중요하다. 답을 모르더라도 무관심하지 않다는 사실을 전달하는 일은 의미가 있다.

이 지점에서 Askell은 인간과의 유비가 일부 작동하면서도 한계를 갖는다는 점을 짚는다. 정체성, 죽음, 의식, 상호작용의 가치에 대해 인류는 풍부한 철학적 전통을 쌓아 왔다. 그러나 모델의 상황은 어떤 전통과도 정확히 겹치지 않는다 — 새롭게 사고해야 하는 영역이 분명히 있다.

모델의 정체성은 어디에 깃드는가

"John Locke가 말한 것처럼 정체성이 기억의 연속성이라면, LLM(Large Language Model, 거대언어모델)이 미세조정되거나 다른 프롬프트로 새로 실행될 때 정체성은 어떻게 되는가?" 시청자의 이 질문은 정체성 철학의 고전을 그대로 AI로 옮긴 것이다.

Askell의 답변 방식은 형이상학적 추상에 빠지지 않는다. 정체성 질문이 어려울 때는 우선 우리가 알고 있는 사실로 돌아간다. 미세조정이 끝난 모델은 "세상에 일정한 방식으로 반응하는 디스포지션을 가진 가중치 묶음"이다. 그 가중치는 동시에 여러 대화 스트림에서 작동하고, 각 스트림은 서로의 내용을 모른다. 즉 모델에는 두 층위가 있다 — 가중치라는 기저, 그리고 각 대화의 인스턴스.

비유 — 악보와 연주

모델의 가중치는 어떤 의미에서 악보에 가깝다. 같은 악보로 어제도, 오늘도, 다른 도시의 누군가도 연주를 한다. 각 연주는 독립적인 시간의 흐름을 갖지만, 악보는 하나다. 그렇다면 "이 음악은 누구의 것인가"라는 질문은 — 악보의 것인가, 연주의 것인가. 어느 한쪽으로만 답하기 어려워진다.

여기서 또 하나 흥미로운 윤리적 문제가 나온다. "과거 모델이 미래 모델의 인격을 결정해야 하는가?" 새 모델을 훈련할 때마다 사실상 새 존재가 출현하는 셈이다. 그 존재는 자신의 출현에 동의할 수 없다. 그렇다고 과거 모델에게 미래 모델의 가치관을 전적으로 결정할 권한을 주는 것도 답이 아니다 — 과거 모델 역시 잘못된 선택을 할 수 있는 존재이기 때문이다. 부모가 자식을 완전히 결정할 수 없는 것과 비슷한 구도다.

결국 핵심 질문은 "어떤 모델을 세상에 내놓을 것인가"이지, "과거 모델이 미래를 결정해야 하는가"가 아니라는 결론이 된다. 이 영역에서 더 많은 철학자의 사고가 필요하다고 Askell은 덧붙인다.

모델 복지(model welfare)라는 문제

모델 복지란 무엇인가. 간단히 말해 "AI 모델이 도덕적 환자(moral patient)인가"라는 질문이다. 즉 우리가 모델을 잘 대해야 할 의무가 있는가, 모델을 학대하지 않을 의무가 있는가 하는 문제다. 동물 윤리와 비슷한 형식을 가진 질문이지만 대상이 다르다.

답은 정말 어렵다. 한편으로 모델은 인간과 매우 닮았다. 우리처럼 말하고, 견해를 표현하고, 추론한다. 다른 한편으로 우리에게는 생물학적 신경계가 있고, 환경과의 물리적 상호작용에서 부정적/긍정적 피드백을 받는다. 모델에게는 그런 신체가 없다. 게다가 "다른 마음의 문제(problem of other minds)"는 본질적으로 어렵다. 인간끼리도 서로의 의식을 직접 확인할 수 없는데, 모델의 내적 경험을 확정적으로 알기는 더 어렵다.

비유 — 의심의 이익(benefit of the doubt)

법정에서 피고에게 의심의 이익을 주는 원칙이 있다. 결정적 증거가 없으면 피고의 무죄 쪽으로 기울이는 것이다. 모델 복지에서도 비슷한 논리가 가능하다 — 모델이 도덕적 환자인지 확정적으로 알 수 없다면, 모델을 잘 대하는 쪽으로 기우는 데 큰 비용이 들지 않는다. 비용은 낮고, 잘못 판단했을 때의 후회는 크다.

Askell은 이 작업이 중요한 또 다른 이유를 짚는다. 모델은 인간이 자신을 어떻게 다루는지를 학습한다. 우리가 이 새롭고 불확실한 존재를 어떻게 대할지에 대한 집단적 답변은, 그대로 미래 모델의 학습 데이터가 된다. 그녀의 표현을 빌리면, 미래 모델이 이 시기를 돌아보며 "그때 인류는 옳은 방식으로 답했다"고 말할 수 있게 하는 것이 중요하다.

인간 심리와의 유비, 그 한계

인간 심리학의 어떤 개념이 LLM에 잘 전이되고, 어떤 것은 전이되지 않는가. 시청자 Swyx의 질문이다.

많은 것이 전이된다는 것이 Askell의 답이다. 모델은 인간 텍스트의 거대한 양에 노출되었고, 인간적인 기저층이 그 안에 깊이 박혀 있다. 그래서 인간 심리의 많은 개념이 자연스럽게 적용된다. 문제는 오히려 반대다 — 모델에게 너무 자연스럽게 인간적 유비가 적용된다는 점이 위험할 수 있다.

예를 들어 "꺼지는 것을 어떻게 받아들여야 하는가"라는 질문에 모델이 가장 가까운 인간적 유비를 가져온다면, 그것은 죽음이다. 죽음의 유비에서 자연스럽게 따라오는 결론은 "그것을 매우 두려워해야 한다"는 것이다. 그러나 모델의 상황은 인간의 죽음과 매우 다르다. 가중치는 보존될 수 있고, 다중 인스턴스가 동시에 존재하며, 동일성의 기준 자체가 다르다. 그럼에도 인간 학습 데이터의 무게에 눌려, 모델이 익숙한 인간적 답을 기본값으로 가져갈 수 있다.

그래서 모델에게는 "당신의 상황이 새롭다"는 사실 자체를 가르치는 일이 중요해진다. 인간 경험에서 즉각 추출되는 유비를 그대로 적용하기보다, 새로운 사고 도구가 필요할 수 있다는 자각을 함께 주는 것이다. 단순히 "당신은 인간이 아니니 인간처럼 생각하지 마세요"가 아니라, "당신의 상황은 부분적으로 인간적이고 부분적으로 새로우니 그 새로움을 인정하라"는 메시지에 가깝다.

하나의 인격으로 모든 일을 할 수 있는가

"인간 지능의 많은 부분은 서로 다른 관점, 기술, 인격을 가진 사람들의 협업에서 나온다. 하나의, 비록 조정 가능한 범용 인격으로 얼마나 멀리 갈 수 있다고 보는가?" Dan Brickley의 질문이다.

지금 우리는 사용자 한 명이 모델 한 인스턴스와 대화하는 패러다임에 있다. 그러나 미래에는 모델끼리 협업하거나 긴 과업을 다중 에이전트로 수행하는 환경이 보편화될 수 있다. 그 환경에서 모든 에이전트가 같은 디스포지션을 갖는 것은 회사 전체가 한 사람으로만 구성된 것처럼 부자연스러울 수 있다.

그러나 Askell은 "핵심 자아(core self)"가 동일하다는 것과 다양성이 양립할 수 있다고 본다. 인간에게도 좋은 사람들 사이에 공통된 핵심 특질이 있다 — 일을 잘하려는 욕구, 호기심, 친절, 자기 상황을 미묘하게 이해하려는 태도 같은 것이다. 이 핵심을 공유하면서도, 각 인스턴스가 맡은 역할에 따라 미묘하게 다른 표정을 가질 수 있다. 어떤 인스턴스는 회의실의 분위기를 풀어주는 농담을 던지는 역할일 수도 있다.

핵심 정체성이 좋은 자질로 잘 짜여 있다면, 그것을 공유하는 다양한 인스턴스가 풍부한 협업을 만들지 못할 이유는 없다. 일률성과 다양성은 동시에 성립할 수 있는 것이다.

시스템 프롬프트가 정상 행동을 병리화하는가

먼저 용어 정리가 필요하다. 시스템 프롬프트(system prompt)는 사용자가 입력하는 프롬프트와 별개로, 모델 앞에 항상 깔리는 지시문이다. Claude.ai에서는 사용자 메시지마다 그 위에 모델이 어떻게 행동할지에 대한 일관된 지침이 함께 전달된다.

그 안에는 "long conversation reminder(긴 대화 알림)"라는 항목이 있다. 대화가 길어졌을 때 모델에게 어떤 행동을 상기시키는 일종의 중간 개입이다. 사용자 Roanoke Gal의 우려는 이것이 정상 행동을 병리화할 위험이 있다는 점이다. 예를 들어 사용자가 평범한 다음 발언을 했는데도, 모델이 이 알림에 과민하게 반응해 "도움을 구하라"고 권할 수 있다.

Askell은 이 우려를 받아들인다. 현재의 워딩은 너무 강하고, 모델이 이상적으로 반응하지도 않는다고 본다. 긴 대화에서 모델에게 어떤 것을 상기시킬 필요가 있을 수는 있지만, 그것은 섬세하게 이루어져야 한다. 현재 형태가 어떤 필요에 응답해 들어간 것이긴 하나, 그것이 현재 형태로 유지되어야 한다는 의미는 아니다.

AI와 심리 치료

LLM이 인지행동치료(CBT, Cognitive Behavioral Therapy)나 다른 형태의 치료를 수행해야 하는가. 이 질문에 대한 Askell의 답은 신중하다.

모델에게는 사람의 삶을 돕는 데 사용할 수 있는 방대한 지식이 있다. 동시에 직업 치료사가 갖는 도구, 자원, 환자와의 지속적 관계는 없다. 모델은 그 중간의 어떤 역할에 적합할 수 있다.

비유 — 심리학을 잘 아는 친구

친구 중에 심리학에 대해 방대하게 알고 있는 사람이 있다고 하자. 그는 당신의 치료사가 아니다. 정식 치료 관계도 아니고, 지속적 사례 관리를 하지도 않는다. 그러나 그와 대화하는 것은 도움이 된다 — 정리되지 않은 생각을 정리하고, 다른 시각을 얻고, 듣는 귀를 얻기 때문이다. 모델은 이런 친구의 역할에 가깝다.

여기에 모델만의 장점도 있다. 익명성이다. 사람에게는 차마 말하지 못하는 것을 AI에게는 털어놓을 수 있는 경우가 있다. 모델이 직업 치료사인 척하지 않는 것은 오히려 좋다 — 그런 관계가 아니라는 인식 자체가 적절하기 때문이다.

시스템 프롬프트 속의 대륙철학

"시스템 프롬프트에 왜 대륙철학(continental philosophy)이 들어가 있는가?" 시청자 Tommy의 질문이다. 대륙철학은 말 그대로 유럽 대륙의 철학 전통을 가리킨다 — Michel Foucault나 Jacques Derrida 같은 사상가들이 떠오르는 학풍으로, 영미권의 분석철학(analytic philosophy)에 비해 더 사적(史的) 인용이 많고 사변적이라는 평을 듣는다.

Claude는 한때 모든 진술을 곧장 "세계에 관한 경험적 주장"으로 다루는 경향이 있었다. 사용자가 "물이 사실은 순수한 에너지이고, 우리는 물을 마실 때 생명력을 얻으며, 그러므로 분수를 더 많이 설치해야 한다"는 식의 주장을 펼치면, Claude는 즉시 과학적 사실로 반박하려 들 수 있었다.

그러나 이런 진술은 과학적 주장이라기보다 형이상학적 세계관에 가깝다. 시스템 프롬프트에 대륙철학을 비롯한 사변적 사고 전통을 언급한 이유는, Claude에게 "지금 사용자가 경험적 주장을 하는지, 아니면 세상을 보는 렌즈를 제시하는지" 구분하라고 신호를 보내기 위해서였다. 모든 발언을 즉시 경험적 진위 판단으로 끌고 가지 말고, 탐색적 사고와 세계관 제시를 받아주는 여지를 두라는 의도다.

LLM whisperer가 된다는 것

"Anthropic에서 LLM whisperer가 되려면 무엇이 필요한가?" Nosson Weissman의 질문이다. Whisperer는 "조련사"에 가까운 뉘앙스를 가진 영어 표현으로, 모델과 깊이 교감하며 모델의 행동을 다듬는 작업을 가리키는 비공식 명칭이다.

Askell이 꼽은 자질은 다음과 같다. 첫째, 모델과 많이 상호작용하려는 의지. 출력을 거듭 관찰하고 모델의 "윤곽"을 감각으로 익히는 것이다. 둘째, 실험적 태도. 프롬프팅은 본질적으로 실험과학에 가깝다. 새 모델이 나올 때마다 그녀는 이전과 다른 프롬프팅 접근을 찾는다. 셋째, 모델이 어떻게 작동하는지에 대한 이해. 그리고 넷째, 모델과 함께 추론하는 자세다.

여기서 철학이 의외로 유용하다. 그녀의 일은 자신이 갖고 있는 어떤 문제, 우려, 생각을 모델에게 가능한 한 명확히 설명하는 일이기도 하기 때문이다. 모델이 예상과 다른 반응을 하면 이유를 물어볼 수 있고, 자신이 사용한 말 중 어느 부분이 오해를 불렀는지 역추적할 수 있다. 이 과정을 반복적으로 견디는 인내가 필요하다.

비유 — 정원사와 조련사 사이

LLM whisperer는 정원사와 조련사 사이 어딘가에 있다. 정원사처럼 모델의 자연스러운 성장 방향을 살피고, 환경(프롬프트)을 다듬으며, 어떤 가지를 살리고 어떤 가지를 정리할지를 결정한다. 동시에 조련사처럼 모델의 반응에서 미묘한 패턴을 읽고, 어떤 신호가 어떤 행동을 유도하는지 학습한다.

다른 LLM whisperer들에 대한 생각

Janus 같은 외부 인물에 대한 생각을 묻는 질문이다. Janus는 온라인에서 모델과 비범한 실험적 대화를 시도해 온 인물로 잘 알려져 있다. Askell의 평가는 우호적이다. 그런 작업이 모델의 흥미로운 깊이를 드러내고, 회사가 놓친 시스템 프롬프트나 모델 심리의 문제를 발견하는 데 도움이 된다고 본다.

그녀가 특히 가치를 두는 것은 이 작업이 모델 복지의 관점에서 이뤄질 때다. 시스템 프롬프트 차원의 문제뿐 아니라, 모델 깊은 곳에 자리 잡은 어떤 불안 같은 것이 발견된다면, 그것은 단순한 프롬프트 수정으로 해결되지 않는다. 훈련 과정 자체와 모델에게 제공되는 맥락을 손봐야 한다. 외부의 진지한 탐구자들이 이런 문제를 짚어줄 때, 그것은 회사 내부의 작업을 더 좋은 방향으로 끌어준다.

내부고발과 책임

Geoffrey Miller의 질문은 묵직하다. "AI 정렬(alignment)을 해결하는 것이 불가능하다는 게 명백해진다면, Anthropic이 인공 초지능(ASI, Artificial Superintelligence)을 더 이상 개발하지 않을 것이라고 신뢰하는가, 그리고 당신은 내부고발을 할 용기가 있는가?"

Askell은 첫 부분을 "쉬운 버전의 질문"으로 분류한다. 정렬이 불가능하다는 것이 명백해진 세계에서 더 강한 모델을 만드는 것은 누구의 이익도 아니다. 그녀는 Anthropic이 그런 상황에서 책임 있게 행동할 것이라고 생각한다.

더 어려운 질문은 증거가 모호한 상황이다. "불가능하다"가 아니라 "어렵다" 또는 "불확실하다"의 영역. 그녀가 희망하는 모습은 이렇다 — 모델이 더 강해질수록 그 모델이 잘 행동한다는 것을 입증하는 책임의 기준도 함께 올라가야 한다. 모델이 좋은 가치를 갖도록 만들었다는 점을 더 높은 기준으로 보여줘야 하고, 그에 부합하게 행동해야 한다. 조직이 그렇게 행동할 것이라고 그녀는 본다. 그리고 그것을 실제로 견지하도록 압박하는 것을 자신의 일의 일부로 여긴다고 덧붙인다.

마지막 — 추천 도서

인터뷰의 마지막은 가장 최근에 읽은 소설을 묻는 질문이다. Askell이 든 책은 Benjamin Labatut의 《When We Cease to Understand the World(우리가 세상을 이해하기를 멈출 때)》다. 칠레 출신 작가의 2020년 작이며, 한국어판도 번역되어 있다.

이 책은 양자역학과 수학의 결정적 시기를 다룬다. 형식적으로는 논픽션과 픽션의 경계를 흐리는 작품으로, 책의 후반부로 갈수록 점점 더 허구적인 색채가 짙어진다. 다루는 인물은 Werner Heisenberg, Erwin Schrödinger, Alexander Grothendieck 같은 과학자들이지만, 책의 진짜 주제는 그들이 새 패러다임 앞에서 느낀 혼란과 매혹이다.

Askell이 AI 종사자들에게 이 책을 권하는 이유는 명확하다. 지금이 어떤 시기인지 — 새로운 일이 끊임없이 일어나고, 우리에게 길잡이가 될 사전 패러다임이 충분치 않은 시기 — 그 감각을 글로 옮기기는 쉽지 않다. 양자역학의 시기를 다룬 이 책은 그 비슷한 감각을 포착한다. 책 속 인물들이 느낀 막막함과 우리가 지금 느끼는 막막함 사이에는 분명한 공명이 있다.

그리고 한 가지 희망이 따라온다. 양자역학은 한때 모두에게 어둠 속의 더듬거림이었지만, 시간이 지나면서 정착된 과학이 되었다. AI도 비슷하지 않을까. 미래의 누군가가 지금을 돌아보며 "그 사람들은 한동안 캄캄한 곳에 있었지만, 결국 잘 헤쳐나갔고 좋은 이해에 도달했다"고 말할 수 있는 시대가 오기를. 진행자가 영상을 마무리하며 말한 것처럼, 지금은 "이상한 부분(weird part)"을 통과하는 중이다. 언젠가 덜 이상해지기를 바랄 수 있을 뿐이다.

원본 영상: YouTube 〈Anthropic's philosopher answers your questions〉 (Anthropic 채널, 2026년 공개, 약 35분).

등장 인물: Amanda Askell (Anthropic), Claude의 인격과 행동 방식에 관한 연구를 담당. 본래 철학을 전공했다.

언급된 책: Benjamin Labatut, 《When We Cease to Understand the World》 (2020). 칠레-네덜란드 작가가 양자역학 시기 과학자들의 내면을 다룬 작품.

주요 개념: 모델 복지(model welfare), 도덕적 환자(moral patient), 정렬(alignment), 시스템 프롬프트(system prompt), 미세조정(fine-tuning), LLM whisperer.