소프트웨어 3.0, 검증가능성, 그리고 동물이 아닌 유령으로서의 인공지능 — 안드레이 카파시가 세콰이어 AI Ascent 2026에서 풀어놓은 30분.
안드레이 카파시는 인공지능을 만든 사람이자, 그것을 가장 알기 쉽게 설명해 온 사람 중 하나다. 오픈AI(OpenAI)를 공동 창업했고, 테슬라에서 자율주행 보조 시스템 오토파일럿(Autopilot)의 비전 팀을 이끌어 실제로 작동하게 만들었으며, 지금은 교육 스타트업 유레카 랩스(Eureka Labs)를 운영한다. 그는 시대에 이름을 붙이는 버릇도 있다. 1년쯤 전 “바이브 코딩(vibe coding)”이라는 말을 만든 사람이 바로 그다.
그런 그가 세콰이어 캐피털(Sequoia Capital)의 연례 행사 AI Ascent 2026 무대에서 진행자 스테파니 잔에게 이렇게 털어놓았다. “프로그래머로서 이렇게까지 뒤처졌다고 느낀 적이 없다.” 겸손한 농담이 아니다. 이 30분 대담은 그 한 문장이 무슨 뜻인지를 풀어 가는 과정이며, 동시에 지금 코딩과 정보 처리 전체에서 무슨 일이 벌어지고 있는지에 대한 지도다. 아래는 그 내용을 주제별로 정리한 것이다.
카파시는 1년 가까이 코딩 에이전트를 써 왔다고 말한다. 클로드 코드(Claude Code), 코덱스(Codex) 같은 도구들이다. 처음에는 코드 덩어리를 곧잘 만들어 주긴 했지만 종종 실수를 했고, 그때마다 사람이 손을 봐야 했다. 도움은 됐지만 “맡긴다”고 할 정도는 아니었다.
전환점은 2025년 12월이었다. 휴가 기간이라 시간 여유가 생긴 그는 최신 모델들이 만들어 내는 코드 덩어리가 그냥 ‘제대로’ 나온다는 사실을 알아차렸다. 더 요청해도 멀쩡하게 나왔다. 마지막으로 직접 수정한 게 언제였는지 기억나지 않을 만큼, 시스템을 점점 더 믿게 됐다. 그는 이 변화를 점진적 개선이 아니라 뚜렷한 단절로 표현한다.
많은 사람이 작년에 인공지능을 챗봇 비슷한 것으로 경험했다. 하지만 12월쯤 다시 들여다봐야 한다. 무언가 근본적으로 달라졌고, 특히 에이전트가 일관된 작업 흐름을 끝까지 끌고 가는 부분이 진짜로 작동하기 시작했다. — 안드레이 카파시 (대담 중, 요약)
여기서 핵심은 ‘조금 더 똑똑해졌다’가 아니라, 사람이 개입하는 빈도가 질적으로 달라졌다는 점이다. 가장 앞선 자리에 있는 사람이 뒤처졌다고 느낀 이유는, 도구가 빨리 좋아져서가 아니라 일하는 방식 자체가 바뀌었기 때문이다.
카파시는 소프트웨어의 진화를 세 단계로 나눈다. 이 구분은 이번 대담 전체를 떠받치는 뼈대다.
소프트웨어 1.0은 사람이 직접 코드를 쓰는 방식이다. 규칙을 한 줄씩 명시적으로 적는다. 소프트웨어 2.0은 코드를 쓰는 대신 데이터셋을 모으고 목표와 신경망 구조를 정해 학습시키는 방식이다. 프로그래밍이 ‘데이터를 배열하는 일’로 바뀐다. 그리고 소프트웨어 3.0에서는, 인터넷의 방대한 작업을 학습한 거대언어모델(LLM, Large Language Model)이 그 자체로 ‘프로그래밍할 수 있는 컴퓨터’가 된다. 이제 프로그래밍은 프롬프트가 되고, 맥락 창(context window)에 무엇을 넣느냐가 그 컴퓨터를 조종하는 손잡이가 된다.
1.0은 직접 요리하는 것이다. 모든 재료 손질과 불 조절을 손으로 한다.
2.0은 수많은 요리 사례를 보여 주고 솜씨를 익히게 하는 것이다. 레시피를 일일이 적는 대신, 잘된 결과와 못된 결과를 잔뜩 보여 줘서 감각을 갖춘 요리사를 길러 낸다.
3.0은 그 요리사에게 말로 주문하는 것이다. “담백한 국물에 면은 좀 덜 익혀서” 한마디면 된다. 불 세기나 칼질 순서를 지정할 필요가 없다. 요리사가 알아서 판단하고, 막히면 스스로 수습한다. 우리가 건네는 ‘말’이 곧 프로그램이다.
카파시가 거듭 강조하는 지점이 있다. 사람들이 인공지능을 ‘기존에 하던 일을 빠르게 해 주는 도구’로만 본다는 것이다. 그는 그게 옛 사고방식의 잔재라고 말한다. 진짜 변화는 전에는 아예 불가능하던 일이 가능해진 데 있다. 그는 세 가지 예를 든다.
오픈클로(OpenClaw) 같은 자체 호스팅 에이전트 도구를 설치한다고 해 보자. 원래라면 다양한 운영체제와 환경을 모두 감당하느라 셸 스크립트(shell script)가 한없이 복잡해진다. 1.0의 세계에서는 그 복잡함을 사람이 떠안는다. 그런데 3.0 방식에서는 설치 안내가 ‘에이전트에게 복사해 붙여넣을 한 덩어리의 텍스트’다. 에이전트가 내 환경을 들여다보고, 알아서 판단하고, 막히면 그 자리에서 디버깅한다. 모든 세부 사항을 정확히 적어 둘 필요가 없어진다.
카파시는 ‘메뉴젠(menugen)’이라는 앱을 만들었다. 사진 없는 식당 메뉴를 찍으면, 글자를 읽어 내고 이미지 생성기를 돌려 각 메뉴가 어떻게 생겼는지 그림으로 보여 주는 앱이다. 그는 이걸 바이브 코딩으로 뚝딱 만들어 클라우드에 띄웠다.
그런데 더 단순한 3.0 버전을 보고 충격을 받았다고 한다. 메뉴 사진을 구글 제미나이(Google Gemini)에 그냥 건네고, 이미지 편집 모델 나노 바나나(Nano Banana)로 메뉴 위에 음식 그림을 얹어 달라고 하면 끝이었다. 결과물은 그가 찍은 바로 그 메뉴판 사진에 음식 이미지가 자연스럽게 그려진 한 장이었다. 그가 공들여 만든 앱은, 알고 보니 옛 패러다임 안에서만 의미 있는 군더더기였던 것이다.
세 번째가 가장 멀리 간다. 카파시의 ‘LLM 지식 베이스(knowledge base)’ 프로젝트는 거대언어모델로 자신만의 위키(wiki)를 만드는 작업이다. 흩어진 문서들을 받아 다른 방식으로 ‘재컴파일’하고 재배열해, 원본에는 없던 새로운 결과물로 엮어 낸다. 이건 코드가 아니다. 예전에는 사실들로부터 지식 베이스를 만들어 주는 프로그램 자체가 존재하지 않았다. 자동화의 대상이 코드를 넘어 정보 처리 전반으로 넓어진 것이다.
사람들은 기존 패러다임 안에서 ‘이게 더 빨라졌다’고만 생각하지 말고, 전에 없던 새로운 것이 지금 가능해졌다고 다시 틀을 잡아야 한다. — 안드레이 카파시 (대담 중, 요약)
카파시는 인공지능 능력이 왜 이렇게 ‘들쭉날쭉(jagged)’한지를 한동안 글로 파고들었다. 그가 찾은 열쇳말은 검증가능성(verifiability)이다.
최전선 연구소들은 거대언어모델을 거대한 강화학습(RL, Reinforcement Learning) 환경에서 훈련시킨다. 강화학습은 ‘정답인지 아닌지 채점할 수 있는 보상’을 필요로 한다. 그래서 채점이 명확한 영역 — 수학, 코드, 그 언저리 — 에서 능력이 가파르게 솟구치고, 채점이 어려운 영역에서는 어설프게 남는다. 게다가 어떤 능력이 좋아지느냐는 연구소가 무엇을 데이터에 넣기로 했느냐에도 달려 있다.
학교에 두 종류의 과목이 있다고 하자. 수학은 답이 맞았는지 1초면 채점된다. 학생은 채점 결과를 보며 끝없이 연습하고, 실력이 빠르게 는다.
반면 ‘인생을 잘 사는 법’ 같은 과목은 채점 기준이 모호하다. 연습은 해도 무엇이 맞는지 또렷한 신호가 없으니 좀처럼 늘지 않는다.
인공지능도 똑같다. 채점 가능한 과목(수학·코드)에서는 비정상적으로 뛰어나고, 채점이 흐릿한 과목에서는 엉성하다. 능력이 ‘들쭉날쭉’한 까닭이다.
카파시가 든 사례가 인상적이다. 한때는 “스트로베리(strawberry)에 r이 몇 개냐”를 모델이 틀리는 게 대표적 약점이었다(지금은 대개 고쳐졌다). 그가 내놓은 새 사례는 이렇다. 차를 세차하러 가는데 세차장이 50미터 거리다. 차를 몰고 갈까, 걸어갈까 물으면, 최신 모델조차 “가까우니 걸어가라”고 답한다. 정작 세차할 차는 어떻게 하느냐는 빠진 답이다.
같은 모델이 10만 줄짜리 코드를 통째로 리팩터링하거나 보안 취약점을 찾아내면서, 동시에 세차장 질문에는 헛다리를 짚는다. 이 모순이 들쭉날쭉함의 증거다. 카파시는 이로부터 실용적 결론을 끌어낸다. 능력이 들쭉날쭉한 한, 사람은 어느 정도 ‘고리 안에(in the loop)’ 남아 모델을 도구로 다뤄야 하고, 그것이 지금 무엇을 하고 있는지 계속 지켜봐야 한다는 것이다.
한 가지 일화가 이 구조를 잘 보여 준다. GPT-3.5에서 GPT-4로 넘어갈 때 체스 실력이 크게 늘었다. 많은 사람은 그저 전반적 능력 향상이라 여겼지만, 실제로는 사전학습 데이터에 체스 기보가 대량으로 들어갔기 때문이었다고 한다. 누군가 그 데이터를 넣기로 결정했고, 그래서 그 능력만 유독 솟았다. 우리는 연구소가 무엇을 데이터에 섞었는지에 어느 정도 휘둘리는 처지이며, 설명서 없는 능력을 직접 더듬어 가며 “내가 지금 강화학습이 닿은 영역에 있는지”를 가늠해야 한다.
작년에 ‘바이브 코딩’을 만든 사람이, 올해는 그 위에 ‘에이전틱 엔지니어링(agentic engineering)’이라는 더 진지한 규율이 자리 잡고 있다고 말한다. 둘의 차이를 그는 ‘바닥’과 ‘천장’으로 설명한다.
바이브 코딩은 진입 장벽을 낮춘다. 누구나 무언가를 만들 수 있게 된다. 반면 에이전틱 엔지니어링은 전문 소프트웨어가 지키던 품질 기준을 그대로 유지하는 일이다. 바이브 코딩을 했다는 이유로 보안 취약점을 끼워 넣어도 되는 건 아니다. 결과물에 대한 책임은 예전과 똑같이 진다. 다만 더 빨리 갈 수 있다. 카파시는 이를 하나의 공학 규율로 본다. 들쭉날쭉하고 확률적이지만 강력한 에이전트들을, 품질을 희생하지 않으면서 어떻게 조율해 더 빨리 가게 만들 것인가의 문제다.
그는 ‘10배 엔지니어’라는 옛 표현으로는 부족하다고 말한다. 이걸 정말 잘하는 사람의 생산성은 10배를 훨씬 넘어선다는 게 그의 관찰이다.
그렇다면 ‘에이전트 네이티브’한 사람은 보통 사람과 무엇이 다를까. 카파시의 답은 단순하다. 주어진 도구에서 최대한을 뽑아내고, 자기 작업 환경에 투자한다는 것이다. 예전에 엔지니어들이 자기 편집기 설정에 공들였듯, 이제는 코딩 에이전트의 기능을 깊이 익히고 자기 설정을 가다듬는다.
그는 채용 방식이 아직 시대를 못 따라간다고 지적한다. 짧은 퍼즐을 풀게 하는 면접은 옛 패러다임이다. 새 방식은 큰 프로젝트를 통째로 던지고 구현하게 하는 것이다. 그가 든 예시는 이렇다. ‘에이전트들을 위한 트위터 클론’을 만들어 보라. 아주 잘, 그리고 아주 안전하게 만들어라. 그런 다음 여러 에이전트로 활동을 흉내 내게 하고, 또 다른 코딩 에이전트들을 동원해 그 서비스를 깨뜨리려 시도한다. 그래도 뚫리지 않아야 한다. 큰 프로젝트를 짓고 도구를 능숙하게 부리는 모습을 보는 것 — 그게 새 시대의 면접이다.
에이전트가 더 많은 일을 할수록, 어떤 인간의 능력이 더 귀해질까. 카파시는 지금의 에이전트를 ‘인턴’ 같은 존재로 본다. 기억력은 뛰어나지만 판단은 미덥지 않은 인턴이다. 그래서 사람은 미감, 판단, 취향, 그리고 약간의 감독을 책임진다.
그가 든 일화가 구체적이다. 메뉴젠에서 사용자는 구글 계정으로 가입하고 결제는 별도 결제 서비스로 한다. 두 곳 모두 이메일 주소가 있다. 그런데 에이전트가 결제 쪽 이메일과 구글 쪽 이메일을 ‘같은 사람’으로 묶어 버렸다. 두 서비스의 이메일은 서로 다를 수 있는데도 말이다. 사람이라면 “이메일로 사용자를 식별하면 안 되고, 변치 않는 고유 사용자 ID(user ID)로 묶어야 한다”는 걸 안다. 이런 설계 판단은 여전히 사람의 몫이다.
딥러닝에서 텐서(tensor·다차원 배열)를 다룰 때, 함수 이름이 reshape인지 permute인지, 인자 이름이 dim인지 axis인지 같은 세부는 카파시도 더 이상 외우지 않는다고 한다. 기억력 좋은 인턴이 처리할 일이기 때문이다.
대신 그는 “같은 메모리를 가리키는 뷰(view)를 조작하는지, 아니면 메모리를 통째로 복사하는지” 같은 근본 원리는 알고 있어야 한다고 말한다. 사소한 사용법은 인턴에게 넘기되, 무엇이 효율적이고 무엇이 옳은 설계인지에 대한 감각은 사람이 쥐고 있어야 한다는 뜻이다.
다만 카파시는 이 ‘취향’의 가치가 영원하리라 단정하지 않는다. 모델이 만든 코드를 들여다보면 가끔 가슴이 철렁한다고 한다. 비대하고, 복붙투성이에, 어색하고 부서지기 쉬운 추상화로 가득하다. 작동은 하지만 보기 흉하다. 미감이 강화학습의 보상에 들어가 있지 않으니 아직 거기까진 안 닿은 것이다. 그는 미래 모델이 이걸 개선할 수 있으리라 본다. 막는 본질적 장벽은 없고, 다만 연구소가 아직 손대지 않았을 뿐이라는 것이다.
카파시는 거대언어모델의 정체를 두고 ‘동물 대 유령(animals versus ghosts)’이라는 틀을 제시한다. 우리는 동물 같은 지능을 ‘기르는’ 게 아니라, 유령 같은 지능을 ‘불러내는(summon)’ 중이라는 비유다.
동물의 지능은 진화를 통해 만들어졌다. 내재된 동기, 재미, 호기심, 두려움 같은 것이 박혀 있다. 반면 거대언어모델은 데이터와 보상 함수가 빚어낸 들쭉날쭉하고 통계적인 존재다. 사전학습이라는 바탕(통계) 위에 강화학습이 덧붙으며 능력의 ‘부속지(appendage)’가 자라난 형태다.
강아지에게 화를 내면 풀이 죽고, 칭찬하면 더 잘하려 한다. 내재된 감정이 있기 때문이다. 인공지능은 그렇지 않다. 모델에게 소리를 질러도 더 잘하지도, 더 못하지도 않는다. 감정이 있는 동물이 아니라, 통계적 패턴을 흉내 내는 회로의 집합이기 때문이다.
그래서 이 ‘유령’을 대할 때는 길들이려 하기보다, 어떤 입력에서 잘 작동하고 어떤 입력에서 무너지는지를 의심하며 더듬어 가는 태도가 맞다. 카파시 본인도 “정답 다섯 가지”가 있는 건 아니라고 솔직히 인정한다.
이 틀이 당장 강력한 실용성을 갖는 건 아니라고 그는 덧붙인다. 약간의 철학에 가깝다. 다만 이 존재가 무엇이고 무엇이 아닌지에 대한 좋은 모형을 가질수록, 그것을 더 능숙하게 다룰 수 있다는 게 핵심이다.
에이전트가 권한을 갖고, 환경을 인식하고, 사용자를 대신해 실제로 행동하는 세계는 어떤 모습일까. 카파시의 불만 섞인 진단은 이렇다. 지금의 거의 모든 것이 ‘사람을 위해’ 쓰여 있다는 것이다. 라이브러리 문서도 사람이 읽으라고 쓰여 있다. 그는 “나에게 뭘 하라고 시키지 말고, 내 에이전트에게 복사해 붙여넣을 텍스트가 무엇인지 알려 달라”고 농담처럼 말한다.
그가 그리는 방향은 ‘에이전트 네이티브(agent native)’ 인프라다. 세계를 에이전트가 다루기 좋은 감지기(sensor)와 작동기(actuator)의 구조로 분해하고, 데이터 구조를 거대언어모델이 읽기 쉬운 형태로 다시 짜는 것이다. 메뉴젠을 만들 때 정작 힘들었던 건 코드가 아니라 배포였다고 그는 회고한다. 여러 서비스를 엮고, 설정 메뉴를 뒤지고, 도메인 설정을 만지는 일이 지겨웠다는 것이다. 이상적으로는 “메뉴젠을 만들어 배포해 줘”라는 한 마디면, 사람이 아무것도 건드리지 않아도 인터넷에 올라가야 한다. 그 정도가 되면 인프라가 에이전트 네이티브해졌다고 볼 수 있다.
그 끝에는 사람과 조직마다 ‘대리 에이전트(agent representation)’를 두는 세계가 있다. “내 에이전트가 당신 에이전트와 회의 일정을 잡는” 식이다.
대담은 교육 이야기로 끝난다. 카파시는 최근 본 한 문장이 며칠에 한 번씩 떠오른다고 했다.
사고는 외주화할 수 있어도, 이해는 외주화할 수 없다. — 카파시가 인용한 문장 (대담 중)
그는 자신이 시스템의 일부로 남아 있고, 정보는 여전히 자기 머릿속으로 들어와야 한다고 말한다. 무엇을 만들려는지, 왜 그것이 할 만한 일인지, 에이전트를 어디로 이끌지를 아는 일에서 자신이 ‘병목’이 되어 가는 느낌을 받는다는 것이다. 좋은 지휘자가 되려면 결국 이해가 필요하고, 거대언어모델은 그 ‘이해’에는 아직 뛰어나지 않다. 그래서 이해는 유독 사람의 몫으로 남는다.
그가 LLM 지식 베이스에 열광하는 이유도 여기 있다. 같은 정보를 다른 각도로 ‘투영’해 볼 때마다 통찰을 얻는다고 느끼기 때문이다. 글을 읽으면 그 내용으로 자기 위키를 쌓고, 거기에 질문을 던진다. 이런 도구는 결국 이해를 키우기 위한 수단이며, 그 이해가 여전히 병목이다. 이해 없이는 좋은 지휘자가 될 수 없다.
인공지능이 실행을 압도하는 시대에 인간의 자리는 ‘실행의 위쪽’으로 옮겨 간다. 다음 10년의 진짜 병목은 연산력이 아니라, 나보다 빠르게 실행하는 시스템을 계속 올바른 방향으로 이끌 수 있을 만큼 사람이 이해를 깊게 만드는 속도다.
30분 대담을 한 줄로 압축하면, 변화의 본질은 ‘도구가 빨라진 것’이 아니라 ‘일의 층위가 옮겨간 것’이다. 코드를 짜던 손은 의도를 설계하고 방향을 정하는 자리로 올라갔고, 세부의 채워 넣기는 들쭉날쭉하지만 강력한 유령들에게 넘어갔다. 카파시가 “가장 뒤처졌다”고 느낀 건 능력이 모자라서가 아니라, 자신이 서 있던 층위가 통째로 한 칸 올라갔기 때문이다. 그리고 그 새 층위에서 가장 오래 사람의 것으로 남는 능력은, 끝까지 외주화되지 않는 ‘이해’다.