베테랑일수록 AI 에이전트 앞에서 헤매는 까닭

요즘 프로그래머들 사이에서 묘한 현상이 관찰된다. 인공지능(AI) 에이전트를 만드는 일에서는 경력 많은 베테랑보다 신참이 더 빨리 쓸 만한 결과를 내놓는 경우가 잦다는 것이다. 구글 딥마인드의 개발자 담당 엔지니어 필립 슈미트가 최근 발표에서 짚은 역설이다. 에이전트란 묻는 말에 답만 하는 챗봇과 달리, 목표를 던져 주면 스스로 여러 단계를 밟아 일을 처리하는 프로그램을 말한다.

이유는 이 물건의 성격에 있다. 우리에게 익숙한 보통의 소프트웨어는 결정론적이다. 같은 버튼을 누르면 늘 같은 결과가 나온다. 어긋나면 그것은 고쳐야 할 오류다. 반면 사람의 말을 이해하는 거대한 언어 모델을 두뇌로 삼은 AI 에이전트는 확률적이다. 같은 지시를 줘도 매번 조금씩 다른 길을 밟고, 다른 답을 내놓을 수 있다.

슈미트는 이 차이를 운전에 빗댄다. 예전 소프트웨어를 만들 때 개발자는 교통 관제원이었다. 신호등과 도로와 속도를 직접 통제하며 차가 어디로 어떻게 갈지 일일이 정했다. AI 에이전트를 다룰 때는 배차원에 가깝다. “이 손님을 강남역까지 모셔다 드리세요”라고 일러줄 뿐, 어느 길로 갈지는 운전자가 그때그때 판단한다. 막히면 돌아가고, 가끔 엉뚱한 길로 빠지기도 한다. 인공지능 코딩 도구가 중간에 이상한 짓을 하다가도 결국 일을 해내는 경험이 여기서 나온다.

차이는 사람의 말을 다루는 데서도 드러난다. 예전 프로그램은 “이 계획을 승인하시겠습니까? 예 / 아니오”처럼 정해진 칸으로만 물었다. 하지만 실제 사람은 “좋은데, 이 부분만 바꿔 주세요”라고 말한다. 그 미묘한 요청을 두 칸에 욱여넣으면 정작 중요한 단서가 사라진다. AI 에이전트는 그 말을 통째로 알아듣고 행동에 반영한다.

문제는 베테랑일수록 이 운전자를 못 믿는다는 데 있다. 좋은 프로그래밍이란 모호함을 없애는 일이라고 수십 년간 훈련받은 탓이다. 그들은 확률적 성질을 코드로 억누르려 들고, 모든 경우의 수를 미리 정해 두려 하며, 그럴수록 에이전트는 뻣뻣해진다. 다루는 방식도 바뀐다. 보통 프로그램은 오류가 나면 즉시 멈추게 만든다. 그래야 문제를 찾기 쉽기 때문이다. 그러나 한 번 작동에 몇 분씩 걸리는 에이전트를 오류가 날 때마다 처음부터 다시 돌릴 수는 없다. 그래서 오류를 멈춤 신호가 아니라 새 정보로 취급해 그 자리에서 우회로를 찾게 한다. 점검 방식도 “한 번 돌려서 맞았나”가 아니라 “열 번 돌려서 몇 번 맞나”로 바뀐다. 정답이 하나가 아닌 일에서는 완벽함 대신 충분히 높은 성공률이 기준이 된다. 슈미트는 50번 돌려 45번쯤 성공하고 품질이 충분하면 실전에 내보낼 만하다고 본다.

에이전트는 앞으로도 예상치 못한 방식으로 자주 실패할 것이다. 그래서 업계의 무게중심은 오류를 코드로 틀어막는 데서, 오류를 견디고 복구하는 시스템을 만드는 쪽으로 옮겨가고 있다. 슈미트의 결론은 단순하다. 베테랑이 머뭇거리는 것은 실력이 부족해서가 아니다. 너무 잘 단련된 본능이, 규칙이 바뀐 새 게임에서는 잠시 내려놓아야 할 짐이기 때문이다.