jacobhan.me

프롬프트에서 하네스로: AI를 잘 쓰는 법은 어떻게 진화하는가

같은 인공지능 모델을 써도 누군가는 평범한 결과를, 누군가는 완성도 높은 결과를 얻는다. 그 차이는 점점 '모델 자체'가 아니라 '모델을 둘러싼 구조'에서 갈리고 있다. 활용 방식의 진화를 세 단계로 정리하고, 똑같은 변화가 반도체 하드웨어에서도 일어나고 있음을 함께 살펴본다.

2026년 5월 · AI 활용 패러다임 정리

최근 인공지능(AI, Artificial Intelligence)을 다루는 사람들 사이에서 용어가 빠르게 바뀌고 있다. 한동안 모두가 '프롬프트 엔지니어링'을 이야기했고, 이어 '컨텍스트 엔지니어링'이라는 말이 자리를 잡았다. 그리고 지금은 '하네스 엔지니어링(harness engineering)'이라는 표현이 새롭게 떠오르고 있다. 이름만 바꾼 유행어로 보일 수도 있으나, 이 변화에는 일관된 줄기가 있다. 모델 자체를 더 똑똑하게 만드는 데 쏠려 있던 관심이, 그 모델을 어떻게 운영하느냐 쪽으로 옮겨가고 있다는 것이다.

흥미로운 점은 이 변화가 소프트웨어에만 머무르지 않는다는 데 있다. 인공지능을 쓰는 방식이 단계적으로 분화하자, 그것을 떠받치는 반도체 하드웨어도 같은 방향으로 역할을 쪼개며 따라가고 있다. 소프트웨어의 흐름과 하드웨어의 흐름을 나란히 놓고 보면, 지금 인공지능 산업 전체가 어디로 향하고 있는지가 한결 또렷하게 보인다.

AI 활용 방식의 진화: 프롬프트에서 하네스까지 프롬프트 엔지니어링, 컨텍스트 엔지니어링, 하네스 엔지니어링 세 단계의 변화 같은 모델, 다른 결과 — AI 활용 방식의 세 단계 모델 성능보다 '모델을 둘러싼 구조'가 결과를 가른다 STEP 1 프롬프트 엔지니어링 "좋은 지시문을 쓴다" 한 번의 문장으로 원하는 답을 끌어낸다 지시문 모델 STEP 2 컨텍스트 엔지니어링 "모델이 보는 맥락을 짠다" 필요한 정보만 골라 제한된 창에 채운다 프롬프트 도구 기록·문서 컨텍스트 창 모델 STEP 3 하네스 엔지니어링 "모델 바깥 구조를 설계한다" 역할 나눈 에이전트들이 서로 검토하며 반복한다 플래너 생성자 평가자
그림 1. AI 활용 방식의 세 단계. 단계가 올라갈수록 사람이 다루는 대상이 '문장'에서 '맥락'으로, 다시 '구조 전체'로 확장된다.

1단계프롬프트 엔지니어링 — 좋은 지시문 쓰기

가장 먼저 등장한 것은 프롬프트(prompt, 지시문) 엔지니어링이다. 인공지능에게 말을 거는 기술이라고 보면 된다. "너는 지금부터 전문가야, 이런 말투로 나를 상담해 줘"처럼 역할과 어조를 지정하고, 원하는 결과가 잘 나오도록 문장을 다듬는 일이다.

이 방식은 한 번의 질문에 한 번의 답을 받는 단순한 대화에서는 잘 통했다. 그러나 인공지능이 여러 단계를 거쳐 스스로 일을 처리하는 '에이전트(agent, 자율 작업 수행 프로그램)'로 쓰이기 시작하면서 한계가 드러났다. 아무리 문장을 잘 써도, 작업에 필요한 정보가 적절한 때에 적절한 형태로 주어지지 않으면 결과가 흔들렸기 때문이다.

2단계컨텍스트 엔지니어링 — 모델이 보는 맥락을 짜기

그래서 2025년 9월, 인공지능 개발사들 사이에서 '컨텍스트 엔지니어링'이라는 개념이 본격적으로 제시됐다. 초점이 옮겨갔다. 어떤 문장을 쓰느냐에 매달리는 대신, 모델이 답을 만들기 직전에 어떤 정보를 어떻게 갖춰 두느냐가 더 중요한 문제로 떠올랐다.

여기서 컨텍스트(context, 맥락)란 모델이 답을 만들기 직전에 실제로 들여다보는 정보 전체를 가리킨다. 지시문 한 줄뿐 아니라, 사용할 수 있는 도구 목록, 이전 대화 기록, 외부 문서와 검색 결과까지 모두 포함된다. 문제는 모델이 한 번에 인지할 수 있는 정보의 양, 즉 '컨텍스트 창(context window)'에 한계가 있다는 점이다. 자원이 무한하지 않으니, 무엇이든 다 밀어 넣을 수는 없다.

비유 — 책상 위 작업 공간

컨텍스트 창은 책상 위 공간과 같다. 책상이 아무리 커도 무한하지 않다. 지금 풀어야 할 문제에 꼭 필요한 자료만 골라 적절한 위치에 펼쳐 두어야 일이 빨라진다. 관련 서류를 죄다 책상에 쌓아 올리면 오히려 무엇이 중요한지 묻혀 버린다.

컨텍스트 엔지니어링은 바로 이 '책상 정리'의 기술이다. 모든 정보를 한꺼번에 던져 넣는 대신, 필요한 것만 제때 꺼내 쓰도록 맥락을 큐레이션한다.

한 번의 대화로 끝나지 않는 작업

컨텍스트 엔지니어링은 곧 더 큰 문제와 마주했다. 복잡한 작업은 한 번의 긴 대화로 끝나지 않는다. 인공지능이 몇 시간에서 며칠에 걸쳐 일하다 보면, 컨텍스트 창이 가득 차 버린다. 그러면 새 세션(session, 작업 단위)을 열어야 하는데, 그 순간 이전 작업의 기억이 끊긴다. 미완성 기능이 생기거나, 했던 일을 또 하거나, 작업을 도중에 끝내 버리는 일이 벌어졌다.

2025년 11월에 제시된 해법은 인간 엔지니어가 교대 근무하는 방식에서 영감을 얻었다. 처음 작업을 시작하는 '초기화 담당'이 기능 목록과 진행 상황 파일 같은 구조화된 환경을 만들어 두면, 다음 세션의 '작업 담당'이 그 기록을 이어받아 조금씩 진척시킨다. 큰 컨텍스트 창 하나가 필요한 게 아니라, 여러 세션 사이를 안정적으로 넘나들며 작업을 인계(handoff)하는 구조가 필요했던 것이다.

3단계하네스 엔지니어링 — 모델 바깥의 구조를 설계하기

여기서 한 걸음 더 나아간 것이 하네스 엔지니어링이다. 하네스(harness)는 원래 말이나 낙하산을 몸에 단단히 매는 장구를 뜻한다. 인공지능에서는 모델을 둘러싸고 작업을 떠받치는 실행 환경 전체를 가리킨다. 모델에 무엇을 넣을지 정리하고, 외부 도구를 불러 쓰게 하고, 그 결과를 다시 모델로 되돌리는 일을 맡는 바깥쪽 장치다. 비슷한 뜻으로 스캐폴드(scaffold, 발판)라는 표현도 쓰인다.

2026년 3월에 공개된 정교한 사례는 인공지능 에이전트를 세 가지 역할로 나눈 구조였다. 작업을 잘게 쪼개 계획을 세우는 '플래너', 실제로 결과물을 만드는 '생성자', 그리고 그 결과를 까다롭게 검사해 피드백을 돌려주는 '평가자'다. 이 셋이 서로 결과를 주고받으며 여러 차례 반복하자, 똑같은 모델인데도 결과의 완성도가 크게 올라갔다.

이 설계가 효과적인 이유에는 인공지능의 약점이 깔려 있다. 모델은 자기가 방금 만든 결과를 스스로 평가할 때 후한 점수를 주는 편향이 있다. 그래서 생성하는 쪽과 평가하는 쪽을 아예 분리해, 비판적인 평가자가 따로 채점하도록 했다. 이는 위조 지폐범과 감별사가 경쟁하며 함께 발전하는 생성적 적대 신경망(GAN, Generative Adversarial Network)의 원리에서 영감을 얻은 것이다. 특히 화면 디자인처럼 정답이 주관적인 작업에서는, 평가자가 브라우저 자동화 도구로 완성된 화면을 직접 열어 보고 점수를 매겼다. 흔히 '인공지능 티가 난다'고 느껴지는 밋밋한 결과물에는 일부러 감점을 줘서, 더 창의적인 결과로 밀어붙였다.

비유 — 작은 회사 조직

하네스는 인공지능 한 명이 모든 일을 혼자 처리하게 두는 대신, 작은 회사를 꾸리는 일에 가깝다. 기획자가 일을 나누고, 실무자가 만들고, 검수자가 따져 본다. 누군가 이상한 점을 발견하면 피드백이 돌고, 다시 고친다.

핵심은 '구성원 개개인을 천재로 만드는 것'이 아니라 '역할을 잘 나누고 협업 흐름을 잘 짜는 것'이다. 같은 사람들이라도 조직이 잘 돌아가면 산출물의 질이 달라진다. 인공지능도 마찬가지다.

같은 모델, 갈리는 결과

이 차이는 실제 실험에서 선명하게 드러났다. 한 비교 실험에서는 동일한 모델에게 작은 응용 프로그램을 처음부터 만들게 했다. 하네스 없이 단독으로 두면 짧은 시간에 적은 비용으로 결과물을 냈지만 핵심 기능이 제대로 작동하지 않았다. 반대로 계획·생성·평가를 분리한 하네스로 돌리자 시간과 비용은 수십 배로 늘어난 대신, 첫 화면부터 완성도가 달랐고 세부 기능까지 짜임새 있게 갖춰졌다.

하네스 없이 (단독 작업)

짧은 시간 · 낮은 비용
빠르고 저렴하지만 핵심 기능이 제대로 동작하지 않음

하네스 적용 (계획·생성·평가 분리)

수십 배의 시간·비용
느리고 비싸지만 첫 화면부터 완성도와 짜임새가 확연히 높음

다른 작업에서도 평가자의 반복 피드백을 거듭 거치자 초기의 평범한 결과물이 눈에 띄게 정교해졌다. 모델을 바꾼 것이 아니라, 모델을 둘러싼 반복 구조를 잘 짠 결과다.

평가의 기준도 달라진다

이렇게 되면 인공지능을 평가하는 방식 자체가 바뀐다. 그동안은 '모델이 얼마나 똑똑한가'만 따졌다. 그러나 이제는 모델뿐 아니라, 그 모델을 감싼 하네스가 얼마나 잘 짜였는지를 함께 봐야 한다. 같은 모델이라도 어떤 실행 구조에 올리느냐에 따라 결과가 크게 달라지기 때문이다. 2026년 2월에는 또 다른 개발사도 비슷한 접근을 전면에 내세웠는데, 소수의 인원이 사람이 직접 손으로 코드를 거의 쓰지 않고도 방대한 분량의 실서비스 코드를 완성했다는 사례를 공개했다.


하드웨어반도체도 같은 길을 간다 — 역할의 분화

여기서부터가 특히 흥미롭다. 소프트웨어가 프롬프트에서 컨텍스트로, 다시 하네스로 단계를 나누며 분화하는 동안, 그것을 떠받치는 반도체 하드웨어도 똑같이 역할을 쪼개고 있다.

인공지능 에이전트들이 떼로 돌아가려면, 그 무리를 데이터센터 규모로 운영할 시스템이 필요하다. 대규모 데이터센터에서 여러 모델과 에이전트가 각자 역할을 맡아 동시에 돌아갈 때, 그 전체를 지휘하는 운영 계층이 등장한 배경이다. 이런 조율 계층은 여러 대의 장비에 모델을 나눠 띄우고, 그래픽 처리 장치(GPU, Graphics Processing Unit) 자원과 밀려드는 요청을 효율적으로 배분한다.

추론을 두 단계로 쪼갠다

핵심은 '추론(inference, 답을 만들어 내는 과정)'을 한 덩어리로 처리하지 않고 단계별로 나눈 데 있다. 추론은 성격이 다른 두 국면으로 이뤄진다. 하나는 사용자가 준 긴 입력을 한꺼번에 읽어 이해하는 '입력 이해' 국면으로, 계산을 많이 잡아먹는다. 다른 하나는 답을 한 글자(토큰)씩 이어서 만들어 내는 '토큰 생성' 국면으로, 기억을 자주 들춰 봐야 해서 메모리 대역폭에 좌우된다.

비유 — 통독과 받아쓰기

'입력 이해'는 두꺼운 책을 빠르게 통독하며 내용을 머릿속에 넣는 일과 같다. 짧은 시간에 많은 페이지를 처리해야 하니 '계산 속도'가 관건이다.

'토큰 생성'은 그 책을 바탕으로 한 줄씩 받아쓰며 글을 완성하는 일과 같다. 매 문장마다 앞서 읽은 내용을 다시 들춰 봐야 하니 '기억을 얼마나 넉넉하고 빠르게 둘 수 있는가'가 관건이다. 성격이 다른 두 일을 한 사람이 동시에 하면 비효율적이다. 그래서 일을 나눈다.

두 국면의 성격이 다르니, 같은 칩 하나가 둘 다 떠맡으면 자원이 낭비된다. 그래서 입력 이해는 계산에 특화된 칩이 맡고, 토큰 생성은 기억(메모리)에 특화된 칩이 맡도록 분리하는 방향으로 하드웨어가 진화하고 있다. 두 칩 사이에는 앞 단계가 읽어 둔 내용을 정리한 '키-값 캐시(KV cache, Key-Value cache)'가 전달돼, 뒤 단계가 같은 입력을 처음부터 다시 읽지 않게 해 준다.

추론을 단계별로 나눠 전담시키는 분화 구조 입력 이해 단계는 연산 집약, 토큰 생성 단계는 메모리 집약. 단계마다 다른 하드웨어가 맡고 조율 계층이 묶는다. 하드웨어도 같은 길 — 추론을 단계별로 쪼개 전담시킨다 조율 계층 — 요청 라우팅 · 자원 스케줄링 · 캐시 관리 사용자 요청 입력 이해 단계 긴 입력을 한꺼번에 읽고 파악 연산 집약 → 계산 빠른 칩 KV 캐시 전달 토큰 생성 단계 한 글자씩 이어서 만들어 냄 메모리 집약 → 기억 넓은 칩 응답 기억 계층 초고속 메모리 (HBM) KV 캐시 저장 대용량 저장장치 (SSD) 싸고 넓게 → 소프트웨어가 에이전트 역할을 나누듯, 하드웨어도 단계와 기억을 나눠 맡고 조율 계층이 하나로 묶는다
그림 2. 추론을 단계별로 나눠 전담시키는 분화 구조. 계산에 특화된 칩과 기억에 특화된 칩이 역할을 나누고, 조율 계층이 요청 배분과 캐시 관리로 이들을 하나로 묶는다.

같은 맥락에서, 입력 이해 단계만 전담하도록 설계된 전용 칩도 등장했다. 값비싼 초고속 메모리(HBM, High Bandwidth Memory) 대신 상대적으로 저렴한 메모리를 써서, 비용 효율적으로 계산을 몰아 처리하려는 시도다. 기억이 많이 필요한 토큰 생성 단계에는 초고속 메모리를 집중적으로 배치한다. 한정된 비용을 '꼭 필요한 곳'에 몰아주는 구조다.

다시 주목받는 CPU, 그리고 추론의 분업

역할이 잘게 나뉘자, 그동안 그래픽 처리 장치에 가려져 있던 중앙 처리 장치(CPU, Central Processing Unit)도 다시 조명받는다. 대규모 병렬 계산은 그래픽 처리 장치가 잘하지만, 여러 부품과 단계를 똑똑하게 조율하고 중간중간 판단하는 일은 중앙 처리 장치의 몫이기 때문이다. 그 바깥에서는 데이터 처리 장치(DPU, Data Processing Unit)가 별도로 통신과 보안을 담당하고, 기억은 초고속 메모리에서 대용량 저장장치(SSD, Solid State Drive)까지 여러 계층으로 나뉜다. 한 덩어리로 다 처리하던 시대에서, 역할을 나누고 조율하는 시대로 넘어가는 것이다.

추론 단계에서도 분업이 도입됐다. '추측 디코딩(speculative decoding)'이라는 기법이 대표적이다.

비유 — 초안 작성자와 검토자

작은 모델이 먼저 다음에 올 법한 단어 후보들을 빠르게 죽 적어 둔다. 초안을 빠르게 갈겨쓰는 신입 작가라고 보면 된다. 그러면 크고 정확한 모델이 그 초안을 한꺼번에 훑어보며 맞는지 검증한다. 꼼꼼한 편집장 역할이다.

혼자 한 글자씩 신중하게 쓰는 것보다, 초안을 빠르게 만들고 한 번에 검수하는 편이 훨씬 빠르다. 추론조차 '생성'과 '검증'으로 역할을 나눈 셈이다. 앞서 본 소프트웨어의 생성자·평가자 구조와 그대로 닮았다.


산업 함의경쟁의 축이 옮겨간다

소프트웨어와 하드웨어가 나란히 분화하면서, 인공지능 산업의 경쟁 구도에도 변화가 예상된다.

평가 지표가 바뀐다

단순 벤치마크(benchmark, 성능 측정) 점수의 비중이 줄어든다. 대신 긴 작업 동안 맥락을 일관되게 유지하는가, 도구를 안정적으로 쓰는가, 에이전트끼리 작업을 매끄럽게 인계하는가, 피드백이 잘 반영되는가처럼 하네스 자체의 완성도를 함께 보는 평가가 늘어날 가능성이 크다. '얼마나 큰 모델을 만들었나'보다 '주어진 모델로 도구를 얼마나 잘 부리게 만드나'가 경쟁 포인트가 된다.

소프트웨어 기업의 가치가 이동한다

지금까지의 서비스형 소프트웨어(SaaS, Software as a Service)는 사람이 화면을 보고 클릭하기 좋게, 즉 사용자 인터페이스(UI, User Interface)를 중심으로 발전해 왔다. 그러나 인공지능이 직접 기능을 호출하는 시대에는, 응용 프로그램 인터페이스(API, Application Programming Interface)를 잘 갖추고 권한 구조가 명확해서 인공지능이 스스로 잘 다룰 수 있는 소프트웨어가 더 강한 경쟁력을 갖게 된다. 어떤 업무를 어떻게 쪼개고, 어떤 도구를 붙이고, 어디서 검수할지를 정하는 '업무 하네스 설계'가 새로운 가치의 핵심으로 떠오른다.

추론은 '장기 세션 운영' 문제가 된다

추론은 더 이상 한 번 답하고 끝나는 일이 아니다. 긴 맥락을 두고 반복해서 추론하는 장기 운영의 문제로 바뀐다. 그러면 인프라 경쟁도 단순 연산 성능을 넘어선다. 긴 세션을 안정적으로 굴릴 데이터센터를 어떻게 구성하느냐, 그래픽 처리 장치뿐 아니라 메모리와 저장장치, 조율 소프트웨어를 어떻게 하나로 묶느냐가 관건이 된다. 인프라의 경제성 또한 '얼마나 빠른가'에서 '긴 세션을 얼마나 효율적으로 지탱하는가'로 옮겨간다.


정리

인공지능을 잘 쓰는 법은 '좋은 문장 쓰기(프롬프트)'에서 '맥락 큐레이션하기(컨텍스트)'를 거쳐, '모델 바깥의 구조 설계하기(하네스)'로 진화해 왔다. 핵심은 일관된다. 모델 하나를 더 똑똑하게 만드는 것보다, 역할을 나누고 협업 흐름을 잘 짜는 편이 같은 모델에서 더 나은 결과를 끌어낸다는 것이다.

그리고 똑같은 원리가 반도체에서도 관철되고 있다. 추론을 단계별로 쪼개 전담 칩에 맡기고, 메모리를 계층으로 나누고, 조율 계층이 이들을 하나로 엮는다. 소프트웨어가 에이전트의 역할을 나누듯, 하드웨어는 연산과 기억의 역할을 나눈다. 좋은 부품 하나에 기대던 시대에서, 여러 역할을 잘 쪼개고 다시 잘 합치는 시대로 — 지금 인공지능 산업의 가장 큰 변화는 바로 이 '분업과 조율'이라는 한 단어로 모인다.