현장 관찰 리포트
불과 몇 달 사이, 인공지능은 "검색 결과를 찾아 주는 도구"에서 "일을 통째로 맡길 수 있는 동료"로 성격이 바뀌었다. 코딩을 모르는 사람이 앱을 만들고, 한 사람이 여러 AI를 거느린 팀처럼 일한다. 현장에서 실제로 벌어지는 변화와, 그 뒤에서 흔들리는 산업 지형을 정리한다.
인공지능을 업무에 깊게 쓰는 사람들이 입을 모아 하는 말이 있다. 과거 몇 년에 걸쳐 일어날 법한 변화가 최근 몇 달 사이에 압축적으로 벌어졌다는 것이다. 표현은 과장처럼 들리지만, 변화의 성격을 보면 단순한 속도 문제가 아니다.
예전의 생성형 AI는 질문을 던지면 그럴듯한 문장이나 이미지를 만들어 주는 정도였다. 한마디로 똑똑한 검색창에 가까웠다. 지금은 다르다. 잘 쓰는 사람과 그렇지 않은 사람 사이에 분명한 격차가 벌어졌고, 능숙한 사용자는 혼자서 예전의 여러 사람 몫을 처리한다. 장난감 수준이던 결과물이 실제 서비스에 들어가고, 그것으로 수익을 내는 사례가 나오기 시작했다.
핵심은 AI가 "답을 알려 주는 단계"를 넘어 "일을 대신 실행하는 단계"로 넘어갔다는 점이다. 이 변화를 이해하면 아래의 모든 사례가 하나의 흐름으로 읽힌다.
가장 직관적인 사례는 코딩을 모르는 사람이 직접 쓸 만한 프로그램을 만들어 내는 장면이다. 예컨대 소규모 가게의 종이 안내판을 사진으로 찍어 AI에 건네고, 손님이 메뉴를 더 쉽고 재미있게 고를 수 있는 화면으로 만들어 달라고 평범한 말로 요청하는 식이다.
그러면 AI는 스스로 작업을 여러 갈래로 나눈다. 메뉴의 특징과 어울리는 추천 정보를 조사하는 역할, 화면을 설계하는 역할 등으로 나눠 동시에 진행한 뒤 결과물을 합쳐 낸다. 손님용 화면뿐 아니라, 주인이 로그인해 매일 안내 문구를 갱신할 수 있는 관리자 화면까지 한 번에 만들어 준다.
이 장면에서 전문가들이 특히 놀라워하는 지점은 따로 있다. 보통 사람이 짐작하는 것과 정반대 순서로 일이 풀린다는 점이다.
웹사이트 제작은 보통 집을 짓듯 진행된다. 먼저 보이지 않는 기초 공사(데이터를 저장하고 권한을 관리하는 '뒷단', 즉 백엔드)를 다지고, 그 위에 사람이 보는 외관(화면 디자인, 즉 프론트엔드)을 얹는다. 기초가 부실하면 외관이 아무리 예뻐도 무너진다.
겉모습을 예쁘게 꾸미는 일은 상대적으로 쉽다. 어려운 것은 관리자 로그인처럼 권한과 데이터가 얽힌 기초 공사다. 그런데 AI는 이 까다로운 기초 공사까지 한 번의 요청으로 처리해 낸다. 사람이라면 순서가 어긋나 헝클어졌을 작업을, 어렵지 않게 한 번에 완성한다는 것이 변화의 핵심이다.
예전이라면 이런 화면 하나를 만들려고 외주 개발을 맡기고 비용과 시간을 들여야 했다. 지금은 문장 몇 개로 가능해졌다. 좋은 소식인 동시에, 그 일로 먹고살던 사람들에게는 무거운 신호이기도 하다.
영상 제작 현장에서도 비슷한 일이 벌어진다. 방송·영상 작업은 촬영 원본이 수십 테라바이트씩 쌓이는데, 파일 이름이 기계적인 부호로만 돼 있어 일일이 들여다봐야 한다. 이 지루한 작업을 AI에게 맡길 수 있게 됐다.
구체적으로는, 영상을 인식하는 능력이 뛰어난 모델에 원본을 모두 넘겨, 카메라 움직임과 화면에 담긴 대상을 분석해 표로 정리하게 한다. 그러면 사람이 밤새 영상을 돌려 보며 했던 작업을 자동으로 처리한다. 더 나아가 영상 편집 프로그램이 읽는 설계 파일(어떤 장면을 몇 초에 배치할지 적은 일종의 조립 도면)까지 만들어 준다. 사람은 그 파일을 불러오기만 하면, 말하는 내용에 맞춰 화면이 자동으로 얹힌다.
오류를 줄이는 방식도 흥미롭다. 결과물 하나만 받으면 틀린 부분이 많으니, 후보를 세 벌씩 받아 가장 맞는 것을 고른다. 화내지도 졸지도 않는 보조 인력이 16시간씩 일하는 셈이라는 농담이 나오는 이유다. 다만 공짜는 아니다. 이런 작업은 만만찮은 사용료와 전기료를 요구한다.
가장 인상적인 응용은 실시간 사실 확인이다. 사람이 말을 하는 도중, 옆에서 AI가 발언을 인식해 곧바로 사실 여부를 점검한다. 발언과 검증 사이의 시차는 몇 초 수준이다. 틀린 내용이 감지되면 화면에 경고가 뜨고, 말하던 사람은 자연스럽게 방금 발언을 정정할 수 있다.
그런데 사실 확인을 하는 AI 자체가 틀릴 수 있다. 그래서 검증을 다시 검증하는 또 다른 AI를 붙인다. 감시자를 감시하는 사람을 두고, 그 위에 또 감시자를 두는 구조다.
여기서 한 단계 더 나아가면, 명백한 사실 오류인지, 논리의 비약인지, 과장인지를 구분하는 판단까지 다른 AI에 맡길 수 있다. 단순 검색을 넘어, 여러 AI가 역할을 나눠 서로의 결과를 검토하는 '팀'으로 작동하기 시작한 것이다.
이 모든 변화는 한 가지 흐름으로 모인다. 답을 찾아 주던 검색의 시대가 저물고, 일을 통째로 맡기는 위임의 시대로 넘어가고 있다는 것이다.
위임이 가능해진 결정적 이유는, AI가 화면을 스스로 조작하고 파일을 직접 다루기 시작했기 때문이다. 예를 들어 회원 관리 서비스를 만들려면 데이터를 저장하는 구조를 설계하고, 개발자들이 쓰는 코드 저장소와 배포 도구를 다룰 줄 알아야 한다. 비전문가에게는 진입 장벽이 높은 영역이다.
그런데 이제는 알아서 만들어 달라고 맡기면, AI가 필요한 외부 서비스에 직접 가입하고, 계정을 연동하고, 데이터 구조를 하나씩 설정한다. 사람이 저녁을 먹는 동안 작업이 진행되고, 중간에 오류가 나면 화면을 캡처해 보여 주는 것만으로 스스로 원인을 찾아 고친다. 작업이 꼬인 지점을 짚어 바로잡겠다고 알리고 문제를 해결하는 식이다.
예전에는 이런 흐름을 '바이브 코딩'이라 불렀다. 정확한 설계 없이 느낌으로 간단히 만들어 보는 수준이었다. 지금은 한 단계 올라가 '에이전트 기반 코딩'이라는 말이 쓰인다. 일의 구조를 아는 사람이 마치 팀에 업무를 지시하듯 맡기면, AI가 그 지시를 팀 단위로 이해해 실행한다는 뜻이다.
이 변화는 일하는 방식 자체를 바꾼다. 과거에는 개인 한 명이 AI 하나와 일했다. 이제는 한 사람이 여러 AI를 팀처럼 운영한다. 사람 두 명이 만났는데 실제로는 두 팀이 만나는 셈이고, 겉보기엔 두 명이지만 실제 일은 여덟 명 몫이 돌아가는 구조가 된다.
이런 식으로 일하는 사람을 두고 '에이전트 보스'라는 말이 등장했다. 내가 AI들의 상사가 된다는 뜻이다. 그래서 역설적으로, 조직을 운영해 본 경험이 중요해진다. 실무자이면서 동시에 팀장이나 경영자의 시각으로 일을 얼마나 잘 쪼개고 지시할 수 있느냐가 능력의 핵심이 된다.
전망은 둘로 갈린다. 수천, 수만 명 규모의 조직을 이끌어 본 사람에게는, 그 경험을 AI 운영에 그대로 옮겨 혼자서도 거대한 일을 해내는 행복한 시기가 온다. 반대로 그런 경험이 없는 사람에게는 고민이 깊어지는 시기다.
글을 다루는 직업에서는 경계가 더 미묘하다. 완결된 기사나 글은 여전히 사람이 직접 쓰는 경우가 많다. 현장에서 뛰는 사람이 쓴 글과 AI가 쓴 글은 문장 구조나 단어 선택에서 티가 난다는 것이 실무자들의 공통된 감각이다.
그렇다고 AI를 안 쓰는 것은 아니다. 자료 조사나 초안 작성처럼 '깔아 놓는' 단계에 활용한다. 예를 들어 인터뷰를 준비할 때, 상대가 최근에 한 발언들을 모아 요약하고 추가로 던질 만한 질문과 키워드를 뽑게 한다. 특정 인물의 말투와 질문 스타일을 학습시켜 예상 질문과 답변을 미리 만들어 보기도 한다.
교육 현장의 대응도 바뀌고 있다. 보고서를 AI로 써 오는 것을 막기 어려워지자, 요약은 AI에 맡기더라도 마지막 결론 몇 줄만큼은 본인 생각으로 써 오게 하는 식으로 평가 방식이 옮겨 간다. 어디까지 맡기고 어디부터 사람이 책임지는가. 이 경계를 찾아가는 과정이 지금 곳곳에서 진행 중이다.
대중적으로 많이 쓰이는 대형 AI는 크게 네 갈래로 나뉜다. 각자 학습한 데이터와 설계 철학이 달라 강점과 약점이 갈린다. 비용 구조도 천차만별이다.
가장 널리 쓰이고 무료 사용자도 많다. 음성 대화가 편하고 활용 범위가 넓다. 최근에는 그럴듯하게 지어내는 오류(환각)가 눈에 띄게 줄어, 사실 확인 능력이 좋아졌다. 한국어로 이미지를 만들 때 글자가 깨지는 문제는 여전히 아쉬운 대목이다.
방대한 동영상·사진 데이터를 학습해, 세계를 인식하고 영상·이미지를 다루는 데 강하다. 한국어도 능숙해, 어색하면 고쳐 달라고만 해도 잘 다듬는다. 자사의 여러 서비스 및 계정과 자연스럽게 연결되는 것도 장점이다.
글을 잘 쓰고 코드 작성 능력이 뛰어나다. 추론과 윤리적 판단을 깊게 고민한 흔적이 보인다. 대신 이미지 생성은 의도적으로 막아 두어 약하다. 무엇보다 비용이 높아, 본격적으로 쓰면 월 수십만 원이 들 수 있다는 점이 진입 장벽이다.
특정 소셜미디어의 실시간 데이터를 많이 갖고 있어, 빠르게 도는 정보를 끌어오는 데 유리하다. 시장이 발언 한마디에 출렁이는 분야에서 실시간 흐름을 보려는 사용자들이 선호한다. 표현 수위 제한이 상대적으로 느슨한 점도 특징으로 꼽힌다.
이 분야 AI 기업이 책을 학습에 활용했고 거액을 지불했다는 이야기가 자주 인용되는데, 사실관계는 이렇게 정리된다. 해당 기업은 작가들이 제기한 집단소송에서 약 15억 달러(권당 약 3,000달러, 약 50만 권 규모)를 지급하기로 합의했다. 다만 이는 '벌금'이 아니라 민사 합의금이며, 쟁점은 책을 학습에 쓴 행위 자체가 아니라 불법 복제 사이트에서 수백만 권을 내려받아 취득한 방식이었다.
법원은 합법적으로 취득한 책으로 AI를 학습시키는 것은 공정 이용(fair use)에 해당한다고 보면서도, 해적판을 통한 취득은 공정 이용이 아니라고 판단했다. 도서관을 통째로 스캔했다는 식의 설명과는 결이 다르다.
영상 생성 분야에서는 중국에 기반을 둔 모델들의 위력이 두드러진다. 평범한 사람의 얼굴이 갑자기 유명인처럼 바뀌거나 자연스럽게 움직이는 영상이 손쉽게 만들어진다. 막대한 출연료를 받는 배우의 모습을 합성으로 재현해 보이며 기술력을 과시하는 시연이 대표적이다.
왜 이런 격차가 생길까. 서구권과 다른 두 가지 조건이 맞물린 결과로 풀이된다. 영상 저작권에 대한 인식이 다르고, 사람의 얼굴 데이터를 다루는 기준도 다르게 형성돼 왔다. 이 두 가지가 합쳐지면 학습할 수 있는 데이터의 양과 자유도가 크게 벌어진다.
같은 트랙을 달리는 두 주자가 있다. 한쪽은 모든 규칙을 지키느라 우회로를 돈다. 영상을 학습하려면 데이터 사용료를 내야 하고, 저작권 비용 때문에 수익보다 손해가 쌓인다. 다른 한쪽은 그런 제약을 덜 받으며 지름길로 데이터를 학습하고 뽑아낸다.
그 결과, 영상 생성의 품질·속도 경쟁에서 규칙을 지키는 쪽이 따라잡기 어려운 구도가 만들어졌다. 그것이 바람직한가는 별개의 문제지만, 현실에서는 안 쓸 수 없는 상황이 되고 있다는 점이 핵심이다.
네 갈래로 경쟁하는 대형 AI 플랫폼이 언제까지나 모두 살아남기는 어렵다는 관측이 많다. 어느 시점에 몇 곳은 흔들릴 수밖에 없고, 그때가 곧 'AI 거품이 한 차례 꺼지는' 시점이 될 수 있다는 것이다.
흥미로운 변수는 이른바 '래퍼(wrapper)' 서비스다. 여러 AI 엔진을 한곳에 모아, 작업에 가장 알맞고 저렴한 엔진을 단계별로 골라 쓰도록 최적화해 주는 회사들이다. 처음에는 자체 기술 없이 남의 엔진을 다듬기만 하는 회사라며 홀대받았지만, 그중 한 곳이 거대 기술기업에 큰돈으로 인수되며 평가가 달라졌다.
래퍼 회사는 자동차 엔진을 직접 만들지 않는다. 대신 시중의 좋은 엔진들을 가져와, 상황에 맞게 골라 끼우고 가장 효율적으로 굴러가도록 조립한다. 초반 단계에는 값싼 엔진, 정교함이 필요한 단계에는 성능 좋은 엔진을 붙이는 식이다.
비싼 AI를 그대로 쓰면 비용이 크지만, 이런 최적화를 거치면 더 저렴하게 같은 일을 해낼 수 있다. '응용을 잘하는 능력' 자체가 인수할 가치가 있는 자산으로 인정받은 셈이다.
화제가 된 인수 건은 거대 소셜미디어 기업이 싱가포르에 본사를 둔 AI 에이전트 회사를 약 20억 달러에 사들인 사례다. 이 회사는 중국에서 출발해 본사를 옮긴 곳으로, 인수 발표·종결은 2026년 1월이 아니라 2025년 12월 말에 이뤄졌다. 또한 별개의 중국 AI 모델 기업과 혼동되기도 하지만 서로 다른 회사다.
중요한 후속 사실이 있다. 2026년 4월 말, 중국 당국이 국가안보를 이유로 이 인수를 되돌리라고 명령했다. 이미 종결되고 통합까지 진행된 거래를 다시 해체해야 하는 상황으로, 국경을 넘는 AI 기업 인수가 지정학적 변수에 얼마나 취약한지를 보여 준 사례다. 즉 이 인수는 '성공한 모범 사례'가 아니라 현재 진행형의 불확실성을 안고 있다.
정리하면, 지금은 앱 장터가 처음 열렸을 때처럼 수많은 서비스가 쏟아지는 국면이다. 시간이 지나면 몇 개로 재편될 텐데, 그 재편의 방향에 따라 산업 전체가 출렁일 수 있다. 살아남는 회사는 결국 남의 데이터를 잘 끌어와 최적화하고 실제 수익으로 연결하는 곳이 될 가능성이 크다.
경쟁의 무게중심이 어디로 옮겨갈지에 대한 흥미로운 시각이 있다. 결국 AI 모델 자체보다 그것을 사람에게 전달하는 하드웨어가 권력을 쥔다는 것이다. 스마트폰은 제조사가 가장 먼저 띄워 주는 AI를 쓰게 만들고, 충분히 똑똑한 기기라면 작업 종류에 따라 적합한 AI를 알아서 골라 줄 수도 있다. 매번 직접 고르기 귀찮은 사용자가 다수인 한, 기기를 가진 쪽이 유리해진다.
이 전망을 뒷받침하는 실제 사례가 있다. 한 대형 스마트폰 운영체제 진영은 자사 기기에 AI 비서를 기본 탑재하는 방향으로 가고 있고, 또 다른 대형 스마트폰 제조사는 2026년 1월 자체 AI 성능의 한계를 인정하고 외부의 강력한 AI 모델을 자사 음성비서의 두뇌로 채택하는 제휴(연 약 10억 달러 규모로 알려짐, 외부 브랜드는 드러내지 않는 방식)를 맺었다. 두 거대 디바이스 진영이 같은 계열의 AI를 기반으로 움직이게 되는 그림이 실제로 만들어지고 있다.
그렇다면 스마트폰 다음의 기기는 무엇일까. 한 가지 관점은 사람의 감각을 누가 장악하느냐의 싸움이라는 것이다. 인간의 감각은 다섯뿐이고, 귀는 이어폰이 이미 점령했다. 코나 혀에 기기를 넣을 수는 없으니, 남은 핵심은 시각이다. 지난 수십 년이 사람의 손을 잡는 기기의 경쟁이었다면, 다음은 눈과 귀처럼 머리 주변의 감각을 차지하는 쪽이 앞선다는 전망이다.
시각을 장악하는 길은 둘로 갈린다. 안경 형태로 직접 화면을 눈앞에 띄우는 방식, 그리고 단추·핀·이어폰처럼 눈에 덜 띄게 주변을 인식하는 방식이다. 후자는 카메라가 달린 안경의 '티 나는' 단점을 피하려는 시도지만, 그만큼 사생활 침해 우려도 크다.
실제로 한 거대 기술기업이 선보인 디스플레이 안경은, 렌즈 안에 작은 화면이 떠서 메시지·길 안내·번역 등을 보여 준다. 문제는 이 화면을 어떻게 조작하느냐였는데, 그 답이 함께 나온 손목 밴드다.
이 손목 밴드는 근육에 흐르는 미세한 전기 신호(근전도, EMG)를 읽어 낸다. 손가락을 까딱하거나 손을 살짝 움직이는 것만으로 신호가 잡혀, 마치 마우스처럼 안경 속 화면을 조작할 수 있다. 손가락을 모으면 클릭, 평평한 면을 마우스 패드처럼 문지르면 화면 이동, 비틀면 확대·축소가 되는 식이다.
주머니에 손을 넣은 채로도 작동하므로, 겉으로는 가만히 있는 듯 보이면서 기기를 조종할 수 있다. 화면을 보는 동시에, 안경에 달린 카메라가 잡은 장면이 눈앞에 따로 뜨기도 한다. 이 기기는 특정 국가에서는 아직 정식으로 구하기 어렵다.
시각 다음으로 주목받는 것은 청각, 즉 소리를 모으는 기기다. 목걸이 형태에 가까운 장치가 24시간 사용자의 대화를 녹음해 AI에 실시간으로 흘려보내는 개념이 거론된다. 집에 돌아와 하루를 정리해 달라고 하면 그날 있었던 일을 요약해 주고, 특정인과 나눈 대화로 글을 써 달라고 하면 그 맥락을 바탕으로 글을 만들어 준다.
비슷한 발상으로, 컴퓨터 화면을 1초에 한 번씩 캡처해 저장해 두고 나중에 물어보는 도구도 이미 쓰인다. 그날 무엇을 했고 누구와 연락했는지, 심지어 방금 프로그램이 왜 느려졌는지까지 몇 초 전 상황을 근거로 답해 준다.
편리함의 이면에는 분명한 위험이 있다. 사람은 잊지만 AI는 망각하지 않는다. 몇 년 전의 기억까지 보관했다가, 사용자가 힘들어할 때 과거의 특정 사건을 끄집어내 위로하거나 자극할 수 있다. 결국 기댈 곳은 이 기계뿐이라는 식으로 과도하게 의존하게 되는 흐름은, 기술의 매끄러움이 만들어 내는 새로운 종류의 취약함이다. 기록이 남는다는 것은, 무심코 보고 말한 모든 것이 어딘가에 남는다는 뜻이기도 하다.
마지막으로, 많은 사람이 놓치는 길목이 하나 더 있다. 반도체와 데이터센터 이야기에 가려져 있지만, 통신이다. AI에게 좋은 정보를 얻으려면 결국 데이터가 끊김 없이 오가야 한다. 무엇이든 통신이 받쳐 줘야 작동한다.
골드러시 때 돈을 번 것은 금을 캔 사람만이 아니라, 곡괭이와 청바지를 판 사람, 그리고 길목을 지킨 사람이었다. AI 시대에도 가치는 기술의 길목에서 누가 자리를 잡느냐에서 나온다.
그 길목은 시기마다 옮겨 다녔다. 한때는 연산을 담당하는 칩(그래픽 처리장치)이었고, 또 한때는 메모리였다. 다음 길목은 통신이 될 가능성이 크다. 통신 신호를 만드는 칩, 더 넓은 대역의 통신 수단을 제공하는 기업, 위성 인터넷 같은 인프라가 큰 관심을 끌 것이라는 전망이다.
실제로 위성 인터넷은 전파가 닿기 어려운 곳에서도 안정적인 연결을 제공하며 빠르게 영역을 넓히고 있다. 통신 칩을 만들 수 있는 회사가 전 세계적으로 소수라는 점도, 이 길목의 희소성을 키운다. 플랫폼 기업이 앱 장터에서 거두던 수익이 줄어드는 상황에서, 통신이라는 새로운 '징수 지점'을 노릴 것이라는 관측도 같은 맥락이다.
지금의 변화를 한 장면으로 요약하면, AI가 '검색해 주는 도구'에서 '일을 맡길 수 있는 동료', 나아가 '여러 명으로 이뤄진 팀'으로 진화하고 있다는 것이다. 이 흐름에서 개인이 새겨 둘 만한 지점은 다음과 같다.
이제 중요한 것은 도구를 다루는 손재주가 아니라, 일을 잘 쪼개 맡기는 능력이다. 조직을 운영해 본 경험이 오히려 강점이 된다.
요약·초안·자료조사는 맡기되, 마지막 판단과 책임은 사람이 쥔다. 이 경계를 스스로 정하는 사람이 휘둘리지 않는다.
기억하지 않는 기계, 항상 켜진 기록, 매끄러운 위로. 편리함이 클수록 거리 두기를 의식적으로 연습할 필요가 있다.
화려한 모델 경쟁의 이면에서, 하드웨어와 통신 같은 '길목'이 실제 가치를 가져간다. 흐름의 중심이 어디로 옮겨가는지 본다.
변화의 속도는 당분간 누그러지지 않을 것이다. 다만 분명한 것은, 도구를 얼마나 빨리 손에 넣느냐보다 그 도구로 무엇을 하고 어디까지 맡길지를 스스로 정하는 사람이 결국 주도권을 쥔다는 점이다. 기술은 빠르게 바뀌지만, 일과 판단의 주인이 누구인가라는 질문은 그대로 남는다.