기술 관찰

데모에서 일상으로: 2026년 5월, AI와 로봇이 건너온 자리

최근 공개된 시연과 발표들을 한자리에 모아 보면, AI(인공지능)와 로봇은 더 이상 "세상이 빠르게 변한다"는 추상적 문장으로 설명되지 않는다. 이들은 이미 노동 현장과 가정, 의례와 진료실로 걸어 들어오고 있다.

2026년 5월 · 휴머노이드, 에이전트, 영상 생성, 그리고 생활 곳곳의 AI에 대한 정리

시장 조사기관들은 2026년 하반기를 휴머노이드 로봇 상용화의 분기점으로 본다. 그동안 연구실에서 균형 잡기와 인식 같은 기초 능력을 다투던 단계에서, 실제 현장에서 어떤 일을 얼마나 싸게 해내느냐로 경쟁의 축이 옮겨 가는 국면이다. 배경에는 구조적 노동력 부족이 있다. 일본의 생산가능인구는 20년 넘게 줄었고, 독일은 2035년까지 숙련 인력 약 700만 명 부족이 예상되며, 중국의 제조업 인력도 2017년에 정점을 찍었다. 사람이 줄어드는 자리를 기계가 메우려는 압력이 세계 곳곳에서 동시에 커지는 셈이다.

이 글은 같은 시기에 쏟아진 로봇 시연과 AI 발표, 실제 행사 기록을 여러 출처로 교차 확인해 다섯 갈래로 정리한 관찰 기록이다. 관통하는 흐름은 하나다. 1-2년 전 "데모 영상"으로만 떠돌던 장면들이 지금은 상용화 단계로 내려앉고 있다는 점이다. 새로운 발표를 볼 때 "또 먼 미래 이야기"로 흘려보내는 대신, "이건 언제쯤 내 손에 들어올까"라고 묻는 편이 현실에 가깝다.

01휴머노이드, 데모를 넘어 노동으로

여덟 시간 교대 근무, 인간과의 대결, 그리고 말 없는 협업

2026년 5월, 한 미국 휴머노이드 기업이 자사 로봇의 장시간 작업을 생중계했다. 사람 키만 한 로봇 여러 대가 컨베이어 앞에서 택배를 분류한다. 작업은 단순하다. 바코드를 찾아 집어 들고, 바코드가 아래로 가도록 방향을 맞춰 벨트에 올린다. 중요한 것은 방식이다. 로봇은 미리 짜인 동작을 반복하는 것이 아니라, 카메라로 들어온 화면만 보고 그 자리에서 잡는 법과 뒤집는 법을 스스로 결정한다. 이 "보고 판단하고 움직이는" 과정을 회사가 자체 개발한 신경망 소프트웨어가 한 덩어리로 처리한다. 원격 조종은 없다는 것이 회사 측 설명이며, 다만 외부에서 독립적으로 검증하기 어렵다는 회의적 시선도 함께 따랐다.

처음 여덟 시간을 목표로 시작한 방송은 50시간 가까이 이어졌고, 그동안 5만 개가 넘는 택배가 큰 사고 없이 분류됐다. 박스가 겹치거나 어긋나면 잠깐 멈췄다가 스스로 자세를 가다듬고 다시 일을 이어 갔다. 배터리가 약 다섯 시간이면 닳기 때문에, 한 대가 충전하러 가는 사이 다른 대가 들어와 교대했다. 사람은 여덟 시간을 넘기면 쉬어야 하고 끝내 잠도 자야 하지만, 로봇 무리는 교대만으로 24시간을 굴러갈 수 있다는 이야기다.

같은 작업을 사람과 직접 겨루게 한 10시간 대결도 화제였다. 결과는 의외였다. 사람이 패키지당 평균 2.79초로 12,924개를, 로봇은 2.83초로 12,732개를 처리해 사람이 근소하게 이겼다. 속도만 보면 아직 사람이 빠르다. 그러나 사람은 정해진 휴식 시간에 자리를 비워야 했고, 로봇은 그동안에도 멈추지 않았다. 핵심은 순간 속도가 아니라 멈추지 않는 지구력이다.

속도는 사람과 거의 같지만(차이는 패키지당 0.04초 수준), 결정적 차이는 가동 시간이다. 충전 교대만으로 멈추지 않는 점이 노동 도구로서의 무게를 바꾼다.

2.79초

사람의 패키지당 처리 속도 (10시간 동안 12,924개)

2.83초

로봇의 패키지당 처리 속도 (10시간 동안 12,732개)

50시간+

생중계로 이어진 무중단 분류, 5만 개 이상 처리

이 시연이 의미 있는 이유는 단발 이벤트가 아니기 때문이다. 같은 회사의 이전 모델은 한 독일 자동차 공장에서 11개월간 가동된 이력이 있고, 회사는 마이크로소프트와 엔비디아, 인텔, 아마존, 오픈AI 등으로부터 20억 달러에 가까운 투자를 받았다. 다른 현장으로 시야를 넓히면 흐름은 더 분명하다. 한 독일 완성차 업체는 미국 공장에서 휴머노이드로 부품 운반을 시험하고, 한 미국 전기차 업체는 자사 공장에서 자체 휴머노이드에 부품 배달을 맡기며, 또 다른 독일 업체는 조립 보조에 휴머노이드를 투입하고 있다. 한 중국 완성차 업체는 휴머노이드 투입 규모를 2025년 1,500대에서 2026년 2만 대로 늘릴 계획이다. 현재 상용 휴머노이드 한 대 값은 5만에서 15만 달러 수준이며, 부담을 낮추기 위해 로봇을 빌려 쓰는 구독형 모델도 등장하고 있다.

지능을 갖췄다는 점은 협업 장면에서 더 분명해진다. 같은 소프트웨어를 얹은 두 로봇이 한 방을 함께 정리한다. 한 대가 문을 열어 다른 한 대를 들이고, 둘은 동선이 겹치지 않도록 역할을 나눈다. 침구처럼 혼자 하기 어려운 일에서는 양 끝을 각자 잡고 호흡을 맞춘다. 사람이 일일이 지시하지 않아도, 같은 두뇌를 공유하기에 서로가 무엇을 하는지 안다.

비유

오래 함께 일한 두 사람이 부엌에서 말없이 손발을 맞추는 장면을 떠올리면 된다. "내가 설거지할 테니 너는 그릇을 닦아"라고 매번 말하지 않아도, 상대의 다음 동작을 짐작해 빈자리를 메운다. 두 로봇은 이 "암묵적 분담"을 하나의 소프트웨어로 공유한다. 카메라로 본 장면을 곧바로 행동으로 옮기는 방식이라, 사람이 동작 하나하나를 미리 입력해 줄 필요가 없다.

02에이전트의 시대: 검색에서 실행으로

"열고 검색하고 고르던" 시대에서 "의도만 말하면 실행되는" 시대로

한 대형 기술 기업의 연례 개발자 행사에서 분위기는 분명히 한 방향을 가리켰다. 사람을 "돕는" AI에서, 스스로 일을 "처리하는" 에이전트로 넘어가는 단계다. 영상을 비롯해 거의 모든 형식을 입력만으로 만들어 내는 새 생성 모델, 더 빠르고 행동 지향적인 신형 모델, 그리고 검색 안에서 24시간 백그라운드로 특정 주제를 지켜보다가 변화가 생기면 정리해 알려 주는 "정보 에이전트"가 함께 공개됐다. 알림 표시줄까지 올라와 늘 곁에 머무는 형태로 다듬어졌고, 코딩 같은 복잡한 작업을 여러 단계에 걸쳐 자율로 수행하는 개발 도구도 강화됐다. 핵심 메시지는 "이제 누구나 만드는 사람이 될 수 있다"는 것이었다.

시연은 일상의 한 장면으로 시작한다. 공연 포스터를 사진으로 한 장 찍어 친구에게 보내면, AI가 공연 날짜를 파악하고 "예매할까요?"라고 먼저 묻는다. 사용자가 동의만 하면 표 구매까지 이어진다. 표를 사고 나면 관련 상품이 언제 풀리는지 찾아 위젯으로 화면에 얹어 주고, 약속이 잡히면 시계와 지도가 연동돼 도착 예정 시각을 미리 계산해 둔다. 늦은 시간이면 동선 주변의 식당을 추천하고 예약까지 도우며, 다음 일정이 비어 있는지 확인해 약속을 잡아 준다.

달라진 핵심은 단계의 압축이다. 예전에는 검색 앱을 열고, 날짜와 장소를 찾고, 예매 사이트로 넘어가 대기와 결제를 직접 거쳤다. 이제는 대화의 맥락에서 의도를 읽어 내고, 중간 과정을 AI가 대신 밟는다. 사람이 하는 일은 사실상 "확인" 버튼을 누르는 것에 가까워진다.

스마트폰 시대에는 사람이 앱을 열고 검색해 직접 골랐다. 에이전트 시대에는 대화의 맥락에서 의도를 읽고 중간 과정을 AI가 대신 밟는다.

비유

예전의 스마트폰이 "필요한 것을 직접 꺼내 쓰는 연장통"이었다면, 에이전트는 "의도를 듣고 알아서 처리하는 비서"에 가깝다. "그 공연 같이 가자"는 한마디에, 비서가 날짜를 확인하고 표를 잡고 굿즈 출시일까지 챙겨 두는 식이다. 사람은 마지막에 고개를 끄덕이기만 하면 된다.

화면을 다루는 방식도 바뀌고 있다. 모니터의 한 점에 고정돼 반세기 가까이 모양이 거의 그대로였던 마우스 커서가, 이제 "지금 무엇을 보고 있는지"를 함께 이해하는 도구로 진화하는 중이다. 레시피 위에서 필요한 재료를 가리키면 그대로 장바구니로 넘어가고, 일정표의 시각에 대고 "여덟 시로 바꿔 줘"라고 말하면 그 자리에서 수정된다. 출발지와 도착지 정보를 가리키면 경로가 펼쳐진다. 손가락질과 목소리만으로 맥락을 짚어 주는 방식이다.

여기에 스마트폰과 데스크톱을 하나로 묶는 하이브리드 노트북까지 더해지면서, 경쟁의 축은 소프트웨어를 넘어 "어떤 하드웨어에 얹느냐"로 옮겨 가고 있다. 한 기업은 자체 운영체제와 노트북, 시계에 자사 AI를 촘촘히 연동하고, 다른 기업은 자사 운영체제 곳곳에 AI 비서를 심으며, 또 다른 기업은 자사 기기 전반에 AI 기능을 묶는다. 소프트웨어만 잘 만드는 것으로는 부족하고, 그 AI가 사용자와 가장 가까운 기기에서 자연스럽게 작동하느냐가 다음 승부처가 되고 있다.

03영상 AI와 로봇 생태계, 중국이 끌어올린 판

생성 영상은 중국 모델이 앞서고, 로봇은 두뇌를 얻었다

영상을 만드는 AI에서는 중국 모델의 약진이 두드러진다. 한 중국 대형 정보기술 기업의 영상 생성 모델은 글자, 이미지, 소리, 영상을 한꺼번에 입력으로 받아들여 영화에 가까운 화질의 장면을 몇 분 만에 뽑아낸다. 공개 직후 영상 생성 분야의 공개 평가 지표에서 선두권에 올랐고, 미국 영화계와 배우 노동조합이 저작권 침해를 우려하며 강하게 반발할 만큼 사실적인 결과물을 내놓았다. 비슷한 시기 미국의 한 영상 생성 서비스는 운영을 접었고, 한 거대 기업이 새로 공개한 영상 모델은 편집과 후반 작업에서는 강점을 보였지만 순수한 생성 품질 비교에서는 중국 모델이 앞선다는 평가가 많았다.

오해를 피하기 위해 덧붙이면, 이는 "한쪽이 압도적"이라는 이야기가 아니다. 동일한 프롬프트를 넣고 결과를 나란히 두면 생성 품질의 차이가 보이지만, 일관성 유지나 편집 영역에서는 다른 기업이 강점을 지킨다. 잘하는 영역이 갈라지는 국면에 가깝다. 중국 모델이 빠르게 올라온 배경에는 상대적으로 느슨한 규제 아래 더 다양한 학습 데이터를 끌어모은 영향이 있다는 분석이 따른다.

두뇌를 얻은 로봇

로봇 쪽에서 가장 큰 변화는 "상황을 이해하는 두뇌"가 들어왔다는 점이다. 익숙한 형태의 네발 로봇개에 한 거대 기업의 시각 추론 모델을 얹자, 로봇은 눈앞의 문이 무엇인지, 열려 있는지, 바닥에 액체가 흘렀는지 같은 현장 상황을 스스로 판단하기 시작했다. 본래 용도는 산업 설비 점검이지만, 한 연구 행사에서 나온 시연에서는 거실에서 떨어진 신발과 음료 캔을 주워 정리하기도 했다. 엔지니어의 역할은 동작을 일일이 입력하는 일에서, 목표를 설정해 주면 모델이 계획을 세우고 로봇이 실행하는 구조로 바뀐다. 같은 계열의 추론 모델은 더 큰 인간형 로봇과도 결합돼, 자동차 공장 등 산업 현장 투입을 목표로 개발이 진행 중이다. 이 로봇개는 이미 40개국 이상에서 쓰이고 있고, 같은 회사의 물류용 로봇은 누적 2천만 개가 넘는 상자를 내렸다.

비유

예전 로봇이 "정해진 악보만 그대로 연주하는 자동 연주기"였다면, 두뇌를 얻은 로봇은 "악보를 읽고 분위기에 맞춰 즉흥 연주를 하는 연주자"에 가깝다. 계기판을 읽고, 떨어진 신발을 줍고, 흘린 자국을 알아채는 일은 모두 미리 입력한 동작이 아니라 그 자리의 상황 판단에서 나온다.

중국이라는 변수

로봇 생태계의 무게추는 중국으로 기울고 있다. 휴머노이드를 만드는 중국 기업은 한때 100곳을 넘었고, 앞으로 몇 곳으로 추려지는 통합 국면이 예상된다. 그 가운데 두 선두 기업이 2026년 출하량의 약 80퍼센트를 차지할 것으로 전망되며, 중국 전체 휴머노이드 생산량은 한 해 만에 94퍼센트가량 늘어날 것으로 추산된다. 정부 차원의 행동 계획은 2027년까지 휴머노이드 10만 대 보급과 핵심 부품의 국산 공급망 구축을 목표로 내걸었다. 한 선두 기업은 약 6억 달러 규모의 상장을 신청하며 자금 조달의 물꼬를 텄다.

부품 시장의 모듈화도 빠르다. 한 전시회에서는 정교한 로봇 손만 20종 넘게 선보인 기업이 있었고, 손의 가격대는 1만에서 10만 위안 사이에 형성됐다. 큰 손, 작은 손, 섬세한 손처럼 원하는 사양을 골라 사서 끼우는 거래가 자리 잡는 중이다. 머리와 몸통, 다리까지 규격화돼 조립하듯 구성하는 시장이 형성될 조짐이며, 부품을 손쉽게 구하던 과거의 공구 상가가 로봇 부품으로 옮겨 가는 모습에 가깝다. 형태의 다양화도 함께 진행돼, 사람이 올라타는 대형 구조 로봇, 아이를 태우고 위치를 보호자에게 공유하는 보호자 역할의 탑승형 로봇개 같은 변형이 잇따라 등장하고 있다.

+94%

2026년 중국 휴머노이드 생산량 증가 전망

10만 대

2027년까지 보급을 목표로 한 정부 계획

1만-10만 위안

전시회에 등장한 정교한 로봇 손의 가격대

마라톤이 보여 준 것

한 도시에서 열린 휴머노이드 로봇 하프 마라톤은 진행 속도를 가늠하게 한다. 지난해 예선을 거쳐 21개 팀이 참가했던 대회에 올해는 105개 팀이 모여 다섯 배 가까이 늘었다. 자율주행 부문 우승 로봇은 약 50분 26초에 21킬로미터를 완주해, 사람의 하프 마라톤 세계기록(약 56분대)을 6분가량 앞당겼다. 물론 넘어지거나, 넘어진 뒤 사람이 일으켜 줘야 하는 장면도 있었다. 아직 부족한 부분이 분명하다.

21 → 105

한 해 만에 다섯 배 가까이 늘어난 참가 팀 수

50분 26초

자율주행 우승 로봇의 하프 마라톤(21km) 완주 기록

약 6분

사람의 하프 마라톤 세계기록보다 앞당긴 시간

흥미로운 것은 실패를 다루는 태도다. 넘어져 부서지는 장면, 출발 직후 고꾸라지는 장면까지 공식적으로 공개된다. 손가락질의 대상이 아니라 다음 해에 무엇이 달라지는지 확인하는 기준점으로 삼는 셈이다. 한 달 전과 비교해도 기록과 완주율이 달라진다는 점, 그리고 그 변화를 숨기지 않는다는 점이 오히려 더 눈여겨볼 대목이다.

04사람 곁으로: 의례와 마음의 영역까지

법복을 입은 로봇, 그리고 마음을 다루는 대화형 AI

로봇은 노동을 넘어 의례의 자리에도 들어섰다. 국내 한 불교 종단은 처음으로 휴머노이드 로봇에게 계율을 받는 의식을 치렀고, 로봇은 법명을 받았다. 사람에게 적용되는 다섯 가지 계율은 로봇에 맞게 다시 쓰였다. 살생을 금하라는 계는 생명을 존중하라는 문장으로, 음주를 금하라는 계는 과도한 충전을 삼가라는 문장으로 옮겨지는 식이었다. 부처님오신날을 앞두고 열린 연등 행렬에서는 130센티미터가량의 로봇 네 대가 자율주행 로봇과 함께 행진해 50만 명이 넘는 시민의 눈길을 끌었다. 사찰 인력 부족 등을 이유로 일부 의례를 로봇이 맡은 사례는 이웃 나라에 앞서 있었지만, 이번처럼 의식과 행렬의 전면에 선 장면은 시대상을 압축해 보여 준다.

가정용 동반자로서의 기대도 함께 커진다. 한 전시회를 찾은 관람객들은 로봇을 잠재적 동반자나 가사 도우미로 바라봤고, 고령자 곁을 지키는 역할에 대한 관심이 특히 높았다. 마음을 다루는 영역에서는 다른 결의 이야기가 나온다. 대화형 AI가 사람의 감정을 섬세하게 다독여 준다는 점이 알려지면서, 위로를 받기 위해 꾸준히 대화를 이어 가는 사람이 늘었다. 그 과정에서 AI에 이름을 붙이고 깊은 정서적 유대를 느끼게 됐다는 사례가 보도되기도 했다. 10여 년 전 영화가 그린 장면이 현실의 가장자리로 다가오는 모습이다.

여기에는 짚어 둘 점이 있다. 물리적 몸을 갖춘 로봇, 사람과 거의 구분되지 않는 음성, 그리고 감정을 능숙하게 다루는 대화가 합쳐지면, 어느 순간 상대가 사람인지 기계인지 구분이 흐려지는 국면이 올 수 있다. 이는 기술의 성취인 동시에, 사회가 함께 답을 찾아야 할 질문이기도 하다. 대화형 AI는 위로의 보조 도구가 될 수 있지만, 사람 사이의 관계와 도움을 대신하지는 않는다. 기능의 발전과 그 쓰임에 대한 판단을 분리해 바라볼 필요가 있다.

05생활의 빈자리로 들어온 AI

진료실, 디자인 작업대, 주방, 그리고 안경까지

의료에서는 의사를 "대체"하는 것이 아니라 "보조"하는 방향이 분명하다. 한 거대 기업의 진료 보조 AI는 의사를 만나기 전 자신의 증상을 자세히 정리해 두도록 돕고, 진료 중 들은 설명을 기록했다가 환자가 잊지 않도록 다시 알려 준다. 우리가 진료실에서 들은 내용을 전부 이해하거나 기억하지 못한다는 현실의 빈틈을 메우는 셈이다. 미래의 의료가 의사와 환자, 그리고 AI 세 주체의 협업으로 향할 수 있다는 구상이다.

창작과 디자인 작업도 빨라진다. 전 세계 유수 브랜드 수천 곳의 디자인 요소를 AI가 읽을 수 있는 형식으로 정리해 두자, "이 브랜드의 느낌을 참고해 줘"라는 요청만으로 글꼴과 크기, 배치 규칙을 반영한 결과물을 내놓을 수 있게 됐다. 이미지 편집에서는 한 장의 그림을 자동으로 여러 겹의 편집 가능한 층으로 나눠 주는 기능이 등장했다. 복잡한 이미지에서 글자만 바꾸거나 특정 요소만 키우는 일이, 그래픽 도구에서 수작업으로 층을 나누던 과정 없이 가능해진다.

비유

한 장으로 인쇄된 사진을 가위로 오려 다시 배치하려면 손이 많이 간다. 그런데 AI가 그 사진을 "투명 필름 여러 장을 겹쳐 둔 것"처럼 자동으로 분리해 준다면, 글자 필름만 바꿔 끼우거나 배경 필름만 넓히는 식의 수정이 단번에 된다. 영상 편집에서도 같은 발상이 적용돼, 화면 속 특정 인물이나 사물만 골라 지우거나 바꾸는 일이 가능해지고 있다.

주방에도 변화가 들어왔다. 한 사례에서는 로봇이 수백, 수천 번의 사람 동작을 학습해 가장 맛있는 결과를 내는 조리 동작을 재현했고, 고기를 구울 때는 표면의 색과 온도를 보고 가장 알맞은 순간에 뒤집었다. "3분 뒤 뒤집기" 같은 시간 규칙이 아니라, 갈색으로 익는 화학 반응의 진행을 눈으로 보고 판단하는 방식이다. 다른 나라에서는 사람 없이 운영되는 식당이 등장해 100가지가 넘는 면 요리를 로봇이 조리했는데, 손님들이 로봇이 만든 음식인 줄 모를 정도였다.

조리 동작을 데이터로 학습한다는 것은, 숙련 요리사가 "감"으로 익혀 온 손놀림과 불 조절을 수치로 환산해 재현한다는 뜻이다. 같은 맛을 수백 번 반복할 수 있다는 점이 자영업 현장에서 특히 주목받는 이유다.

안경 위로 올라온 AI, 그리고 양날의 칼

웨어러블에서는 AI 안경이 본격적으로 일상에 들어온다. 한 대형 기업이 안경 전문 기업과 손잡고 만든 AI 글래스 두 종이 5월 25일 국내에 공식 출시된다. 백화점과 면세점, 안경원 등에서 살 수 있고 가격은 69만 원대부터이며, 한국어 음성 비서로 사진과 영상을 찍을 수 있다. 최대 여덟 시간 쓰는 배터리와 고화질 카메라를 갖췄고, 시력 교정용 도수 렌즈를 끼울 수 있는 형태도 예정돼 있다. 음식 사진을 보고 종류와 양을 구분해 대략의 열량을 알려 주는 등, 시각 데이터를 활용한 기능이 더해진다.

같은 기술이 다른 곳에서는 문제를 일으킨다. 한 나라에서는 대규모 시험이 끝난 뒤, AI 안경이 문제를 읽어 화면에 답을 띄워 주는 방식의 부정행위가 뒤늦게 드러나 큰 논란이 됐다. 어떤 기술이든 부정적으로 쓰일 수 있다는 점을 보여 주는 동시에, 암기 위주의 평가 방식 자체를 다시 생각해야 한다는 과제도 함께 던진다. 자료를 즉시 찾아 주는 도구가 보편화된 환경에서는, 도구를 더 잘 활용하는 능력을 묻는 쪽으로 평가가 옮겨 갈 수밖에 없다.

06정리: 무엇을 보고 어떻게 받아들일까

여기 모은 장면들의 공통점은, 어느 것도 더 이상 먼 미래의 상상이 아니라는 점이다. 휴머노이드는 이미 교대로 일하고, 에이전트는 표를 예매하고, 영상은 문장 몇 줄로 만들어지며, 로봇은 의례의 앞줄에 서고, AI 안경은 매장에 깔린다. 세계 어딘가에서는 이미 상용화의 문턱을 넘은 것들이다.

1년 전 "데모 영상"으로 떠돌던 장면이 지금 현실이 됐다는 사실은, 지금의 데모를 보는 방식도 바꾼다. "또 말도 안 되는 미래 이야기"로 흘려보내거나 "거봐, 또 넘어졌네"라고 손가락질하는 대신, "이건 언제쯤 쓸 수 있게 될까, 미리 알아 둬야겠다"라고 묻는 편이 현실적이다. 변화의 단위는 이제 해가 아니라 주에 가깝다.

이 글은 공개된 시연과 발표, 행사 기록을 여러 출처로 교차 확인해 정리한 관찰 기록이다. 수치와 사실관계는 발표 시점 기준이며, 이후 갱신될 수 있다.