jacobhan.me
Physical AI

스크린 밖으로 걸어 나온 인공지능: 피지컬 AI의 시대

화면 속에서 글과 그림을 만들어 내던 인공지능이 몸을 얻어 현실로 걸어 나오고 있다. 로봇과 자동차, 드론의 형태로 세계를 직접 인식하고 손발을 움직이는 이 흐름은 제조와 물류, 농업의 생산성 개념을 바꾸고 있으며, 기술 패권의 무게중심을 이동시키고 있다.

2026년 5월 · 약 15분 분량

지난 몇 년간 우리가 경험한 인공지능(AI, Artificial Intelligence)은 대부분 화면 안에 머물렀다. 질문을 입력하면 문장을 써 주고, 그림을 그려 주며, 코드를 생성했다. 그러나 이 모든 작업은 결국 화면 위의 디지털 신호에 그쳤다. 다음 단계는 다르다. AI가 센서로 현실을 인식하고 모터로 직접 개입하는 단계, 곧 물리적 세계에서 몸을 가지고 행동하는 인공지능이 본격적으로 등장하고 있다.

1.피지컬 AI란 무엇인가

화면 속 지능과 현실 속 지능의 결정적 차이

피지컬 AI(Physical AI)는 실제 물리적 세계에서 육체를 가지고 직접 행동하는 인공지능을 뜻한다. 화면 속 AI가 디지털 신호만을 다룬다면, 피지컬 AI는 카메라와 라이다(LiDAR, 빛을 쏘아 거리를 재는 센서) 같은 감각기관으로 주변을 인식하고, 모터와 같은 구동장치로 현실에 손을 댄다. 대화형 AI가 조언을 글로 적어 준다면, 피지컬 AI는 그 조언을 스스로 실행한다.

이 흐름이 갑자기 가능해진 데에는 세 가지 기술적 임계점이 있다. 첫째, 라이다를 비롯한 3차원 인식 센서의 가격이 빠르게 하락해 누구나 현실을 정밀하게 측정할 수 있게 됐다. 둘째, 복잡한 상황을 추론하고 계획하는 강력한 AI 모델이 등장했다. 셋째, 로봇의 관절과 손을 정교하게 움직이는 로봇공학 기술이 성숙했다. 세 요소가 동시에 무르익으면서 화면 밖으로 나갈 조건이 갖춰진 것이다.

이 전환을 공개적으로 선언한 인물은 그래픽처리장치(GPU, Graphics Processing Unit) 기업 엔비디아의 최고경영자 젠슨 황이다. 그는 2025년 1월 국제전자제품박람회(CES, Consumer Electronics Show)에서 "AI의 다음 개척지는 피지컬 AI"라고 못 박았고, 1년 뒤인 2026년 1월 같은 무대에서는 "피지컬 AI의 챗GPT 순간이 도래했다"며 한층 단정적으로 선언했다. AI가 인지에서 생성을 거쳐 이제 현실을 지각하고 추론하고 행동하는 단계로 넘어가고 있다는 것이다. 실제로 2026년 CES의 핵심 화두는 피지컬 AI와 휴머노이드 로봇이었고, 엔비디아는 로봇 전용 기반 모델과 차세대 반도체를 잇따라 내놓았다.

인공지능의 진화 3단계 인지 AI에서 생성 AI를 거쳐 피지컬 AI로 발전하는 흐름 인지 → 생성 → 행동, 인공지능이 나아간 길 1단계 인지 AI 이미지·음성·문자 이해 2단계 생성 AI 문장·그림·소리 창작 3단계 피지컬 AI 지각·추론·행동 현실 개입 화면 안 ─────────────────────▶ 화면 밖
인공지능은 인지와 생성을 거쳐, 이제 현실을 직접 다루는 단계로 진입하고 있다.
쉽게 말하면

화면 속 AI는 백과사전을 통째로 외운 사람이 방 안에 앉아 말로만 조언해 주는 것과 같다. 아무리 박식해도 직접 못을 박거나 길을 건널 수는 없다. 피지컬 AI는 그 사람이 방문을 열고 나와, 직접 망치를 들고 도로를 건너기 시작한 것이다.

핵심 피지컬 AI의 본질은 똑똑함이 아니라 "현실에서 직접 행동한다"는 점에 있다. 지식이 화면을 벗어나 물리적 결과로 바뀌는 순간, 기술의 영향력은 전혀 다른 차원으로 확장된다.

2.어떻게 작동하는가: 감지·인식·행동의 순환

정해진 규칙을 따르는 기계와, 스스로 적응하는 지능의 차이

전통적인 산업용 로봇은 미리 입력된 수천 개의 규칙을 그대로 따른다. 정해진 자리에 정해진 부품이 와야만 작동하며, 부품 위치가 조금만 틀어져도 멈춰 버린다. 반면 지능을 가진 피지컬 AI는 예측하기 어려운 현실 속에서도 감지와 인식과 행동의 순환고리를 돌리며 스스로 상황을 파악하고 적응한다. 이 순환이 작동 원리의 핵심이다.

감지 단계에서는 카메라와 라이다, 레이다 등 여러 센서로 환경 정보를 모은다. 센서마다 강점과 약점이 다르기 때문에, 여러 신호를 합쳐 약점을 보완하는 센서 융합(센서 퓨전) 기술을 쓴다. 인식 단계에서는 모인 데이터를 딥러닝 모델이 실시간으로 분석해 사물을 식별하고, 다음에 벌어질 상황을 예측하며, 어떻게 움직일지 계획한다. 행동 단계에서는 그 계획을 모터와 그리퍼, 유압 실린더 같은 구동장치로 옮겨 실제 움직임을 만든다. 급정거 명령이 브레이크로 전달되어 차가 멈추는 식이다. 이 세 단계는 1초에 수백-수천 번 반복되며 빠르고 정확한 반응을 만들어 낸다.

감지-인식-행동 순환고리 감지에서 인식, 행동으로 이어지고 다시 감지로 돌아오는 실시간 순환 1초에 수백-수천 번 반복 감지 센서로 인식 인식 AI가 판단 행동 구동장치 작동
감지로 모은 정보를 인식이 판단하고 행동으로 옮긴 뒤, 그 결과를 다시 감지하는 순환이 끊임없이 돈다.

위험 없이 배우는 법: 디지털 트윈, 강화학습, 월드 모델

피지컬 AI가 빠르게 똑똑해지는 비결은 세 가지 학습 장치의 결합에 있다. 디지털 트윈은 현실 세계를 정교하게 복제한 가상 훈련장으로, AI가 실제로 부서지거나 다치는 위험 없이 수많은 상황을 반복해 경험하게 해 준다. 강화학습은 그 가상 공간에서 잘한 행동에는 보상을, 잘못한 행동에는 벌점을 주어, 사람이 정답을 일일이 가르치지 않아도 AI가 스스로 최적의 행동을 터득하게 만든다. 월드 모델은 AI가 머릿속에 자체 물리 시뮬레이터를 갖춰, 한 번도 겪지 않은 상황까지 미리 예측하고 대응하도록 한다. 가상에서 익힌 능력이 현실에서도 그대로 통하게 만드는 일, 곧 시뮬레이션과 현실의 간극(Sim-to-Real Gap)을 줄이는 것이 최신 연구의 초점이다.

쉽게 말하면

디지털 트윈과 강화학습은 비행 시뮬레이터에서 훈련받는 조종사와 같다. 실제 비행기를 추락시키지 않고도 폭풍과 엔진 고장을 수천 번 겪어 볼 수 있다. 월드 모델은 한발 더 나아가, 조종사가 머릿속으로 "이렇게 조작하면 기체가 어떻게 반응할까"를 미리 그려 보는 직관에 해당한다.

3.새로운 연료: 체화된 데이터

현실에 뿌리내린 데이터가 만드는 선순환과 진입장벽

피지컬 AI를 움직이는 연료는 이전과 다른 종류의 데이터다. 체화된 데이터(Embodied Data)란 피지컬 AI가 현실과 상호작용하며 만들어 내고 소비하는 모든 데이터를 가리킨다. 인터넷에 떠도는 텍스트나 이미지와 달리, 언제 어디서 어떤 상황에서 수집됐는지 시간과 공간 정보가 명확히 새겨져 있다. 자율주행 택시가 기록하는 3차원 공간정보, 공장 로봇이 남기는 미세한 움직임, 드론이 측정한 작물의 생육 상태가 모두 여기에 해당한다. 이런 데이터는 추상적인 글자가 아니라 구체적인 현실에 뿌리박은, 움직임과 상호작용의 맥락을 그대로 담은 기록이다.

피지컬 AI는 무엇을 아는지가 아니라 어떻게 행동해야 하는지를 배워야 하며, 이를 위해 체화된 데이터가 반드시 필요하다. 그리고 이 데이터에는 강력한 선순환 구조가 숨어 있다. 데이터가 쌓일수록 AI는 똑똑해지고, 똑똑해진 AI는 더 넓은 현장에 배치되어 더 많은 데이터를 모은다. 이 흐름이 빙글빙글 도는 바퀴, 곧 데이터 플라이휠이다.

데이터 플라이휠 선순환 배치, 데이터 수집, 성능 향상, 영역 확대가 돌고 도는 선순환 구조 데이터 플라이휠 선순환 더 많은 피지컬 AI 현장에 배치 더 많은 체화된 데이터 수집 AI 성능 향상 더 똑똑해짐 더 넓은 영역으로 배치 확대
이 바퀴가 임계점을 넘어 빠르게 돌기 시작하면, 후발주자가 따라잡기 어려운 데이터 진입장벽이 만들어진다.
쉽게 말하면

인터넷 텍스트는 요리책에 적힌 글자와 같다. "양파를 중간 불에 5분간 볶는다"는 문장은 외울 수 있지만, 칼이 손에 닿는 느낌이나 양파가 타기 직전의 냄새는 담기지 않는다. 체화된 데이터는 실제 주방에서 수천 번 칼질하며 손과 코에 새겨진 감각이다. 피지컬 AI에게는 바로 이 감각이 필요하다.

4.산업 현장의 변화

제조와 모빌리티, 농업에서 이미 작동하는 피지컬 AI

피지컬 AI는 미래의 약속이 아니라 이미 현장에서 돌아가는 기술이다. 대표적 사례는 모두 중국 기업에서 나오고 있다.

제조 현장에서는 사람을 닮은 휴머노이드 로봇이 자동차 공장에 들어가기 시작했다. 유비테크의 워커 S2는 정해진 단순 반복이 아니라 조립과 점검 같은 유연한 작업을 수행하며, 방전되면 스스로 배터리를 교체해 사람의 개입 없이 작업을 이어 가는 무중단 운영을 지향한다. 2025년 11월부터 수백 대 규모의 양산과 납품이 시작됐고, 생산 능력을 연 5,000대(2026년)에서 1만 대(2027년)로 늘린다는 계획이다. 자동차 공장과 스마트 팩토리, 물류 거점, 데이터센터가 초기 투입처다. 정해진 규칙만 따르던 기존 자동화의 한계를 넘어서려는 시도가 시범 단계를 지나 상업 배치로 들어선 것이다.

모빌리티에서는 바이두의 아폴로고가 안전운전자 없는 완전 무인 자율주행 택시를 운행하고 있다. 2026년 초 기준 누적 운행이 2천만 회를 넘어섰고, 한때 주간 운행이 30만 회를 돌파했으며, 서비스 지역은 26개 도시로 늘었다. 중국을 넘어 두바이와 스위스에서 운행을 시작했고 한국 진출을 선언했으며, 우버·리프트와 손잡고 2026년 상반기 영국 런던에서 시범 운행에 들어간다. 수많은 돌발 상황을 실시간으로 처리하며 실험 단계를 넘어 도시의 일상으로 자리잡은 것이다.

농업에서는 DJI의 아그라스 드론이 정밀 방제를 이끌고 있다. AI가 센서와 위성 데이터를 분석해 필요한 곳에만 농약과 비료를 뿌린다. 2024년 말 기준 약 40만 대가 100개국 이상에서 쓰였고, 누적 방제 면적은 반복 작업을 포함해 5억 헥타르를 넘어섰다. 물과 농약 사용을 크게 줄이며 농업의 과학화를 앞당기고 있다. 참고로 DJI는 상업용 드론 시장의 약 70%를 차지하는 지배적 사업자이기도 하다.

핵심 피지컬 AI는 시범 영상 속 신기술이 아니라, 제조와 물류, 농업이라는 국가 경제의 근간 산업에서 생산성의 정의 자체를 바꾸기 시작했다.

5.글로벌 패권 경쟁의 세 갈래

미국·중국·유럽, 서로 다른 철학으로 같은 무대에 서다

피지컬 AI는 경제적 생산성과 국가 안보를 동시에 좌우하는 기술이다. 20세기 냉전이 이념과 핵무기의 경쟁이었다면, 21세기의 경쟁은 기술이 중심에 있다. 그 무대에 선 세 주역은 접근 방식이 뚜렷이 다르다.

미국 · 시장 주도형

정부는 기초연구에 집중하고, 혁신은 민간 기업과 벤처캐피털(VC)이 주도한다. 파괴적 혁신을 동력으로 삼는다.

테슬라, 보스턴 다이내믹스, 웨이모 등

중국 · 국가 주도형

국가가 장기 산업정책으로 방향을 잡고, 영역별로 국가대표 기업을 배치한다. 속도와 규모를 중시한다.

하늘 DJI · 땅 바이두 · 공장 유비테크 · 기반 화웨이

유럽 · 규제 주도형

규제와 윤리, 신뢰를 글로벌 표준으로 삼아 영향력을 행사한다. 인간 중심의 신뢰할 수 있는 AI가 목표다.

EU 인공지능법(AI Act), 브뤼셀 효과

경쟁은 기술의 분절화로도 번지고 있다. 미국이 첨단 AI 반도체 수출을 통제하자, 중국은 다소 성능이 떨어져도 자급할 수 있는 독자 생태계를 구축하며 맞서고 있다. 그 결과 하나였던 기술 표준이 두 진영으로 갈라지는 현상이 나타난다. 한편 일본은 노동력 부족을 메우려 도입을 서두르고, 인도는 자체 AI 모델 개발에, 한국은 대기업 투자와 정부 지원에 나서며 주요 플레이어로 떠오르고 있다.

6.거인의 아킬레스건

앞선 자에게도, 뒤쫓는 자에게도 약점은 있다

중국이 상업화 속도에서 앞선 것은 분명하지만, 가장 깊은 약점은 핵심 부품에 있다. 로봇의 관절을 정밀하게 움직이는 정밀 감속기, 서보모터, 컨트롤러의 신뢰성과 내구성이 부족하다. 정밀기계공학은 오랜 시간의 공정 축적과 글로 옮기기 힘든 암묵지가 필요한 영역이라 단기간에 따라잡기 어렵다. 실제로 정밀 감속기 시장은 일본의 하모닉 드라이브와 나브테스코 같은 기업이 장악하고 있어, 중국은 하이엔드 부품 시장 진입에 어려움을 겪고 있다. 성능이 다소 떨어져도 저렴한 국산 부품을 대량으로 쓰는 전략은 중저가 시장에선 통했지만, 신뢰성이 생명인 하이엔드 시장에선 한계에 부딪혔다.

왜 부품 신뢰성이 이토록 결정적일까. 부품 하나의 신뢰도가 99%로 높아 보여도, 수천 개가 직렬로 엮인 시스템에서는 전체 신뢰도가 빠르게 0에 가까워지기 때문이다.

부품 수에 따른 전체 시스템 신뢰도 부품 하나가 99퍼센트여도 부품 수가 늘수록 전체 신뢰도가 0에 수렴 부품 1개의 신뢰도가 99%일 때, 전체 시스템 신뢰도 100% 50% 0% 99% 90.4% 36.6% 0.66% 0.004% 1개 10개 100개 500개 1,000개 시스템에 들어가는 부품 수
부품 1,000개가 모이면 전체 신뢰도는 0.004%로 무너진다. 스마트 팩토리처럼 부품이 많은 대규모 시스템에서 부품 신뢰성이 치명적인 이유다.
쉽게 말하면

합격률 99%인 시험은 한 번 보면 거의 붙는다. 그러나 그 시험을 1,000번 연속으로 모두 통과해야 한다면 이야기가 달라진다. 한 번이라도 떨어지면 전체가 무너지기 때문이다. 부품 수천 개가 동시에 정상이어야 하는 로봇과 공장이 바로 이런 처지다.

약점은 중국만의 것이 아니다. 미국은 제조업 공동화로 AI 두뇌와 설계도는 있지만 대량 생산 공장과 숙련 인력이 부족해, 두뇌만 비대하고 손발이 없는 거인에 비유된다. 유럽은 강력한 규칙은 있으나 세계적 플랫폼 기업이 없어 심판 역할에 머문다. 일본은 정밀 부품에서는 세계 최고지만 AI 두뇌와 플랫폼 경쟁에서는 뒤처져 하청기지로 전락할 위험을 안고 있다. 그리고 한국은 핵심 부품의 대일 의존이라는 약점을 중국과 공유하면서도, 세계적 제조 역량과 반도체 생산 능력이라는 강점을 함께 지니고 있다.

7.한국의 선택: 설계자인가, 실행자인가

빠른 추격자의 시대가 저물고, 갈림길이 다가왔다

한국은 오랫동안 남이 놓은 사다리를 빠르게 올라가는 빠른 추격자 역할로 성장해 왔다. 그러나 미국과 중국의 기술 통제와 보조금 경쟁이 격화되면서, 이제는 스스로 길을 정해야 하는 기로에 섰다. 두 갈래가 있다. 하나는 미국의 AI 두뇌와 일본의 부품을 받아 조립하는 실행자의 길로, 최첨단 하청기지로 전락할 위험을 안는다. 다른 하나는 핵심 부품과 AI 운영체제를 직접 확보하는 설계자의 길로, 당장은 고통스럽지만 기술주권을 지키는 방향이다.

한국의 강점

  • 제조 노동자 1만 명당 약 1,220대로 세계에서 가장 높은 로봇 밀도
  • 반도체·자동차·배터리, 피지컬 AI의 3대 요소를 모두 보유한 드문 국가
  • 기존 공장을 지능화할 수 있는 탄탄한 산업 기반

한국의 약점

  • 로봇의 심장에 해당하는 정밀 감속기를 70% 이상 일본에 의존
  • AI 두뇌는 미국 기술에 종속
  • 인재 유출이 심각
  • 매출이 응용 소프트웨어에 쏠려, 하드웨어 원천기술 투자가 부족
  • 핵심 부품 의존 구조가 중국과 일치하는 공동의 약점

설계자의 길을 택한다면 전략의 윤곽은 비교적 분명하다. 일본 수준의 정밀 감속기와 모터를 국산화하면, 같은 약점을 가진 중국에까지 부품을 공급하는 이른바 슈퍼을이 될 수 있다. 자국 데이터와 산업을 스스로 통제하는 소버린(주권형) AI 기반도 필요하다. 네이버와 엘지(LG)의 초거대 AI 모델, 현대차와 삼성의 적극적 투자가 그 토대가 된다. 정보기술(IT)의 판교, 정밀기계의 창원, 반도체의 평택처럼 흩어진 클러스터를 잇고, 대기업과 중소기업의 동맹에 정부가 위험을 분담하는 구조도 요구된다. 인재가 빠져나가지 않도록 비전을 제시하고 규제 샌드박스를 넓히는 일도 함께 가야 한다.

이런 방향의 움직임은 이미 나타나고 있다. 현대차그룹과 그 자회사 보스턴 다이내믹스는 2026년 초 상용형 휴머노이드 로봇 아틀라스를 공개하고, 연 3만 대 규모의 전용 생산 공장을 세워 2028년까지 자사 공장에 투입한다는 계획을 내놓았다. 로봇이 공장에서 먼저 검증된 뒤 가정으로 들어간다는 구상이다. 강점을 설계자의 길로 잇는 시도가 구체화되고 있는 셈이다.

핵심 국가 기간산업과 로봇 제어의 두뇌까지 외국 기술에 맡기면 데이터 주권과 산업 주도권을 함께 내준다. 한국이 가진 강점은 분명하지만, 그 강점을 설계자의 길로 연결할지 실행자에 머물지는 지금의 선택에 달려 있다.

본문의 주요 수치(로봇 밀도, 자율주행 누적 운행, 휴머노이드 양산, 농업용 드론 보급, 드론 시장 점유율 등)는 2026년 5월까지 공개된 자료를 기준으로 정리했다. 기술 경쟁의 특성상 일부 수치와 판단은 시점에 따라 빠르게 달라질 수 있다.