테슬라는 왜 카메라에게 '못생긴 사진'을 먹일까

스마트폰으로 사진을 찍으면, 카메라 안의 작은 칩(ISP)이 센서가 받아들인 날것의 빛 정보를 예쁘게 가공한다. 밝기를 조절하고, 색을 보정하고, 어두운 곳은 밝게 끌어올린다. 인스타그램에 올리는 예쁜 사진은 이 가공의 결과물이다. 그런데 테슬라는 자율주행 AI에게 이 ‘예쁜 사진’ 대신, 사람이 보면 색도 이상하고 밝기도 비현실적인, 가공 이전의 날것에 가까운 데이터를 넘긴다. 운전자 화면에는 정상적인 영상이 표시되지만, 그 뒤에서 AI가 읽는 것은 전혀 다른 세계다.

이유는 간단하다. 사진을 예쁘게 만드는 과정이 AI에게는 오히려 손해이기 때문이다. 터널 출구를 떠올려 보자. 사람 눈에 보기 좋게 가공하면 밝은 부분은 하얗게 날아가고, 어두운 부분은 억지로 밝아진다. 날아간 영역에 앞차가 있었을 수도 있고, 억지로 밝힌 영역에서는 실제 물체와 노이즈의 구분이 모호해진다. “보기 좋게 만드는 과정”이 곧 “판단에 중요한 단서를 지우는 과정”이 되는 셈이다. 일론 머스크는 2021년 렉스 프리드먼 팟캐스트에서 “우리는 이미지 처리 칩을 완전히 우회하고 원시 광자 수만 사용한다. 이를 통해 13밀리초의 반응 지연을 절약한다”고 직접 밝혔다. 자율주행에서 13밀리초는 시속 100킬로미터 기준으로 약 36센티미터의 주행 거리에 해당한다. 사소해 보이지만, 긴급 제동 상황에서는 충돌과 정지의 차이를 가를 수 있는 숫자다.

테슬라의 최근 특허 8건을 따라가면 이 전략의 전모가 보인다. 카메라 8대의 영상은 먼저 렌즈 왜곡과 노출 차이가 수학적으로 보정된다. 이어서 수평선 근처처럼 검출이 어려운 먼 거리만 고화질로 처리되고, 나머지는 연산을 아끼기 위해 저해상도로 축소된다. 사람의 눈이 중심 시야만 선명하게 보는 원리와 비슷하다. 여기까지가 전처리다. 핵심은 그 다음이다. AI는 이 영상들을 하늘에서 내려다본 2D 지도와 3D 레고 블록 세계로 변환한다. 차량 주변 공간을 수십만 개의 작은 정육면체(복셀)로 나누고, 각 칸마다 ‘여기에 뭔가 있음/없음’을 표시하는 것이다. 이 방식의 강점은 명확하다. 도로 위에 떨어진 소파처럼 AI가 이름을 모르는 물체도 형상만으로 감지하고 피할 수 있다. 2024년에는 30만 줄이 넘던 규칙 기반 코드가 하나의 거대한 신경망으로 통째로 대체되기도 했다. AI가 수백만 건의 주행 영상을 학습하며 “로터리에서는 이렇게 행동한다”를 스스로 깨우친 것이다.

경쟁사들은 다른 길을 간다. 구글의 Waymo는 카메라에 라이다(레이저 레이더) 4대, 일반 레이더 6대를 더해 총 23개 센서로 무장한다. 비용은 더 들지만, 서로 다른 센서가 서로의 약점을 보완한다는 논리다. 먼지 폭풍에 카메라가 먹통이 되어도 라이다는 보행자를 놓치지 않는다. 현재 미국 피닉스, 샌프란시스코 등 6개 도시에서 운전석에 아무도 없는 완전 무인 택시를 운영하며, 지난해에만 1,500만 건의 유료 탑승을 기록했다. 중국의 화웨이도 라이다 최대 4대를 고집하는 반면, DJI는 카메라 7대와 약 130만 원짜리 칩만으로 초저가 도심 자율주행을 내놓았다. 같은 산을 오르되 등산로가 모두 다른 셈이다.

결국 이 논쟁의 본질은 하나로 수렴한다. 충분히 똑똑한 AI와 충분히 많은 데이터가 있으면, 카메라만으로도 라이다가 하는 일을 대신할 수 있는가? 테슬라의 전 세계 약 900만 대 차량이 매년 쌓는 주행 데이터는 약 1,000억 마일에 달하며, 어떤 경쟁사도 흉내 낼 수 없는 규모다. 그러나 2024년 업계 종합 평가에서 Waymo가 1위, 테슬라가 최하위를 기록한 사실은 데이터 양이 곧 기술 완성도는 아님을 상기시킨다. 오스틴에서 시범 운행 중인 테슬라 로보택시가 14건의 충돌을 보고하며 안전성 논란에 직면한 것도 부인할 수 없는 현실이다. 올해 말 출시될 차세대 AI 칩이 연산력을 현재의 5배 이상으로 끌어올린 뒤, 이 ‘못생긴 사진’을 얼마나 똑똑하게 읽어내느냐가 카메라 전용 자율주행의 성패를 판가름하는 첫 번째 시험대가 될 것이다.