jacobhan.me

데이터 인프라

데이터는 넘치는데 왜 지식은 빈곤한가

온톨로지가 푸는 '데이터의 역설', 그리고 팔란티어라는 현상

온톨로지 · 지식그래프 · 엔터프라이즈 인공지능

데이터가 '21세기의 석유'라는 비유는 이제 식상하다. 그런데 정작 현장에서 벌어지는 일은 정반대처럼 보인다. 기업과 정부는 사상 최대 규모의 데이터를 쌓아두고 있지만, 의사결정의 순간에 꺼내 쓸 수 있는 '쓸 만한 지식'은 늘 부족하다. 데이터는 넘치는데 지식은 빈곤한 이 역설이, 최근 주식 시장과 기술 업계에서 가장 뜨거운 이름 중 하나로 떠오른 미국 상장 소프트웨어 기업 팔란티어(Palantir)를 이해하는 열쇠다.

이름은 시장에서 익숙해진 지 오래지만, 정작 무엇을 만드는 회사인지 정확히 아는 사람은 드물다. 누군가는 막연히 비밀스러운 인공지능 기업이라 여기고, 누군가는 대화형 챗봇을 만드는 회사로 오해한다. 그러나 팔란티어의 본질을 한마디로 옮기면 '데이터 운영체제(operating system)' 기업이다. 이 글은 특정 종목을 분석하려는 것이 아니라, 이 회사가 정조준한 문제 — 데이터가 흩어져 무력해지는 현상과 그것을 다루는 설계 사상 — 을 풀어내려 한다.

01 — 오해비밀스러운 회사라는 착각

팔란티어를 둘러싼 오해는 대체로 세 갈래다. 첫째, 요즘 화제인 생성형 인공지능 기업, 즉 대화형 챗봇을 만드는 곳이라는 오해다. 둘째, 정보기관이나 군과 일한다는 사실 때문에 무기를 파는 방위산업체라는 오해다. 셋째, 정체를 알 수 없는 비밀 조직이라는 막연한 인상이다. 실제로 이 회사가 고위급 테러 용의자 추적 작전에 관여했다는 식의 이야기가 인터넷에 떠돌지만, 회사가 공식적으로 인정한 적은 없는 일종의 도시전설에 가깝다. 이런 신비주의가 오히려 본질을 가린다.

사실관계는 단순하다. 이 회사는 2003년에 설립됐고, 사명은 톨킨의 소설에 등장하는 '팔란티르(palantíri)' — 멀리 떨어진 것을 들여다보는 천리안 수정구 — 에서 따왔다. 초기 투자자 중에는 미국 중앙정보국(CIA, Central Intelligence Agency)의 벤처투자 조직도 있었다. 그래서 출발점은 정보기관의 분석 업무였지만, 회사가 만든 것은 무기가 아니라 흩어진 데이터를 엮어 의사결정에 쓰게 만드는 소프트웨어였다. 정부·정보기관용 플랫폼 고섬(Gotham)에서 출발해, 민간 기업용 데이터 통합 플랫폼 파운드리(Foundry), 그리고 이를 어떤 환경에서든 배포·운영하게 하는 아폴로(Apollo)로 제품을 넓혔다. 그리고 곧 깨달았다. 정보기관이 겪는 문제와 일반 기업이 겪는 문제가 본질적으로 같다는 것을.

그래서 제품군도 같은 뿌리에서 갈라져 나왔다. 정부·정보 기관용 분석 플랫폼이 한 축, 일반 기업용 데이터 통합 플랫폼이 다른 한 축이며, 여기에 어디서나 배포·운영을 가능하게 하는 인프라 계층, 그리고 2023년에 더해진 인공지능 계층이 붙었다. 이름과 용도는 제각각이지만 이 모든 제품을 관통하는 한 가지 문제의식이 있다. 바로 데이터의 '파편화'다.

02 — 진단문제의 근원, 데이터 파편화

문제의 심각성을 체감하려면 거창한 기업 사례보다 손안의 스마트폰을 들여다보는 편이 빠르다. 사진첩, 메시지, 일정, 메모, 지도 기록, 카드사 앱까지 — 한 사람의 일상이 수십 개의 앱에 흩어져 저장돼 있다. 그런데 이들은 서로 대화하지 않는다.

비유 — 손안의 데이터 사일로

"몇 해 전 가족과 산에 다녀와 들렀던 그 칼국수집 이름이 뭐였더라?" 답을 찾는 과정은 의외로 고통스럽다. 먼저 사진첩에서 등산 사진의 날짜를 확인하고, 지도 앱이나 카드사 앱을 열어 그 날짜의 결제 내역을 뒤지고, 그 시간대 식당 기록을 하나하나 대조해야 한다.

추억은 사진첩에, 위치는 지도에, 지출은 카드 명세서에 따로따로 갇혀 있기 때문이다. 데이터는 분명히 다 있는데, 서로 연결돼 있지 않아 정작 답을 못 준다.

개인의 일상이 이 정도인데, 수십 년간 쌓인 조직의 데이터는 어떻겠는가. 인사팀은 엑셀을, 재무팀은 ERP(Enterprise Resource Planning, 전사적 자원관리)를, 개발팀은 별도의 데이터베이스(DB, Database)를 쓴다. 어떤 부서는 날짜를 '2026.01.22'로 적고, 다른 부서는 'Jan 22, 2026'으로 적는다. 같은 제품의 고유번호조차 팀마다 부르는 방식이 다르다. 경영진이 판단을 위해 데이터를 요청하면, 실무자들은 서로 다른 형식의 파일을 손으로 취합하느라 밤을 새운다. 그렇게 모은 데이터는 이미 시점이 지났거나 오류투성이인 경우가 많다.

부서마다 따로 사는 데이터 인사·재무·영업·생산 시스템이 서로 다른 형식으로 같은 정보를 저장해 연결되지 않는 모습 부서마다 따로 사는 데이터 인사 · 엑셀 입사일 2021.03.02 사번 4521 재무 · ERP 입사일 02-Mar-21 사원 #4521 영업 · CRM 고객 C-0455 담당 김OO 생산 · DB 고객번호 455 라인 B-2 "우리 고객 4521은 누구이고, 어느 라인 제품을 샀나?" — 부서를 가로지르는 한 질문에 아무도 답하지 못한다
그림 1. 같은 사람·같은 제품인데도 부서마다 형식과 식별자가 다르다. 데이터는 모두 존재하지만 서로 연결돼 있지 않아, 경계를 넘는 질문 앞에서 무력해진다.

데이터는 넘쳐나지만 정작 쓸모 있는 지식은 빈곤한 상태, 이것이 '데이터의 역설'이다.

03 — 심층같은 사람이 시스템마다 다른 이름으로 산다

형식이 다른 것은 사실 표면적인 문제다. 더 깊은 곳에는 '동일성'의 문제가 있다. 한 직원을 떠올려보자. 인사 시스템에서는 사번 4521이고, 메일에서는 어떤 이메일 주소이며, 출입 통제 기록에서는 배지 A-4521이고, 금융 시스템에서는 계좌주 이름으로 존재한다. 사람의 눈에는 명백히 한 명이지만, 컴퓨터에게 이 넷은 아무 관련 없는 네 개의 문자열일 뿐이다.

그래서 필요한 작업이 '엔티티 정합(entity resolution)'이다. 흩어진 식별자들이 사실 같은 대상을 가리킨다는 것을 알아내, 하나의 '사람' 객체로 묶는 일이다. 더 중요한 것은 그다음이다. 이렇게 통합된 객체를 그 사람이 참여한 프로젝트, 다루는 설비, 작성한 보고서 같은 다른 객체들과 연결하면, 비로소 데이터가 현실의 관계망을 닮기 시작한다.

흩어진 식별자를 하나의 객체로 여러 시스템의 식별자가 하나의 사람 객체로 통합되고, 그 객체가 다른 객체들과 연결되는 구조 흩어진 식별자를 하나의 '객체'로 인사 · 사번 4521 메일 · j.smith@corp 출입 · 배지 A-4521 금융 · 계좌주 J.Smith 사람 (Person) John Smith 참여 사용 작성 프로젝트 설비 보고서
그림 2. 네 시스템에 흩어진 식별자를 하나의 '사람' 객체로 묶고(엔티티 정합), 그 객체를 프로젝트·설비·보고서와 연결한다. 데이터가 현실의 관계를 그대로 담은 구조로 다시 태어난다.

04 — 해법해결책의 이름, 온톨로지

이 연결 작업을 떠받치는 개념이 바로 '온톨로지(ontology)'다. 낯선 단어지만 뿌리는 오래됐다. 본래 철학에서 '존재론' — 세상에 어떤 종류의 것들이 있고 그것들이 어떻게 관계 맺는가를 따지는 분야 — 을 뜻하던 말이, 정보기술 분야로 넘어오며 '어떤 영역에 어떤 유형의 대상이 있고, 그들 사이에 어떤 관계가 성립하는가를 형식적으로 정의한 체계'를 가리키게 됐다.

핵심은 데이터를 물리적으로 한곳에 모으는 데 그치지 않는다는 점이다. 온톨로지는 흩어진 데이터 위에 한 겹의 '의미 계층'을 덮어, 데이터 조각들을 현실 세계의 사물·개념과 그 관계로 다시 잇는다. 사람, 주문, 제품, 설비, 거래 같은 객체가 정의되고, '사람이 주문을 생성한다' '주문이 제품을 포함한다' 같은 관계가 명시된다. 잘 만들어진 온톨로지는 사실상 조직 전체를 디지털 공간에 옮겨놓은 '디지털 트윈(digital twin)'처럼 작동한다.

비유 — 사진 더미 vs 지도

여행지 사진을 수백 장 모아둔다고 해서 그것이 '여행 지도'가 되지는 않는다. 사진 더미는 개별 사실의 모음일 뿐, 어디서 어디로 이동했고 무엇이 무엇과 가까운지를 말해주지 않는다.

지도는 다르다. 장소들 사이의 길, 거리, 방향 — 즉 '관계'를 담는다. 온톨로지는 데이터를 사진 더미에서 지도로 바꾸는 작업이다. 그래서 "그날 그 산행"이라는 한마디에 사진·위치·결제·날씨가 즉시 한 줄로 꿰어진다.

온톨로지 계층 원천 데이터가 객체와 관계로 이루어진 온톨로지 계층으로 매핑되는 구조 온톨로지: 데이터를 현실의 객체와 관계로 생성 포함 사용 정산 매출 사람 주문 제품 설비 거래 ▲ 온톨로지 계층 — 객체·관계 ▼ 원천 데이터 인사 · 엑셀 재무 · ERP 영업 · CRM 생산 · DB
그림 3. 아래쪽 원천 데이터를 위쪽 '객체와 관계'의 그물로 끌어올려 매핑한다. 이 의미 계층이 온톨로지이며, 그 위에서 비로소 경계를 넘는 질문에 답할 수 있다.

05 — 구분지식그래프와 온톨로지, 무엇이 다른가

온톨로지는 흔히 '지식그래프(knowledge graph)'와 짝을 이루어 언급된다. 둘의 관계는 설계도와 완성된 건물의 관계에 가깝다. 온톨로지가 '어떤 유형의 객체가 있고 어떤 연결이 허용되는가'를 규정한 청사진이라면, 지식그래프는 그 청사진에 따라 실제 데이터를 채워 넣은 거대한 관계망이다. RDF(Resource Description Framework)나 OWL(Web Ontology Language) 같은 표준 언어가 이 규칙을 기계가 읽을 수 있게 형식화한다.

이 구분이 중요한 이유가 있다. 규칙이 명시돼 있으면, 데이터에 직접 적혀 있지 않은 관계까지 시스템이 '추론'해낼 수 있기 때문이다. 가령 'A는 B의 상위 조직, B는 C의 상위 조직'이라는 두 사실만 있어도, 'A는 C의 상위 조직'을 자동으로 끌어낸다. 데이터가 단순한 저장소를 넘어, 스스로 의미를 확장하는 지식이 되는 지점이다.

06 — 전환인공지능이 바꾼 판: LLM이 온톨로지를 만나다

과거에 온톨로지 구축은 막대한 비용과 시간이 드는 수작업의 영역이었다. 사람이 일일이 객체를 정의하고 관계를 손으로 잇는 일이었기 때문이다. 생성형 인공지능(AI, Artificial Intelligence)과 거대언어모델(LLM, Large Language Model)의 등장이 이 판도를 뒤집었다. 이제 인공지능이 방대한 데이터를 읽고 스스로 맥락을 파악해, 업무 용어집을 기계가 읽을 수 있는 의미 구조로 옮기며 온톨로지 구축과 확장을 돕는다.

그런데 더 결정적인 것은 그 반대 방향이다. 잘 정리된 온톨로지가 거꾸로 인공지능을 단단히 붙들어주는(grounding) 역할을 한다. 혼자 둔 LLM은 패턴을 따라 그럴듯한 답을 지어내며 '환각(hallucination)'을 일으키기 쉽다. 반면 온톨로지 위에서 작동하는 LLM은 검증된 객체와 실시간 관계를 근거로 답하고, 그 추론 경로까지 되짚을 수 있다.

비유 — 똑똑하지만 회사를 모르는 신입

LLM은 명문대를 갓 졸업한 비범한 신입사원과 같다. 말은 유창하고 글도 잘 쓰지만, 우리 회사의 조직도도, 업무 절차도, 어느 캐비닛에 어떤 장부가 있는지도 모른다. 이 상태에서 "우리 최대 거래처가 어디냐"고 물으면, 신입은 모른다고 하기보다 그럴듯하게 지어낸다.

온톨로지는 이 신입에게 건네는 '업무 인수인계서'이자 '캐비닛 열쇠 꾸러미'다. 회사의 객체와 관계, 그리고 실시간 장부에 접근할 길을 쥐여주는 순간, 같은 신입이 지어내기를 멈추고 근거 위에서 답하기 시작한다.

업계는 이 차이를 검색증강생성(RAG, Retrieval-Augmented Generation)과 온톨로지증강생성(OAG, Ontology-Augmented Generation)의 대비로 설명한다. RAG는 문서 뭉치에서 관련 텍스트를 찾아 LLM에게 넘기고, LLM은 그 조각들을 짜깁기한다. 빠르지만 환각의 여지가 있고, 답이 곧바로 행동으로 이어지지 않는다. OAG는 텍스트 대신 구조화된 업무 객체와 그 관계를 질의해 정확히 일치하는 답을 끌어내고, 나아가 승인 절차를 거친 실제 업무 실행까지 연결한다.

RAG와 OAG의 차이 검색 기반 RAG와 온톨로지 기반 OAG의 처리 흐름 비교 검색 기반 · RAG 온톨로지 기반 · OAG 질문 입력 문서 뭉치에서 텍스트 검색 LLM이 조각을 짜깁기 그럴듯하나 환각 위험 행동으로 이어지지 못함 질문 입력 온톨로지 객체에 정확 매칭 검증된 관계 위에서 추론 근거 있는 답 승인 워크플로까지 실행
그림 4. RAG는 텍스트를 검색해 짜깁기하지만, OAG는 구조화된 객체와 관계를 질의해 근거 있는 답을 내고 실제 업무 실행으로 잇는다. 환각 자체를 사후에 고치는 대신, 애초에 맥락을 단단히 깔아 막는 접근이다.

07 — 검증왜 지금 이 모델이 폭발적으로 성장하는가

이 설계 사상이 옳다는 것을, 시장이 숫자로 증언하고 있다. 회사가 공시한 2025년 4분기 실적과 이듬해 가이던스는 엔터프라이즈 소프트웨어 업계에서 보기 드문 성장세를 보여준다.

+70%
2025년 4분기 총매출
증가율 (전년 동기 대비)
+137%
미국 상업부문 매출
증가율 (전년 동기 대비)
약 72억$
2026년 연간 매출
가이던스 (약 +61%)

회사 공시 기준(2025년 4분기 실적 발표 및 2026 회계연도 가이던스). 시장의 평가는 시점에 따라 달라질 수 있다.

주목할 점은 이 성장이 화려한 챗봇 때문이 아니라는 것이다. 동력은 단순하다. 조직들이 마침내 자기 데이터를 '행동으로 옮길 수 있을 만큼' 연결하기 시작했고, 그 위에서 인공지능이 환각 없이 실제 업무를 처리하기 시작했다는 점이다. 정부·국방에서 출발한 데이터 통합 역량이 제조·물류·금융 같은 일반 산업으로 빠르게 번지는 중이다.

한국과의 접점도 있다. 팔란티어는 HD현대와의 협력을 조선·정유·건설기계·로보틱스·전동화 전반으로 확장하며, 파운드리와 2023년 내놓은 인공지능 플랫폼(AIP, Artificial Intelligence Platform)을 현장에 투입하고 있다고 밝혔다. 회사가 한국에서 맺은 가장 크고 오래된 협력으로 소개된 사례다. 나아가 전력 사업자·계통 운영자·데이터센터를 겨냥한 에너지 인프라용 소프트웨어 구상도 내놓았는데, 데이터가 폭증하는 전력·인프라 영역 역시 같은 파편화 문제를 안고 있다는 신호다.

08 — 정리진짜 경쟁력은 어디에 있나

기술의 화려함 뒤에 가려진 진실은 의외로 단순하다. 아무리 똑똑한 도구를 들여와도, 데이터가 뒤죽박죽이면 그 도구는 이내 바보가 된다. 거꾸로, 데이터가 객체와 관계로 잘 정돈돼 있으면 평범한 도구도 똑똑하게 일한다. 인공지능 시대의 승부는 가장 최신 모델을 누가 먼저 도입하느냐가 아니라, 자기 데이터를 누가 더 체계적으로 연결하고 다스리느냐에서 갈린다.

이 원리는 규모를 가리지 않는다. 국가와 거대 기업의 데이터에 적용되는 논리가, 앞서 살펴본 스마트폰 속 흩어진 일상에도 똑같이 적용된다. 결국 우리가 팔란티어의 부상을 통해 읽어야 할 것은 종목의 등락이 아니라, 데이터를 다루는 방식 그 자체에 관한 질문이다. 당신의 데이터는 사진 더미인가, 아니면 지도인가.