데이터 · 인공지능 · 기업 시스템
제조와 금융 현장에서 온톨로지가 만드는 변화, 그리고 그 효과를 수치로 따져보다
기업이 온톨로지를 검토할 때 가장 먼저 던지는 질문은 단순하다. "적용하면 무엇이, 어떻게 좋아지는가." 온톨로지는 데이터를 더 많이 쌓는 기술이 아니라, 이미 쌓인 데이터의 의미와 관계를 정리해 사람과 인공지능이 같은 언어로 일하게 만드는 구조다. 이 글은 개념을 짧게 정리한 뒤, 제조와 금융 현장에서 실제로 무엇이 달라지는지를 구체적 사례와 수치로 살펴본다.
대부분의 기업은 데이터가 부족해서 어려움을 겪지 않는다. 오히려 데이터는 차고 넘친다. 전사적 자원관리(ERP, Enterprise Resource Planning) 시스템에 거래 기록이 쌓이고, 제조실행시스템에 설비 신호가 흐르며, 문서 관리 시스템에 도면과 규정과 계약서가 축적된다. 문제는 이 데이터들이 서로 다른 시스템에, 서로 다른 이름과 형식으로 흩어져 있다는 점이다. 같은 부품을 한 시스템은 품번으로, 다른 시스템은 자재 코드로, 또 다른 시스템은 거래처가 붙인 별칭으로 부른다.
이렇게 흩어진 데이터에서 "이 고객 불만이 어느 생산 로트에서, 어느 협력사 자재에서 비롯됐는가"를 추적하려면, 사람이 여러 시스템을 오가며 코드를 대조하고 맥락을 재구성해야 한다. 데이터는 충분한데 의미가 연결되어 있지 않은 것이다. 온톨로지는 바로 이 지점을 겨냥한다.
온톨로지(ontology)는 한 분야에 존재하는 개념(객체)과 그 개념들 사이의 관계를 형식적으로 정의한 약속이다. "설비는 부품으로 구성된다", "부품은 협력사가 공급한다", "협력사는 특정 지역에 위치한다"처럼, 사람이 머릿속에서 당연하게 연결하는 관계를 기계가 읽고 추론할 수 있는 형태로 적어 둔 것이다. 이 정의 위에 실제 데이터를 채워 넣으면 지식그래프(KG, Knowledge Graph)가 된다.
표 형식의 데이터베이스가 도시의 '전화번호부'라면, 온톨로지 기반 지식그래프는 그 도시의 '지하철 노선도'에 가깝다. 전화번호부는 누가 어디에 사는지를 한 줄씩 알려주지만, 두 사람이 어떻게 연결되는지는 말해주지 않는다. 노선도는 역(객체)과 노선(관계)을 함께 그려, "여기서 저기까지 어떤 경로로 갈 수 있는가"를 한눈에 보여준다. 온톨로지는 데이터에 이 '노선'을 부여하는 작업이다.
같은 사실이라도, 표로 흩어져 있을 때와 객체·관계로 연결되어 있을 때 기계가 추론할 수 있는 폭이 달라진다. 온톨로지는 오른쪽 구조의 설계도에 해당한다.
세 용어는 자주 섞여 쓰이지만 역할이 다르다. 택소노미(taxonomy)는 개념을 위에서 아래로 분류하는 계층 구조다. "동물 → 포유류 → 고양이"처럼 갈래를 나눈다. 온톨로지는 여기에 분류를 넘는 관계와 규칙을 더한다. "고양이는 포유류다"뿐 아니라 "약은 활성 성분을 가지며, 특정 약과 상호작용해 부작용을 일으킨다" 같은 논리적 제약을 기술한다. 지식그래프는 이 온톨로지라는 틀에 실제 개체를 채워 넣은 결과물이다. "아스피린은 살리실산을 함유하며 와파린과 상호작용한다"처럼 구체적 사실의 그물망이 된다.
기술 표준 측면에서는 자원 기술 프레임워크(RDF, Resource Description Framework)와 웹 온톨로지 언어(OWL, Web Ontology Language)가 오랜 표준으로 자리 잡았고, 이를 설계하는 도구로는 프로테제(Protégé) 같은 편집기가 널리 쓰인다. 온톨로지를 처음부터 구축할 때는 분야의 핵심 용어를 추려내고, 클래스와 그 계층을 정의하고, 속성과 관계를 정의하는 이른바 '7단계 방법'이 학계와 산업에서 표준처럼 활용된다. 최근에는 대규모 언어모델(LLM, Large Language Model)을 활용해 문서에서 개념과 관계를 자동으로 추출하면서, 과거 수개월이 걸리던 구축 작업을 며칠 단위로 단축하려는 시도가 빠르게 늘고 있다.
몇 해 전만 해도 기업은 대규모 언어모델로 곧장 무언가를 해결하려 했다. 그러나 그럴듯하지만 사실과 다른 답을 내놓는 환각(hallucination) 문제가 발목을 잡았다. 모델은 통계적으로 확률이 높은 단어를 이어 붙일 뿐, 자신이 내놓은 답의 근거를 보장하지 못한다. 숫자가 단 하나만 틀려도 연쇄적으로 어긋나는 미션 크리티컬한 계산이나, 규제·계약처럼 한 글자의 오류도 허용되지 않는 영역에서는 이 한계가 치명적이다.
그 대안으로 떠오른 것이 검색 증강 생성(RAG, Retrieval-Augmented Generation)이다. 모델이 답을 생성하기 전에 외부의 신뢰할 수 있는 문서를 먼저 찾아 근거로 삼는 방식이다. 다만 일반적인 RAG는 문서를 조각으로 잘라 유사도로 검색하기 때문에, 여러 단계를 건너뛰며 연결을 추론해야 하는 질문에는 약하다. 여기서 온톨로지와 지식그래프가 결합한 그래프 기반 검색 증강 생성(GraphRAG, Graph-based Retrieval-Augmented Generation)이 등장한다. 모델이 답하기 전에 지식그래프의 검증된 사실과 관계를 따라가며 근거를 모으고, 그 위에서 언어를 생성하는 것이다.
일반 검색 증강 생성이 도서관에서 키워드가 비슷한 책 몇 권을 뽑아 읽고 답하는 사서라면, 그래프 기반 방식은 사건의 인물·장소·시간을 연결한 수사 보드를 보며 추론하는 형사에 가깝다. 사서는 "이 단어가 나오는 페이지"를 잘 찾지만, "이 사람과 저 사건이 어떻게 이어지는가"는 잘 답하지 못한다. 형사는 흩어진 단서를 선으로 잇기 때문에 여러 단계를 건너뛴 관계를 따라갈 수 있다.
효과는 측정으로 나타난다. 한 그래프 데이터베이스 진영의 보고에 따르면, 지식그래프를 결합한 방식이 전통적 검색 증강 생성 대비 환각을 약 90% 줄이면서 50밀리초 이하의 빠른 질의 응답을 유지했다고 한다. 산업용 대화형 인공지능을 다룬 한 연구에서는, 온톨로지를 결합한 시스템의 상위 5개 검색 정밀도가 91~93%로, 그렇지 않은 기준 시스템의 63~71%를 크게 앞섰다. 수치는 환경과 정의에 따라 달라지므로 절대값보다 방향성으로 읽는 편이 안전하지만, 의미 구조가 모델의 답을 '땅에 묶어두는(grounding)' 효과는 일관되게 관찰된다.
언어모델이 곧장 답하는 대신, 지식그래프의 검증된 관계를 먼저 거치면 답의 근거와 도출 경로를 함께 남길 수 있다. 이 추적 가능성이 의사결정 현장에서 답을 '참고'에서 '채택'으로 끌어올린다.
이 추적 가능성은 단순한 정확도 향상을 넘어선다. 모델이 어떤 답을 내놓았을 때, "왜 이 답이 나왔는가"를 근거로 뒷받침하지 못하면 현장의 의사결정자는 그 답을 참고용으로만 쓰고 결국 사람이 직접 근거를 찾아 판단한다. 온톨로지는 의사결정의 근거와 원인, 그리고 "왜 이런 결정을 내렸는가"의 경로까지 남기기 때문에, 의사결정 과정 전체를 사후에 설명하고 감사할 수 있는 체계를 제공한다. 규제 산업에서 특히 무겁게 받아들여지는 가치다.
모든 영역이 온톨로지를 똑같이 필요로 하지는 않는다. 도입 효과가 큰 영역에는 공통된 특징이 있다. 첫째, 연관된 시스템이 많다. 둘째, 객체와 관계의 구조가 복잡하다. 셋째, 의사결정 자체가 여러 변수에 얽혀 있다. 이 세 조건이 겹치는 영역에서 글로벌 제조 기업들이 온톨로지를 적극 적용하고 있다.
공급망 관리(SCM, Supply Chain Management)는 이 세 조건을 모두 갖춘 대표 영역이다. 수요자인 고객이 있고, 자재를 대는 공급 업체가 있으며, 회사 내부에는 생산·구매·영업이 서로 얽혀 있다. 한 곳에서 재고가 갑자기 늘었다고 하자. 원인은 여러 갈래다. 수요 예측이 바뀌었을 수도, 공급사의 리드타임이 길어졌을 수도, 담당자의 전략적 판단이 개입했을 수도 있다. 객체들이 그물처럼 엮여 서로 영향을 주고받기 때문에, 원인을 한눈에 짚으려면 이 관계 전체를 따라갈 수 있어야 한다.
특히 다단계(multi-tier) 공급망에서 효과가 두드러진다. 많은 기업이 1차 협력사의 위험만 표 계산기로 관리하지만, 실제 공급망은 2차·3차로 깊게 이어진다. 멀리 떨어진 3차 부품사의 차질이 네 단계를 거슬러 완제품 생산을 멈추게 만들 수 있는데, 표만 들여다봐서는 그 연쇄가 닥치기 전까지 보이지 않는다. 지식그래프 위에서는 원자재 공급사에서 생산 로트, 물류, 매장, 고객 불만까지 이어지는 경로를 하나의 질의로 거슬러 올라갈 수 있다. 이렇게 제품 생애주기 전체를 잇는 연결된 데이터 흐름을 흔히 '디지털 스레드(digital thread)'라 부른다.
하위 단계의 작은 차질이 여러 단계를 건너 완제품에 영향을 준다. 관계가 그래프로 연결돼 있으면 이 전파 경로를 미리 따라가 위험을 가시화할 수 있다.
여기에 더해, 계획과 실제의 괴리를 줄이는 데도 쓰인다. 기업은 얼마나 생산하고 재고를 얼마나 가져가며 얼마나 팔지를 계획하지만, 실제 실적은 늘 어긋난다. 이 괴리가 왜 생기는지를 사전에 파악하면 매출을 높이거나 비용을 줄일 여지가 생긴다. 관계가 정리돼 있으면 계획 변수와 실적 변수 사이의 인과를 따라가기가 쉬워진다.
설비 영역은 단순히 장비 한 대의 정보만 다루지 않는다. 공정 배관 계장도(P&ID, Piping and Instrumentation Diagram) 같은 도면, 정비 이력과 매뉴얼 같은 문서, 부품을 공급한 업체 정보가 한 설비를 중심으로 얽혀 있다. 고장의 원인을 파악하려면 이 많은 개체가 어떻게 연결되는지를 함께 봐야 한다. 도면의 한 밸브가 어느 부품 번호이고, 그 부품을 어느 업체가 언제 납품했으며, 과거 어떤 정비 기록이 있었는지가 끊김 없이 이어져야 비로소 맥락이 보인다.
국제 표준으로는 설비·기능·위치를 체계적으로 식별하는 명칭 체계 표준(예: ISO 81346)이 이런 온톨로지의 토대로 활용된다. 표준화된 식별 체계 위에 설비 데이터를 올리면, 사람이 시스템을 옮겨 다니며 코드를 대조하던 작업이 그래프 질의 하나로 대체된다.
반도체 공정에서는 위험성 평가가 필수다. 특정 제품을 만들 때 공정이 얼마나 위험한지, 유해 가스가 얼마나 발생하는지를 평가하고 대비해야 한다. 위험성 및 운전성 분석(HAZOP, Hazard and Operability Study) 같은 절차가 그것이다. 설계를 바꾸면 어떤 위험 인자에 영향이 가는지를 빠르게 파악하는 일이 설계 단계에서 특히 중요하다.
온톨로지가 설계 요소와 위험 인자의 관계를 정리해 두면, 설계를 바꿨을 때 어떤 위험이 어떻게 변하는지를 생성형 인공지능을 통해 미리 시뮬레이션해 볼 수 있다. 이는 디지털 트윈(digital twin)으로 가기 전 단계에 해당한다. 먼저 의미와 관계로 짜인 '원수(原樹)'를 만들고, 그 위에서 디지털 공간의 시뮬레이션을 돌리는 시도가 이어지고 있다.
설계 변경 영향 분석은 도미노 배열을 바꾸는 일과 같다. 도미노 한 조각의 위치를 옮기면, 그 뒤로 어떤 조각들이 차례로 영향을 받는지 알아야 한다. 표 데이터는 도미노를 하나씩 목록으로 적어 둘 뿐이지만, 온톨로지는 어느 조각이 어느 조각을 넘어뜨리는지 연결을 그려 둔다. 그래서 한 조각을 옮기기 전에 "이 변경이 어디까지 번지는가"를 손대지 않고도 미리 볼 수 있다.
주목할 점은, 이런 영역이 한 글자의 오차도 허용하지 않는 미션 크리티컬한 계산을 포함한다는 것이다. 수요 계산에서 앞 단계가 하나만 틀리면 뒤따르는 수십, 수백 단계가 모두 틀어진다. 환각이 생기는 언어모델만으로는 이런 업무를 자동화하기 어려웠고, 그래서 검증된 관계를 제공하는 온톨로지가 현실적인 대안으로 부상했다.
은행, 증권, 카드, 보험에 이르는 모든 금융사가 지식그래프와 온톨로지를 활용하고 있다. 금융은 데이터의 양이 방대하고 규제가 촘촘하며, 개체 간 관계가 위험과 직결된다는 점에서 온톨로지의 효과가 크게 나타나는 분야다.
금융 쪽에서는 일주일에 한두 번꼴로 외부에서 규정이 바뀐다. 규정이 바뀌면 내부 시스템을 그때그때 빠르게 손봐야 하는데, 이 비정형 규정이 들어왔을 때 시스템적으로 어떻게 바꿔야 하는지를 신속히 처리할 수 있다면 비용이 크게 절감된다. 온톨로지는 규제 기관·규제 문서·조항·준수 의무·적용 대상 같은 핵심 개념을 정의하고, 각 조항이 다른 조항과 어떤 관계(참조·개정·대체·보충·충돌)에 있는지를 구조화한다. 규정 한 줄이 바뀌면 그 영향이 어느 시스템과 어느 업무로 전파되는지를 추적할 수 있게 되는 것이다.
이 영역에는 잘 다듬어진 공개 표준이 존재한다. 금융산업 비즈니스 온톨로지(FIBO, Financial Industry Business Ontology)는 금융 개념과 관계를 표준화한 대표적 온톨로지이며, 이를 바탕으로 은행·보험·펀드 규제를 통합한 금융 규제 온톨로지 같은 파생 표준도 나와 있다. 위험 데이터의 정합성을 요구하는 바젤 은행감독위원회 표준 239(BCBS 239, Basel Committee on Banking Supervision Standard 239) 대응에도 이런 연결된 데이터 기반이 활용된다. 일부 감독 당국은 금융권 데이터 수집 자체를 공통 데이터 표준 위에서 일관되게 재설계하려는 작업을 진행하면서, 그 토대로 온톨로지 모델링을 채택하고 있다.
금융권에서 가장 활발하게 쓰이는 영역 중 하나가 사기 탐지와 자금세탁 방지(AML, Anti-Money Laundering)다. 계좌·거래·기기·지역 정보를 하나의 그래프로 연결하면, 개별 거래만 봐서는 보이지 않던 행동 패턴과 자금 흐름이 드러난다. 모회사와 자회사의 관계, 겉으로 드러나지 않은 지분 구조처럼 평판 위험이나 규제 위반의 단서가 되는 숨은 연결을 추론으로 짚어낼 수 있다. 고객확인제도(KYC, Know Your Customer)에서 요구하는 추적성과 투명성도 같은 구조 위에서 강화된다.
탐지에 그치지 않고 설명까지 제공한다는 점이 중요하다. 규제 대응에서는 모델의 판단이 해석 가능하고 추적 가능해야 하는데, 전통적인 딥러닝 모델은 흔히 근거를 설명하지 못하는 '블랙박스'로 작동한다. 지식그래프 기반은 의심 거래를 짚을 때 그래프 위의 어떤 경로를 따라 그런 판단에 이르렀는지를 함께 제시할 수 있다. 위험을 추적하고 논리를 투명하게 드러내므로, 오탐을 줄이면서 규제 신뢰성을 높이는 방향으로 작동한다.
보험에서는 장기 지급 심사와 인수 심사(언더라이팅)에 대한 관심이 높다. 약관을 단순 검색하는 단계를 넘어, 어떻게 하면 지급 심사를 정확히 하고 인수 심사의 품질을 높일지가 과제다. 청구 데이터, 약관, 사기 지표가 관계로 연결되면 청구 관리의 정확도가 올라간다. 증권에서는 실시간 상담 처리와 내부 통제 시스템에 대한 관심이 커지고 있다. 어느 경우든 핵심은 같다. 흩어진 규칙과 사실을 관계로 묶어, 사람이 일일이 대조하던 판단을 더 빠르고 정확하게 만드는 것이다.
약관 검색만 하는 시스템이 두꺼운 법전에서 비슷한 단어가 나오는 조항을 찾아 주는 사전이라면, 온톨로지 기반 심사는 사건의 사실관계와 조항을 잇는 판례 분석에 가깝다. 사전은 "이 단어가 어디 나오는가"를 알려주지만, "이 청구가 이 조항의 적용을 받는가, 받는다면 왜인가"는 답하지 못한다. 조항과 사실을 관계로 연결해야 비로소 판단의 근거를 댈 수 있다.
도입 효과는 대체로 세 단계로 나타난다. 처음에는 눈에 보이는 운영비 절감으로 접근하고, 이어 업무 자동화와 데이터 재활용으로 확장되며, 끝에는 매출과 직결되는 핵심 업무의 체계화로 이어진다.
가장 직관적인 효과다. 어느 기업은 설계 검증 단계에서 기존 자료를 조회하고 검토하는 데 전체 시간의 30% 가량을 쓰고 있었는데, 온톨로지로 관계가 정리되자 그 조회·검토 시간이 거의 0에 가까워졌다고 한다. 초기 단계에서만도 운영비의 30% 이상을 줄일 수 있다는 의미다. 흩어진 자료를 사람이 찾아 맞추던 시간이 사라지는 것이 첫 번째 효과다.
다음 단계에서는 업무 자체가 자동화되는 쪽으로 넘어간다. 기존에 보유하던 데이터가 재활용되므로 적용 범위가 빠르게 확장된다. 투자수익률(ROI, Return on Investment)의 절대 금액은 업무마다 다르지만, 한 번 정리한 의미 구조가 여러 업무에 거듭 쓰이면서 효과가 누적된다는 점이 핵심이다.
마지막 단계에서는 매출과 직접 연결되는 핵심 업무가 체계화·효율화된다. 반도체 수요를 계산하거나 생산 체계의 형태 자체를 바꾸는 것처럼, 직접 매출에 영향을 주는 업무가 정돈되면 투자수익률은 앞 단계와 비교할 수 없을 만큼 커진다. 일부 플랫폼은 이 단계를 매출원가(COGS, Cost of Goods Sold)와 수익성 모델을 제품 단위까지 잇는 디지털 트윈으로 구현하기도 한다.
비용 절감보다 더 본질적인 효과는 의사결정의 속도와 품질에 있다. 이틀에 한 번 의사결정하는 기업과 10분마다 의사결정할 수 있는 구조를 가진 기업은, 변화하는 환경에 대응하는 능력 자체가 다르다. 단순히 지금 발생하는 비용을 줄이는 관점보다, 느린 의사결정 때문에 놓치는 기회비용 관점에서 볼 때 투자수익률은 훨씬 커진다. 여기에 의사결정의 품질까지 높아지면, 같은 기업이라도 정확한 판단을 더 자주 내리게 된다.
언어모델 단독은 빠르지만 근거가 약하고, 전문가 수작업은 정확하지만 느리다. 온톨로지는 속도와 품질을 동시에 끌어올려 근거 추적까지 남기는 우상단을 목표로 한다.
속도와 품질은 어느 업종이든 결국 고객 만족과 경쟁력으로 이어진다. 빠르고 정확한 의사결정은 그 자체로 비즈니스의 힘이 된다. 이것이 비용 절감 수치만으로는 다 담기지 않는, 온톨로지 도입의 더 큰 가치다.
효과가 분명한 만큼 비용과 한계도 분명하다. 온톨로지 구축은 노동집약적이다. 분야 전문가가 클래스와 관계, 제약을 설계하는 작업은 논리적 엄밀성을 보장하는 대신 시간이 많이 들고 경직되기 쉽다. 사업 환경이 바뀌면 기존 그래프 구조를 새 온톨로지로 옮겨야 하는 스키마 진화 문제도 따라온다. 최근에는 언어모델로 구축 작업의 상당 부분을 자동화하면서 이 진입 장벽을 낮추고 있지만, 산업 현장이 요구하는 품질과 일관성을 유지하려면 여전히 사람의 검증이 필요하다.
아키텍처 선택도 고민거리다. 한 진영은 자체 객체 프레임워크 위에 폐쇄형으로 온톨로지를 구축해 거버넌스와 운영 논리를 강하게 묶고, 다른 진영은 기존 데이터베이스 표준 위에 개방형으로 의미 계층을 얹는다. 폐쇄형은 통합과 실시간 의사결정에 강하지만 특정 플랫폼에 종속되는 비용을 치르고, 개방형은 유연하지만 통합 책임을 도입 기업이 더 떠안는다. 어느 쪽이든, 온톨로지의 품질은 그 토대가 되는 설계의 품질을 넘어서지 못한다는 원칙은 같다.
온톨로지와 지식그래프 시장은 빠르게 커지고 있다. 기업용 지식그래프 시장 규모는 2024년 약 10억 달러대 초반에서 2025년 14억 달러대로 추정되며, 한 시장조사 기관은 전체 지식그래프 시장이 2032년경 약 99억 달러 수준에 이를 것으로 전망한다. 수치는 조사 기관과 시장 정의에 따라 편차가 크므로 정밀한 값보다 가파른 성장 추세로 읽는 편이 합리적이다.
적용이 가장 활발한 부문은 은행·증권·보험을 아우르는 금융업이다. 복잡한 금융 데이터를 다루고 규제 준수를 보장해야 한다는 두 가지 압력이 동시에 작용하기 때문이다. 제조와 물류, 방위·공공 인프라가 그 뒤를 잇는다. 공통점은 앞서 짚은 세 조건, 즉 시스템이 많고 관계가 복잡하며 의사결정이 까다로운 영역이라는 점이다.
흐름의 방향도 분명하다. 초기에는 사람이 쓰는 검색·조회 도구로 출발했지만, 지금은 인공지능 에이전트가 직접 읽고 추론하는 토대로 무게중심이 옮겨가고 있다. 의미 계층이 잘 짜여 있을수록 그 위에서 작동하는 인공지능의 신뢰성이 올라가기 때문이다. 데이터를 인공지능이 다룰 수 있는 형태로 정리하는 경쟁에서, 온톨로지는 그 출발선에 해당한다.
온톨로지의 가치는 한 문장으로 좁혀진다. 데이터를 더 쌓는 것이 아니라, 쌓인 데이터의 의미와 관계를 정리해 사람과 인공지능이 같은 언어로 일하게 만드는 것이다. 그 결과 환각이 줄고, 의사결정의 근거가 추적 가능해지며, 흩어진 시스템을 오가던 시간이 사라진다.
효과는 운영비 절감에서 시작해 업무 자동화로, 다시 매출과 직결되는 핵심 업무의 체계화로 확장된다. 그러나 가장 큰 가치는 비용 절감 자체보다, 빠르고 정확한 의사결정이 만들어 내는 기회비용의 회수에 있다. 구축에는 분명한 비용과 노동이 따르고 만능 해법도 아니지만, 시스템이 많고 관계가 복잡하며 판단이 까다로운 영역일수록 그 투자는 더 크게 돌아온다. 데이터가 넘치는 시대에, 진짜 경쟁력은 데이터의 양이 아니라 그 의미를 얼마나 잘 연결했는가에서 갈린다.