Essay

바보야! 문제는 데이터야! — AI 시대, 우리가 놓치고 있는 진짜 경쟁력

2026.02.21 · 3 min read · KO

“어떤 LLM을 쓸까”, “어떤 에이전트가 더 똑똑한가.” 요즘 기업 회의실에서 가장 자주 오가는 질문이다. 거대언어모델의 벤치마크 점수가 갱신될 때마다 업계는 들썩인다. 그러나 현장에서 AI 프로젝트가 좌초하는 이유를 들여다보면, 모델의 지능이 부족해서가 아닌 경우가 대부분이다. 문제는 언제나 데이터다. 1992년 미국 대선에서 클린턴 진영의 전략가 제임스 카빌이 선거 사무실 벽에 붙인 “It’s the economy, stupid”처럼, 오늘날 AI 산업에도 같은 자기 경고가 필요한 시점이다. 바보야, 문제는 데이터야.

e-디스커버리 전문기업 TCDI는 GenAI 도구를 소송 관리에 적용한 뒤, 성능 부진의 원인 대부분이 지저분한 입력 데이터에 있었다고 보고하며, 이 구호를 글 제목으로 내걸었다. 화려한 AI 기능이 있어도 중복, 누락 같은 데이터 문제를 방치하면 결과는 무너진다.

앤드류 응은 “AI 연구의 대부분이 모델 중심”이라고 지적하며 데이터-센트릭 AI로의 전환을 주장해왔다. MIT를 포함한 학계에서도 모델을 바꾸는 것보다 데이터를 체계적으로 개선하는 것이 성능 향상에 더 효과적이라고 강조한다. 실제로 제조업 결함 검출 사례에서, 여러 최신 모델을 교체해도 개선이 없던 문제가 라벨링 가이드 통일과 에지 케이스 수집만으로 정확도가 16%포인트 이상 향상되었다. 코드를 튜닝할 것이 아니라, 데이터를 체계적으로 바꿀 방법을 물어야 한다는 것이 그의 결론이다. 이제 연구의 패러다임은 더 훌륭한 모델을 만드는 것에서, 어떻게 품질 좋은 데이터를 생산할 것인가로 무게중심을 옮겨야 한다.

데이터의 중요성은 세 차원에서 드러난다. 첫째, 품질이 성능을 결정한다. 의료 영상 진단과 리테일 수요예측 분야에서 소규모이지만 정제된 데이터가 훨씬 큰 규모의 조잡한 데이터보다 나은 성능을 보인 사례가 이를 증명한다. 얼굴 인식 분야에서는 특정 인종에 편중된 학습 데이터가 심각한 오인식을 낳아 사회적 논란이 되기도 했다. 양이 질을 대체할 수 없다는 것은 이제 실증적 사실이다. 둘째, 거버넌스 없이 신뢰도 없다. 데이터의 수집 경로와 라벨링 기준, 편향 유입 지점을 추적할 수 없다면 모델의 결과를 신뢰하라고 요구할 근거 자체가 사라진다. EU AI법이 고위험 AI 시스템에 학습 데이터 거버넌스를 의무화한 것은 바로 이런 맥락이다. 셋째, 데이터 품질은 곧 비용의 문제다. 2024년 Fivetran 조사에 따르면 저품질 데이터는 기업 매출의 평균 6%, 약 4억 600만 달러 수준의 손실을 유발한다. 모델 라이선스를 비교하는 시간에 데이터 인프라에 투자했다면 더 큰 수익률을 얻었을 것이다.

한국의 상황도 다르지 않다. 적지 않은 기업이 AI센터를 설립했지만, 데이터 정합성을 전담하는 조직은 부재하다는 지적이 끊이지 않는다. 화려한 에이전트 프레임워크를 도입하면서도, 그것이 참조할 사내 문서의 중복, 버전 불일치, 메타데이터 부재 같은 근본 문제는 방치되곤 한다. 과거 빅데이터 열풍 때 “일단 쌓으면 가치가 나온다”는 믿음으로 거대한 데이터 레이크를 만들었지만, 질문 없이 쌓인 데이터는 공허했다. 문제 정의와 데이터, 모델이 맞물린 전체 설계 없이는 같은 실패가 되풀이될 뿐이다.

해법은 데이터-센트릭 루프에 있다. 모델의 약점을 분석하고, 이를 보완할 데이터를 엔지니어링하고, 재학습하고, 다시 분석하는 순환 구조다. 도메인 전문가가 라벨링 기준을 설계하고, 데이터 엔지니어가 파이프라인을 구축하고, AI 엔지니어가 모델을 학습시키는 삼자 협업이 이 루프의 핵심이다. 한 번 모은 데이터로 끝이 아니라, 지속적으로 업그레이드하는 프로세스 자체를 운영 자산으로 관리해야 한다. 이 루프를 얼마나 빠르고 정확하게 돌리느냐가 앞으로 AI 경쟁력을 가를 것이다.

다음 회의에서 “어떤 모델이 1등이냐”를 논의하고 있다면, 잠시 멈추고 이렇게 물어보자. “우리는 믿을 만한 데이터가 있는가?” 최고의 셰프에게 상한 재료를 주면 좋은 요리가 나올 수 없듯, 최고의 모델에게 지저분한 데이터를 주면 좋은 결과는 나오지 않는다. 바보야, 문제는 데이터야.