AI가 읽지 못하는 나라

공무원 14,208명에게 물었다. “당신 기관의 문서를 AI가 읽을 수 있습니까?” 91.1%가 아니라고 답했다. HWP와 스캔 PDF에 갇힌 행정 문서를 기계는 열어볼 수조차 없다. 공무원의 68.9%가 이미 생성형 AI를 사용해본 경험이 있고, 그 중 67.5%는 외부 인터넷 네트워크에서 외국산 AI를 쓰고 있다. AI 시대에 정부 문서는 최고 품질의 데이터 자산이어야 하는데, 정작 기계는 그 문서를 읽지 못한다. OECD 공공데이터 개방지수 수차례 1위 국가의 역설이다.

미국은 다르다. 연방관보국(OFR)은 Word로 문서를 받되, 연방정부출판국(GPO) 조판 시스템을 거쳐 XML·HTML·PDF 등 다중 포맷으로 변환하여 배포한다. 작성 도구와 배포 포맷이 분리되어 있다는 것이 핵심이다. 1894년부터 이어져온 GPO 문체 편람(Style Manual)은 내용 중심의 간결한 산문체를 규범으로 삼으며, 한국처럼 표 테두리 색상이나 픽셀 단위 간격을 지정하지 않는다. 연방정부 플랫폼 GovInfo는 연방관보·연방법전 등 수십만 건 문서를 기계 판독 가능한 형태로 제공한다.

2010년 평이한 언어법(Plain Writing Act)은 명확한 정부 커뮤니케이션을 법으로 의무화했다. 흥미롭게도 이 법에는 사법적 강제력이 없다. 법률 자체가 사법적 검토를 명시적으로 배제하고 있기 때문이다. 대신 민간 비영리 조직이 매년 기관별 성적표(A - F등급)를 매겨 공개하고, 관리예산국이 이행 가이드라인을 제시하며 기관별 연례 보고서가 웹에 게시되어 언론의 감시 대상이 된다. 투명성과 망신이라는 소프트 파워가 사법적 제재 없이도 문서 문화를 바꾸고 있는 것이다. 여기에 장애인 접근성 규정이 요구한 구조화된 문서가 AI 시대에 보너스로 돌아왔다.

한국의 진짜 병목은 HWP라는 포맷이 아니라 ‘치장 문화’다. 외곽 테두리를 먼저 그리고, 전체 페이지를 표로 채우며, 표 안의 표 안의 표로 문서를 만든다. 1990년대 초 MS Word가 한글 입력을 지원하지 못할 때, 아래아한글이 완벽한 한글 지원으로 군대·학교·공공기관 전체를 표준화했다. 이 경로 의존성이 30년 넘게 이어지며 공문서를 탁상출판 도구처럼 쓰는 관행이 고착되었다. HWP에서 벗어나도 치장 문화를 DOCX로 옮기면 같은 문제가 반복된다.

세계는 이미 움직이고 있다. 영국은 Markdown 기반 Govspeak을 정부 웹 콘텐츠 표준으로 채택하고 ODF를 문서 교환 포맷으로 의무화했으며, 2026년에는 AI 대비 데이터에 CSV·JSON·XML 등 기계판독 포맷을 권장했다. 노르웨이·포르투갈도 ODF를 의무화했고, NATO도 ODF를 필수 표준 중 하나로 지정하고 있다. 이재명 정부도 AI를 국정 과제로 설정하고 AI 기본법을 시행했으나 근본적 문서 포맷 병목은 아직 해소되지 않았다.

해법은 계층적 접근이다. 작성은 기존 포맷으로 하되 배포 단계에서 Markdown·JSON·XML 등 기계 판독 가능한 형식을 병행 생산한다. 미국이 Word로 작성하되 XML로 배포하듯, 작성과 배포를 분리하는 것이다. 기존 HWP 문서 수십억 건에 대해서는 국가 차원의 변환 프로젝트를 설계해 법령·정책보고서 등 우선순위 높은 문서부터 데이터화해야 한다. 동시에 국어기본법 제14조를 강화해 기관별 담당관 지정, 연례 보고서 공개, 민간 평가 기관 설립 등 복합적 준수 압력 체계를 구축해야 한다. 중첩 표 대신 산문 중심 양식을 의무화하는 것이 포맷 전환보다 근본적인 처방이다. 미국의 경험이 증명하듯, 사법적 강제력이 아니라 투명한 보고 체계와 민간 감시라는 소프트 파워가 행정 문서 문화를 바꿀 수 있다.

AI 정부 시대의 경쟁력은 GPU 숫자가 아니라 데이터 품질에서 갈린다. 그 출발점은 결국 문서다. 한국은 OECD 공공데이터 1위의 역량과 AI 기본법이라는 제도적 기반을 이미 갖추고 있다. 남은 것은 30년 넘게 이어진 관행을 깨는 것이다. 가장 먼저 할 일은 새 AI 모델을 도입하는 것이 아니라, AI가 읽을 수 있는 문서를 쓰는 것이다.