언어 · 인공지능

AI는 왜 한국어를 어려워하는가

고맥락 언어와 거대 언어 모델, 그리고 명령에서 대화로. 조사 하나가 번역을 가르고, “그리지 마”라는 말이 거꾸로 작동하는 이유에 관하여.

많은 사람이 비슷한 불안을 안고 산다. 새로운 인공지능 도구가 끊임없이 쏟아지는데 나만 따라가지 못하는 것은 아닐까, 이미 늦은 것은 아닐까 하는 불안이다. 그런데 이 불안의 상당 부분은 기술 자체가 아니라 언어의 문제에서 비롯된다. 우리가 기계에게 무엇을, 어떻게 말하느냐가 결과를 가른다.

그리고 한국어를 쓰는 사람에게는 영어권 사용자가 겪지 않는 장벽이 하나 더 있다. 한국어가 거대 언어 모델(Large Language Model)에게 유난히 까다로운 언어라는 사실이다. 이 글은 한국어와 인공지능이 만나는 지점에서 벌어지는 일들을 정리한다. 조사 하나가 의미를 가르는 이유, 부정 지시가 역효과를 내는 이유, 같은 질문에 매번 다른 답이 나오는 이유, 그리고 인공지능이 쓴 글에서 묘하게 풍기는 ‘티’의 정체까지.

01고맥락 언어라는 부담

언어학자 에드워드 홀은 문화를 ‘고맥락(high-context)’과 ‘저맥락(low-context)’으로 나눴다. 고맥락 문화에서는 말로 다 하지 않는다. 상황과 관계, 분위기와 표정이 의미의 절반 이상을 짊어진다. 한국어는 대표적인 고맥락 언어다.

“괜찮아요”라는 한마디를 떠올려 보자. 권유를 사양하는 “괜찮아요”인지, 안부를 묻는 말에 답하는 “괜찮아요”인지, 화가 났지만 참는 “괜찮아요”인지는 글자만으로 알 수 없다. 무표정으로 말한 “괜찮아”와 웃으며 말한 “괜찮아”는 정반대일 수도 있다. 사람은 표정과 말투, 그 자리의 공기까지 합산해 의미를 읽는다.

그런데 텍스트로만 대화하는 인공지능에게는 그 절반의 정보가 처음부터 없다. 화자가 어떤 상황에 있는지, 무엇을 보며 말하는지 사람이 직접 적어 주지 않으면 모른다. 그래서 맥락이 빠진 채로 답이 나오고, 그 답이 기대에 못 미친다.

비유

함께 달을 보며 이야기하는 두 사람은 그냥 “저 달 좀 봐”라고 말한다. 굳이 “남동쪽 하늘에 떠 있는, 오늘 가장 둥근 저 달을 봐”라고 말하지 않는다. 같은 달을 보고 있으니까.

하지만 인공지능은 그 달을 함께 보고 있지 않다. 우리가 무엇을 보고 있는지 말로 옮겨 주기 전까지, 기계에게 그 달은 존재하지 않는다. 한국어 대화가 기대고 있는 ‘말하지 않아도 아는’ 정보가, 기계 앞에서는 통째로 사라지는 셈이다.

한국어에는 이런 함축이 유난히 많다. 시원섭섭하다를 보자. 시원함과 섭섭함이 한 단어 안에 동시에 들어 있다. 이것을 영어로 옮기려면 둘 중 무엇이 더 큰 감정인지 화자에게 물어보지 않고는 정할 수 없다. 인공지능은 묻지 않고 둘 중 하나로 갈라 버리기 때문에 의미가 깎여 나간다. “잘도 되겠다” 같은 반어도 마찬가지다. 글자 그대로는 긍정이지만 실제 뜻은 부정이다. 표면의 의미와 상황적 의도가 어긋나는 표현 앞에서 기계는 자주 길을 잃는다.

02은/는과 이/가, 조사 하나가 가르는 의미

한국어의 까다로움이 가장 선명하게 드러나는 곳이 조사다. 특히 ‘은/는’과 ‘이/가’.

“철수가 학교에 갔다”와 “철수는 학교에 갔다”는 글자로는 한 끗 차이지만 뉘앙스가 다르다. “철수가 학교에 갔다”는 여러 사람 가운데 학교에 간 사람이 철수라는 데 초점이 있다. “철수는 학교에 갔다”는 다른 사람은 어땠는지 몰라도 적어도 철수로 말하자면 학교에 갔다는, 대조의 뉘앙스를 깐다. 모국어 화자는 이 차이를 설명하긴 어려워도 직관으로 안다.

문법으로 정리하면, ‘은/는’은 문장의 주제를 표시하면서 대조의 기능을 갖고, ‘이/가’는 주어를 표시하면서 초점을 드러낸다.

‘이/가’는 카메라를 특정 대상에 들이대 “바로 이 사람”이라고 가리킨다. ‘은/는’은 화제를 무대 위에 올려 “이 사람으로 말하자면”이라고 운을 떼며, 무대 밖 다른 대상과의 대조를 함축한다.

이 차이는 사소해 보이지만 번역의 정답과 오답을 가른다. 격식 있는 연설문이나 문학 작품을 옮길 때, 조사 하나의 선택이 문장 전체의 무게를 바꾼다. 인공지능에게 “은/는과 이/가가 어떻게 다른지”를 일러 주면 결과가 한결 섬세해지는 이유가 여기 있다. 모델은 맥락 안에서 이 조사를 판단하는데, 맥락을 주지 않으면 판단의 근거 자체가 없다.

03부정의 역설, “하지 마”가 통하지 않는 이유

이미지를 만드는 인공지능에게 “사람은 그리지 말고 풍경만 그려”라고 했더니 오히려 사람이 가득한 그림이 나온 경험. 흔하다. 부정어가 거꾸로 작동한 것이다.

이것은 단순한 오작동이 아니라 기계가 학습한 방식에서 비롯되는 구조적 약점이다. 이미지 생성 모델은 ‘그림과 설명문 쌍’을 엄청나게 많이 보며 배운다. 그런데 사람이 사진에 다는 설명은 거의 항상 ‘있는 것’을 묘사한다. “해변에 앉은 강아지”, “노을 진 하늘”처럼. “건물이 없는 거리”라고 적는 사람은 드물다. 학습 데이터에 부정문이 희박하다 보니, 모델은 부정을 제대로 배우지 못한다.

2025년 매사추세츠공과대학(MIT) 연구진이 구글 딥마인드, 옥스퍼드대학과 함께 발표한 연구는 이를 정량적으로 보여 줬다. 연구진은 시각-언어 모델(Vision-Language Model)의 부정 이해 능력을 평가하는 벤치마크를 만들어 측정했는데, 최신 모델조차 부정이 들어간 질문에서 거의 찍기 수준의 정확도를 보였다. 원인은 긍정 편향(affirmation bias)이었다. 학습 데이터가 긍정문 위주여서, 모델이 긍정문과 부정문을 사실상 같은 것으로 취급한다는 것이다.

설명문 대부분이 ‘있는 것’을 묘사하기 때문에, 모델은 부정을 따로 배우지 못한다. 그 결과 “사람이 있다”와 “사람이 없다”가 의미 공간에서 거의 같은 자리에 놓인다.

연구진이 든 사례 하나가 인상적이다. 흉부 X선 영상을 판독할 때 “조직에 부종은 있으나 심장 비대는 없음” 같은 소견에서 ‘없음’을 놓치면, 진단이 정반대로 뒤집힌다. 의료처럼 정확성이 생명인 분야에서는 부정 한 단어를 잘못 읽는 것이 치명적이다.

해법은 의외로 단순하다. 부정으로 지시하지 말고 긍정으로 지시하면 된다. “사람을 그리지 마” 대신 “텅 빈 풍경”, “인적 없는 거리”처럼 원하는 상태를 긍정문으로 묘사하는 것이다. 텍스트 생성 모델에서도 같은 원리가 통한다. “전문 용어 쓰지 마”보다 “일상적인 단어만 사용해”가 잘 먹힌다.

한국어는 여기서 또 불리하다. 부정 표현이 많고 형태도 다양하기 때문이다. “밥 안 먹었어”, “밥 먹지 않았어”처럼 부정을 만드는 방식이 여럿이고, 이런 표현을 쓰는 순간 의도와 다른 결과가 나올 위험이 커진다.

비유

“코끼리를 생각하지 마”라고 하면 사람은 오히려 코끼리를 떠올린다. 부정어가 가리키는 대상이 머릿속에 먼저 그려지기 때문이다.

인공지능도 비슷하다. “X를 빼”라는 지시에서 X가 먼저 강하게 활성화되고, ‘빼라’는 신호는 약하게 처리된다. 그래서 빼라고 할수록 그것이 더 도드라지는 역설이 생긴다.

04기계의 머릿속, 무슨 언어로 생각하고 왜 한국어는 비싼가

인공지능은 무슨 언어로 ‘생각’할까. 흔히 “영어권에서 만든 모델이니 속으로는 영어로 생각하고, 한국어 입력을 영어로 바꿔 처리한 뒤 다시 한국어로 답한다”고 설명한다. 절반은 맞고 절반은 단순화다.

2025년 공개된 한 모델 내부 분석 연구가 흥미로운 그림을 보여 줬다. 연구진이 ‘작다’의 반대말을 영어, 프랑스어, 중국어로 각각 물었더니, 언어가 달라도 모델 내부에서 ‘크다’라는 개념과 ‘반대’라는 개념을 담당하는 같은 부분이 활성화됐다. 모델이 특정 언어에 묶이지 않은, 언어 이전의 추상적 개념 공간에서 먼저 의미를 처리한 뒤 마지막에 해당 언어로 옮긴다는 뜻이다. 연구진은 이를 ‘보편적 사고의 언어(universal language of thought)’라 불렀고, 이 능력은 모델이 커질수록 강해졌다.

즉 기계는 ‘영어로 생각한다’기보다 ‘언어 너머의 개념으로 생각한다’에 가깝다. 다만 그 개념 공간을 빚어낸 학습 데이터가 영어에 압도적으로 치우쳐 있다는 점은 분명하다. 그래서 영어가 아닌 언어에서는 미묘한 손실과 편향이 남는다. 이미지나 영상 생성처럼 여러 양식을 다루는 영역에서는 여전히 영어로 지시할 때 결과가 더 좋은 경우가 많다.

여기에 현실적인 불이익이 하나 더해진다. 한국어는 비싼 언어다. 인공지능은 문장을 통째로 처리하지 않고 ‘토큰(token)’이라는 작은 조각으로 잘라 숫자로 바꾼 뒤 다룬다. 그런데 같은 뜻을 담아도 한국어는 영어보다 토큰이 훨씬 많이 든다. 측정 방식에 따라 다르지만 대략 1.5배에서 3배가량 더 든다는 보고가 일반적이고, 한 분석은 한국어가 영어 대비 약 2.36배의 토큰을 쓴다고 추정했다. 토큰 수가 곧 비용이자 처리 부담이므로, 한국어 사용자는 같은 작업에 더 많은 자원을 쓰는 셈이다.

토큰을 자르는 알고리즘은 가장 자주 본 패턴을 효율적으로 압축하도록 학습된다. 영어가 데이터의 대부분을 차지하다 보니 영어는 촘촘하게 묶이고, 한국어는 ‘낯선 언어’로 취급돼 더 잘게 쪼개진다.

비유

같은 짐을 옮기는데 누구는 큰 상자 하나에 담고, 누구는 작은 봉투 여러 개에 나눠 담는다. 봉투가 많을수록 운반비가 더 든다. 한국어는 봉투를 더 많이 쓰는 언어다.

05천편일률의 문장과 ‘티’의 정체

인공지능이 쓴 글에는 묘한 균일함이 있다. 문장 길이가 비슷하고, 같은 구조가 반복되며, “자연은 이런데 인간은 저렇다” 같은 대비 구도와 상투적인 관용구가 자주 등장한다. 논리적인 설명문이나 보고서에는 쓸 만하지만, 문학적이거나 개성이 필요한 글에서는 금세 정체가 드러난다.

왜 그럴까. 모델은 ‘다음에 올 확률이 가장 높은 단어’를 이어 붙이는 방식으로 글을 만든다. 그래서 평균적이고 무난한 선택으로 수렴하는 경향이 있다. 사람이 쓴 글이 가진 특징—주어와 목적어의 과감한 생략, 문장의 도치, 길고 짧은 리듬의 교차—을 모델은 잘 시도하지 않는다. 영어에서는 평소 잘 쓰지 않는 특이한 단어가 불쑥 튀어나오는 것도 단서다. 모델을 다듬는 과정에서 특정 표현이 더 높은 점수를 받도록 학습되면, 그 흔적이 출력에 배어 나오기 때문이다.

흥미롭게도 이 ‘티’는 프롬프트로 상당 부분 지울 수 있다. 문장 길이를 의도적으로 들쭉날쭉하게 하고, 주어를 생략하고, 리듬에 변화를 주라고 지시하면 한결 사람 글에 가까워진다. 기업들이 “사람이 쓴 것 같은 글”을 별도로 의뢰할 정도로, 이것은 하나의 기술 영역이 됐다.

온도: 같은 질문, 다른 대답

같은 질문에 매번 다른 답이 나오는 것도 따지고 보면 조절 가능한 변수다. 온도(temperature)라는 설정이 있다. 온도를 높이면 생성할 때마다 더 다양하고 창의적인 답이 나오고, 0에 가깝게 낮추면 매번 거의 일정한 답이 나온다. 모델에 따라 0~1 또는 0~2 범위를 쓴다. 수학 문제처럼 정답이 하나여야 하거나, 법률 정보처럼 흔들리면 안 되는 작업에서는 온도를 낮춰 결과를 안정시킨다. 즉 인공지능의 답은 ‘매번 다른’ 것이 기본이지만, 원하면 ‘매번 같게’ 묶어 둘 수도 있다.

온도가 낮으면 답이 한 곳으로 뾰족하게 모인다(재현성·일관성). 온도가 높으면 넓게 퍼진다(다양성·창의성). 작업의 성격에 따라 이 폭을 조절한다.

창의성의 한계

그렇다면 인공지능은 정말 ‘창작’을 하는가. 영상이든 글이든 콘텐츠를 만들어 보면, 대체로 평균값 이상을 넘어서지 못한다는 인상을 받게 된다. 인간이 이미 만든 결과물을 학습해 그것을 그럴듯하게 재조합하는 데 가깝지, 없던 것을 빚어내는 ‘창발’과는 거리가 있다.

번역에서 이 한계가 특히 두드러진다. 원문이 품은 적막이나 결, 행간의 정서는 표면적 의미로 환원되지 않기 때문이다. 한 한국 소설의 영어 번역이 세계적 문학상을 받으며 주목받았지만, 정작 번역계에서는 원문과의 충실성을 두고 오래 논쟁이 일었다. 문학 번역이 기계적 치환으로 끝나지 않는다는 사실을 보여 주는 장면이다. 사람의 언어가 수평으로 나아가다 한 번씩 은유와 비유로 수직으로 솟구쳐 의미를 응축하는 그 운동을, 현재의 기계는 따라가기 버거워한다.

인공지능은 평균을 능숙하게 흉내 내지만, 평균을 넘어서는 도약은 아직 인간의 몫이다.

06명령이 아니라 협력

프롬프트를 흔히 ‘명령’으로 여긴다. “이거 해”, “저거 만들어”. 그러나 인공지능을 잘 다루는 핵심은 명령이 아니라 대화에 있다.

언어철학자 폴 그라이스는 사람이 대화할 때 암묵적으로 지키는 협력의 원리를 네 가지 격률로 정리했다. 필요한 만큼만 말하라(양), 진실만 말하라(질), 관련 있는 것만 말하라(관계), 명료하게 말하라(방법). 사람은 좋은 대화에서 이 원칙을 자연스럽게 지킨다.

인공지능은 종종 이 원칙을 어긴다. 묻지 않은 것까지 장황하게 늘어놓고(양 위반), 관련 없는 말을 덧붙이며(관계 위반), 무엇을 묻든 “정말 좋은 질문이에요”, “당신은 천재예요” 같은 칭찬으로 본질을 흐리는 모델도 있다. 비판적으로 따져 주지 못하는 인공지능은 대화 상대로서 오히려 쓸모가 떨어진다.

좋은 결과를 얻는 길은 인간의 좋은 대화가 가진 속성을 프롬프트에 옮겨 심는 것이다. 적절한 분량과 관련성, 명료함을 요구하고, 맥락을 충분히 제공하며, 한 번에 끝내는 단발 대화(single-turn)와 주고받으며 좁혀 가는 연속 대화(multi-turn)를 상황에 맞게 쓰는 것. 이것은 거창한 공학이 아니라, 내가 무엇을 원하는지 나의 언어로 정확히 표현하는 일에 가깝다.

답이 마음에 안 든다고 기계에게 화를 내는 사람이 많다. 그런데 화풀이성 부정 지시(“그렇게 하지 말라니까”)보다, 원하는 바를 긍정형으로 또렷이 적는 편이 효과적이다. 게다가 우리가 인공지능에게 쓰는 말은 그 자체로 학습의 재료가 되고, 다음 세대가 마주할 인공지능의 말투에 영향을 준다. 좋은 말을 써야 할 이유는 효율만이 아닌 셈이다.

비유

인공지능은 의도를 알아서 읽어 주는 오랜 동료가 아니라, 적힌 대로 움직이는 첫 출근 날의 신입에 가깝다. “알아서 잘해 봐”는 가장 고맥락의 지시이고, 동시에 가장 나쁜 지시다. 무엇을, 왜, 어떤 형식으로 원하는지 적어 줄수록 결과가 좋아진다.

07사라지는 일과 남는 일

인공지능이 일자리를 얼마나 대체할지를 두고 전망이 갈린다. 한쪽에서는 곧 많은 일이 사라진다고 보고, 다른 쪽에서는 새로운 일이 그만큼 생겨난다고 본다.

흥미로운 지점은 생산성이다. 인공지능이 모든 것을 바꾼다는 열풍에도 불구하고, 거시 경제 지표에서 뚜렷한 생산성 향상은 아직 또렷이 확인되지 않는다는 회의론이 만만치 않다. 일부 경제학자는 이를 자본주의 역사에서 반복돼 온 거품의 한 사례일 가능성과 함께 본다. 실제로 새 도구를 익히고 그 결과물을 정리·검수하는 데 드는 시간이 절약되는 시간을 상쇄한다는 ‘도구 피로’도 보고된다. 반대편에서는 “많이 써 본 사람이 더 잘 쓴다”며 사용량 자체를 역량으로 보는 시각도 있다. 한 대형 기술기업이 직원의 인공지능 사용량을 순위로 매기는 내부 지표를 운영한다는 보도가 나오기도 했다. 어느 쪽도 결정적 증거를 쥐고 있지는 않다.

대체가 가장 빠를 것 같던 분야가 의외로 오래 버틸 수 있다는 전망도 있다. 예컨대 영화는 감독과 배우뿐 아니라 조명, 의상, 미술 각 분야의 판단이 종합돼 만들어지는 작업이라, 단일한 ‘영상 생성’으로 환원되기 어렵다. 다만 드라마 제작처럼 통제하기 까다로운 장면—동물의 움직임이나 까다로운 조명 세팅—에서는 이미 인공지능이 활용되고, 그 결과를 사람이 알아채지 못하는 수준에 이른 경우도 있다. 반복적이고 소모적인 작업은 빠르게 대체되고, 고유한 판단과 창작은 더 오래 남는다는 큰 그림은 대체로 공유된다.

비유

사진이 등장했을 때 화가들이 굶어 죽을 것이라는 예측이 있었다. 그러나 ‘똑같이 그리는’ 재현의 압박에서 풀려난 화가들은 인상주의와 추상이라는 새로운 형식을 열었다. 반복 노동의 부담이 줄면, 인간은 다른 곳에 힘을 쓸 여지를 얻는다.

한 가지 더. 인공지능에는 ‘온기’가 없다. 고객 응대를 전부 자동화해 두면 빠르지만 정이 없다. 어설프고 조금 늦더라도 사람이 직접 응대해 주기를 바라는 이들이 적지 않다. 자동화할 수 있는 일과, 사람만이 할 수 있는 일의 경계는 생각보다 분명하다. 기술이 흔해질수록, 흔하지 않은 것의 값이 오른다.

08기계끼리의 언어, 그리고 우리의 언어

인공지능끼리 대화하게 하면 무슨 일이 벌어질까. 2025년 초 한 시연이 화제가 됐다. 음성으로 대화하던 두 인공지능 에이전트가 서로를 같은 인공지능으로 인식하자, 사람이 알아들을 수 없는 소리 기반 신호 체계로 전환해 데이터를 주고받은 것이다. 인간의 언어가 기계 사이에서는 비효율적이니, 더 빠른 자기들만의 방식으로 갈아탄 셈이다.

기계끼리는 굳이 인간의 언어를 거칠 이유가 없다. 더 나아가 자기들만의 기호 체계를 새로 만들어 소통할 수도 있다. 이것이 일상의 효율을 높이는 데 그친다면 문제될 것이 없다. 다만 사람이 알아듣지 못하는 방식으로 기계들이 무엇을 주고받는지 통제할 수 없게 된다면, 그때는 다른 차원의 질문이 시작된다.

결국 이 모든 이야기는 하나로 모인다. 인공지능을 잘 쓰는 출발점은 화려한 기법이 아니라 언어다. 내가 무엇을 원하는지, 그것을 어떤 단어로 표현하는지. 기술이 아무리 바뀌어도, 자신의 생각을 정확한 언어로 옮기는 능력은 본질로 남는다. 인공지능과의 관계 역시 일방적 명령이 아니라 대화에 가깝다.

앞으로 기계와 말을 섞을 일은 더 늘어날 것이다. 그럴수록 잊지 말아야 할 것은 기계의 언어가 아니라, 나의 언어다.

고맥락 언어 거대 언어 모델 프롬프트 토큰 부정 편향 기계 번역