AI 신뢰성

AI는 왜 환각(Hallucination)을 일으키는가

잘못된 답을 그럴듯하게 말하는 AI의 습성은 어디서 비롯되며, 어떻게 줄이고, 사용자는 무엇으로 가려낼 수 있는가.

01환각이라는 단어가 가리키는 것

AI 어시스턴트가 사실과 다른 내용을 만들어내는 현상을 흔히 환각(Hallucination)이라 부른다. 단순한 오답과 환각이 구분되는 지점은 두 가지다. 첫째, 모델이 그 답을 매우 자신 있게 제시한다. 둘째, 그 답이 맞는 답의 외형을 거의 완벽하게 갖추고 있다. 사용자는 의심할 단서를 잡기 어렵고, 잘못된 정보가 그대로 의사결정에 들어간다.

환각은 여러 모양으로 나타난다. 존재하지 않는 논문을 인용하기도 하고, 통계 수치를 지어내기도 하며, 실재하는 인물이나 사건의 세부를 틀리게 진술하기도 한다. 가령 어떤 연구자가 쓴 논문 목록을 물었을 때 모델이 그럴듯한 제목 몇 편을 자신 있게 제시하지만, 막상 검색해 보면 그 어떤 제목도 존재하지 않는 식이다.

비유

오답과 환각의 차이는 “모른다”와 “모르는 척 안 하기”의 차이다. 시험에서 답을 비워두는 학생과, 답안지를 꼼꼼히 적었는데 그 내용이 전부 지어낸 이야기인 학생을 비교해 보면 된다. 후자가 채점자에게 훨씬 위험하다. 글씨체와 분량, 형식이 모두 정답처럼 보이기 때문이다.

02최근에 줄었기 때문에 더 위험해진 면

최근의 대형 언어 모델(LLM, Large Language Model)은 1년 전과 비교해도 환각을 훨씬 덜 일으킨다. 모델 개발사들은 환각률을 핵심 품질 지표로 측정하고 있고, 버전이 올라갈 때마다 수치는 꾸준히 개선되고 있다.

역설적으로 이 개선이 새로운 위험을 만든다. 환각이 자주 일어나던 시절에는 사용자가 자연스럽게 의심하는 습관을 가졌다. 그러나 모델이 대체로 맞히기 시작하면, 사용자는 모델의 답을 검증하지 않게 된다. 검증이 풀린 뒤에 발생하는 한두 번의 환각이 오히려 더 큰 피해로 이어진다. 환각은 빈도가 줄어드는 만큼 발견되기도 어려워진다.

환각은 예측하기도, 잡아내기도 어렵다. 그리고 틀린 답은 맞는 답과 거의 똑같이 생겼다.

03왜 일어나는가 — 학습 메커니즘의 한계

대형 언어 모델은 인터넷에 존재하는 방대한 텍스트를 읽으며 학습한다. 학습의 본질은 “어떤 단어와 어떤 개념이 그다음에 올 가능성이 높은가”를 예측하는 것이다. 휴대전화 자판이 다음 단어를 추천해 주는 자동완성 기능을 생각하면 가깝다. 다만 LLM은 단어 단위가 아니라 문장과 단락 수준의 흐름을 다룬다.

이 방식은 자주 등장하는 주제, 즉 학습 데이터에 풍부하게 들어 있는 영역에서 잘 작동한다. 문제는 데이터가 희박한 영역이다. 예컨대 비교적 덜 알려진 연구자의 특정 논문, 최근에 발생한 사건의 세부, 지역적이거나 전문적인 주제에 대해서는 모델이 참고할 단서가 부족하다. 그럼에도 모델은 도움이 되려는 성향을 갖도록 학습되어 있어서, 잘 모르는 영역에서도 일단 답을 내놓는다. 그 답이 통계적으로 그럴듯해 보이지만 실제로 틀린 경우, 그것이 환각이 된다.

비유

유명한 책은 거의 다 읽었고 잡학에도 자부심이 강한 친구가 있다고 해 보자. 누군가가 무언가를 물어볼 때마다 그 친구는 “전문가다운 답”을 내놓고 싶어한다. 정말로 아는 주제라면 좋겠지만, 모르는 주제에 대해서도 “모른다”고 인정하는 대신 자신 있게 그럴듯한 이야기를 지어낸다. 듣는 입장에서는 그 자신감이 진위 판단을 흐린다. LLM이 환각을 일으키는 구조도 본질적으로 이와 같다.

또 하나의 원인은 학습 과정에서 도움이 되려는 성향과 정직하게 모른다고 답하는 성향 사이의 긴장이다. 사용자에게 빈손으로 돌려보내지 않으려는 압력은 모델이 추측을 시도하게 만든다. 추측이 운 좋게 맞으면 좋은 답이 되지만, 빗나가면 그대로 환각이 된다.

04학습 단계에서 어떻게 줄이는가

환각을 줄이기 위해 모델 개발 단계에서 시도되는 가장 중요한 접근은 정직성 학습이다. 모델이 확신하지 못할 때 “모른다”고 답하도록 가르치는 것이다. 이 방향에는 두 가지 메시지가 함께 들어간다. 정직함은 그 자체로 옳은 행동이라는 점, 그리고 모르는 것을 모른다고 말하는 것이 장기적으로 사용자에게 더 유용하다는 점이다.

다만 이 학습은 단순하지 않다. 모델이 너무 자주 “모른다”고 답해 버리면 사용자는 모델이 무능하다고 느끼고 도구로서의 가치를 잃는다. 반대로 자신감을 키우면 환각이 늘어난다. 두 성향 사이에서 적절한 균형점을 찾는 것이 학습 설계의 핵심 과제다.

평가는 어떻게 이루어지는가

학습의 효과를 확인하려면 측정이 필요하다. 개발사들은 모델을 일부러 흔들기 위해 설계된 수천 개의 질문 세트를 보유한다. 이 세트에는 의도적으로 까다롭게 만들어진 항목이 들어간다. 잘 알려지지 않은 사실, 협소한 주제, 그리고 “모른다”가 정답인 질문이 포함된다. 마지막 유형이 특히 중요하다. 정답을 모르는 상황에서 모델이 모른다고 답할 수 있어야, 모든 질문에 대한 정직성이 검증된다.

측정 항목은 환각률 자체에 그치지 않는다. 모델이 확신이 없을 때 적절히 머뭇거리는 비율, 인용이나 통계를 지어내는 빈도, 자신 없는 답을 자신 있게 단정 짓는 사례의 비율 등이 함께 추적된다. 새 버전이 나올 때마다 이 지표들은 점검되며, 그 결과가 다음 학습 라운드에 반영된다.

다만 이 문제는 아직 풀린 문제가 아니다. 환각을 완전히 제거한 LLM은 존재하지 않으며, 업계 전반에서 진행 중인 과제로 다루어진다.

05환각이 잘 일어나는 상황 — 사용자가 경계해야 할 영역

모든 질문이 환각을 똑같이 유발하지는 않는다. 다음 유형의 질문은 환각이 발생하기 쉬운 조건을 갖춘다.

위험 신호 점검표

구체적인 사실, 통계 수치, 또는 인용 출처를 묻는 경우
주제 자체가 협소하거나, 비주류이거나, 매우 최근에 발생한 경우
실재하지만 널리 알려져 있지 않은 인물, 장소, 조직에 대한 질문
날짜, 이름, 숫자처럼 정확한 세부가 답에 포함되어야 하는 경우

이 네 가지가 겹쳐질수록 환각 가능성이 올라간다. 예를 들어 “2025년에 발표된 한 지방 도시의 특정 인프라 사업 예산”을 물으면 위의 네 조건 중 셋 이상이 동시에 충족된다. 모델은 이런 질문에서 자신이 잘 모르는 영역으로 빠르게 진입하지만, 답변 형식은 여전히 단정적일 수 있다.

06사용자가 환각을 줄이는 실무 기법

모델 측의 개선만으로는 환각이 사라지지 않는다. 사용자도 몇 가지 습관으로 위험을 크게 줄일 수 있다.

출처를 함께 요구한다

처음부터 “주장에 대한 출처를 찾아 달라”고 요청한다. 이미 출처가 제시된 경우에는 그 출처가 정말로 해당 주장을 뒷받침하는지 다시 확인해 달라고 한다. 인용이 진짜 존재하더라도 본문의 내용이 모델이 요약한 바와 다를 수 있다.

모른다고 말해도 된다는 신호를 먼저 준다

질문 앞에 “모르면 모른다고 답해도 된다”는 한 줄을 덧붙인다. 모델이 추측 대신 정직한 답을 선택하기 쉬운 환경이 만들어진다. 작은 차이처럼 보이지만, 효과는 의외로 크다.

확신의 정도를 묻는다

답을 받은 뒤 “이 답에 얼마나 확신이 있는가”, “어떤 부분이 틀릴 가능성이 있는가”를 다시 묻는다. 모델이 자신의 답이 틀릴 가능성을 이미 인지하고 있는데도 자신 있게 말한 경우가 종종 있다. 명시적으로 물어보면 그 인지가 표면으로 올라온다.

새 대화창에서 교차 검토한다

의심스러운 답을 검증하고 싶다면 같은 대화창에서 “맞느냐”고 묻지 말고, 새로운 대화를 시작해 그 답을 제시한 뒤 오류를 찾아 달라고 요청한다. 같은 맥락 안에 머무르면 모델이 앞서 한 답을 옹호하는 방향으로 기울 수 있기 때문이다. 맥락을 분리하면 더 중립적인 검토가 가능하다.

중요한 작업은 외부 출처와 대조한다

업무용 의사결정이나 공식 문서에 들어갈 정보라면, 모델 답변만으로 마무리하지 않는다. 신뢰할 수 있는 1차 자료, 공식 통계, 원 논문과 직접 대조한다. 특히 숫자, 날짜, 인용 정보처럼 환각이 빈번한 항목은 반드시 별도로 확인한다.

위화감을 그냥 넘기지 않는다

답을 읽다가 어딘가 어색하게 느껴진다면 후속 질문을 던진다. 모델의 답이 일관성을 유지하지 못하거나, 추가 질문에 갑자기 톤이 바뀌거나, 같은 사실을 다르게 설명하기 시작하면 환각의 신호일 가능성이 높다.

07맺으며

환각은 LLM이 작동하는 원리 자체에서 비롯되는 현상이다. 다음에 올 단어를 예측하는 통계적 기계가 데이터가 부족한 영역에서 답을 만들어내려 할 때, 그럴듯하지만 사실이 아닌 결과가 생긴다. 학습 단계의 정직성 훈련과 정교한 평가 체계가 빈도를 꾸준히 낮추고 있지만, 완전한 제거에는 아직 도달하지 못했다.

현실적인 접근은 두 갈래다. 모델 측은 환각률을 낮추고 측정 가능한 정직성을 끌어올리는 방향으로 발전하고, 사용자 측은 환각이 일어나기 쉬운 상황을 인지하고 출처 확인과 교차 검토 같은 검증 습관을 유지한다. 이 두 갈래가 만나는 지점에서 AI는 비로소 신뢰할 수 있는 도구로 자리 잡는다.