메뉴 건너뛰기

AI 환각현상, 성능향상에도 불구하고 증가 추세
환각을 최소화하려는 지속적인 시도가 중요


생성형 AI는 그 혁신적 성과에도 불구하고 기술 자체에 내재된 문제로 인해 다양한 오류가 발생한다는 것은 널리 알려진 사실이다. AI가 실제로 존재하지 않는 정보나 사실과 다른 내용을 마치 사실인 것처럼 만들어내는 환각(hallucination) 현상이 대표적이다.

환각 현상은 이미 우리 주변에 일상화되고 있다. 구글의 AI 기반 기능 검색 ‘AI 오버뷰’가 피자 관련 질문에 대해 엉뚱한 답변을 내놓아서 논란이 되었으며 국내에서도 챗GPT의 세종대왕 맥북 던짐 사건이나 맥아더 장군 관련 환각 사례가 조롱거리가 된 적이 있다.

포브스(Forbes)에 의하면 2025년 1분기에만 환각 콘텐츠로 인해 온라인 플랫폼에서 약 1만3000개의 AI 생성 기사가 삭제되었고 챗GPT가 인기 있는 저널리즘 사이트의 인용문 중 76%를 잘못 기재한 것으로 밝혀지기도 했다.

생성형 AI의 환각 현상은 법률이나 의학 등 전문 분야까지 영향을 미치고 있다. 구글 AI 챗봇 ‘바드’가 만들어낸 가짜 판례를 인용했다가 탄로 난 ‘마이클 코헨 사건’이 대표적이다. 실존 인물을 살인범으로 오인한 노르웨이의 아르베 얄마르 홀멘(Arve Hjalmar Holmen) 사건은 환각으로 인한 사회적 피해가 어느 정도로 심각해지고 있는지를 방증하는 사례이다. 이 사건은 AI 환각 현상과 관련된 최초의 명예훼손 소송으로 기록되기도 했다.
성능이 좋아질수록 늘어나는 환각 현상최근 발표된 조사에 의하면 오픈AI, 구글, 딥시크 등 생성형 AI 선도 기업들이 내놓은 소위 추론 시스템이 환각 현상을 줄이기보다는 오히려 더 많이 발생시키고 있는 것으로 알려지고 있다.

오픈AI의 최신 o3 및 o4-미니 추론 모델 자체 테스트를 보면 이들 모델들이 이전 모델(o1, o3-mini)과 비교해 잘못된 정보를 생성하는 비율인 환각률이 크게 증가한 것으로 나타났다. 실제로 인물 정보와 관련된 내부 벤치마크(PersonQA)에서 o3는 33%, o4-미니는 48%의 환각률을 보여 o1의 16%에 비해 두 배 이상 높았다.

일반적인 사실에 대한 정확도를 평가하는 오픈AI의 벤치마크(SimpleQA)에서도 o3와 o4-미니의 환각 발생률은 각각 51%와 79%로 이전 시스템인 o1(44%)보다 환각 현상이 증가한 것으로 나타났다. 이는 AI 모델의 성능이 향상되면 환각 현상도 줄어들 것이라는 예측과는 상반된 결과이다.

이러한 결과는 오픈AI에만 해당하는 것이 아니다. 환각률을 평가하는 기업인 벡타라(Vectara)에 따르면 딥시크(DeepSeek)의 R1 모델을 포함한 일부 추론 모델도 기존 모델 대비 환각률이 두 자릿수 증가한 것으로 나타났다. 실제로 벡타라의 환각 평가 모델(HHEM-2.1)로 측정한 딥시크 R1의 환각률은 14.3%로 이는 구글의 제미나이 2.0(0.7%), 오픈AI o3-미니의 고성능 버전인 o3-미니-하이(0.8%) 등 주요 경쟁 모델과 비교하면 18배가량 높은 수치이다.
왜 환각이 증가하나생성형 AI의 기술적 성능이 향상되었음에도 불구하고 환각 현상이 오히려 더 자주 발생하는 이유는 무엇일까.

생성형 AI가 환각을 일으키는 요인은 크게 2가지 측면에서 볼 수 있다. 첫째, 데이터 자체에 의해 일어나는 환각이다. 생성형 AI는 주로 웹에서 수집한 대규모 텍스트, 이미지, 비디오 등 방대한 양의 데이터를 기반으로 학습한다. 문제는 이러한 학습에 사용되는 데이터에 오류, 편향, 결함 등이 생겨 이 과정에서 초래된 편향된 데이터에 의해 환각이 발생한다는 것이다.

‘쓰레기가 들어가면 쓰레기가 나온다(Garbage in, garbage out)’는 말처럼 양질의 데이터가 없으면 양질의 산출물도 기대하기 어렵기 때문이다. 이러한 데이터 환각은 특히 양질의 데이터가 부족한 법률, 의학 분야에서 더 많이 발생하는 것으로 알려지고 있다. 둘째, 학습과 추론에 의한 환각이다. 생성형 AI는 프롬프터에 입력된 명령어를 기반으로 다음에 나올 확률이 높은 결과물을 순차적으로 예측하는 자기회귀 방식(Autoregressive Model)을 따른다.

가장 그럴듯한 답변을 생성하도록 되어 있는 생성형 AI의 구조적 특성상 환각 현상이 발생할 가능성이 높다. 결국 통계적 패턴과 확률에 따라 정확성보다는 확률 가능성의 기반에 결과물을 생성하기 때문에 발생하는 문제인 것이다.

특히 최근에 개발되는 AI가 더욱 복잡한 추론과 창의적 작업을 목표로 개발되다 보니 환각 현상이 더 증가하는 것이라는 분석이 일반적이다. 추론형(Reasoning) 모델은 복잡한 질문을 단계적으로 해결하려는 경향이 있고 이로 인해 사실과 다른 결과물을 내놓는 경우가 많아지기 때문이다.

다른 이유도 있다. 예들 들어 모델이 커져 더 많은 정보를 다루고 복잡한 답변을 생성하려다 보니 오히려 대형모델에서 잘못된 정보가 산출될 가능성이 더 높아진다는 분석도 있다. 이는 일반적으로 모델이 커지면 성능이 좋아지고 이로 인해 잘못된 정보가 줄어든다고 생각하는 것과는 대치되는 주장이다.

합성 데이터의 증가도 중요하다. 합성 데이터는 실제 데이터를 보완하거나 대체하기 위해 인위적으로 만들어진 데이터로 최근 AI 학습데이터가 부족해지면서 AI 학습에 많이 활용되고 있다. 하지만 합성 데이터 자체가 현실의 복잡성을 반영하지 못하고 생성 과정에서 오류나 편향이 포함될 수 있을 뿐만 아니라 데이터에 대한 검증이 어려워 기존 데이터보다 환각을 더 증폭시킬 우려가 있다.
환각을 최소화하려는 다양한 시도들확률적 생성 모델이라는 생성형 AI가 내재하고 있는 기술적, 구조적인 문제로 인해 환각 문제를 완벽하게 해결하기는 불가능하다는 것이 전문가들의 의견이다. 다만 환각 자체를 완전히 없애기는 어렵더라도 환각을 최소화하려는 다양한 기술적 방법이나 해결책들이 계속 시도되고 있다는 점은 고무적인 일이다.

대표적으로 학습과정에서 오류와 편향을 줄이기 위한 가장 잘 알려진 방법으로는 인간 피드백을 통한 강화학습(RLHF)을 들 수 있다. 이 방식은 오픈AI가 LLM의 환각 현상을 줄이기 위해 2017년부터 도입한 기계학습 방법이다. 인간이 분류한 데이터 세트에 의존하는 대신 AI의 결과물을 인간이 비교 분석하여 학습 데이터를 생성하여 오류를 줄인다.

모델이 더 신중하고 정확하게 사실에 기반한 답변을 하도록 무작위성을 줄이기 위해 온도(Temperature) 매개변수를 낮추는 방법이나 의료, 법률 분야처럼 특정 분야에 특화된 데이터로 AI를 추가 학습시키는 방법도 있다. 특히 해당 분야에서의 환각률을 낮추고 정확도를 높일 수 있는 미세조정(Fine-tuning) 기법은 이미 널리 사용되고 있다.

텍스트 생성 과정에 정보 검색을 통합한 자연어처리(NPL) 기술인 검색증강생성(Retrieval Augmented Generation: RAG)은 현재 가장 효과적인 방법으로 거론되고 있다. AI가 자체적으로 답을 생성하는 대신 외부 데이터베이스나 신뢰할 수 있는 자료에서 정보를 검색해 이를 바탕으로 답변을 생성하여 최신 정보와 구체적인 정보와 지식을 제공함으로써 환각을 줄인다.

최근에는 외부 데이터 검증 및 실시간 정보가 연동된 모델 컨텍스트 프로토콜(Model Context Protocol: MCP)이 환각 현상을 줄이는 데 간접적인 접근법으로 평가받고 있다. MCP는 훈련 데이터에만 의존했던 기존 AI모델과 달리 실시간 정보와 외부 시스템 연동을 통해 상호작용할 수 있도록 표준화된 프로토콜이다. 이를 기반으로 AI는 더 정확하고 관련성 높은 컨텍스트를 동적으로 받아들여 환각을 최소화할 수 있다.

심용운 인하대 초빙교수

한경비즈니스

번호 제목 글쓴이 날짜
52407 "우유 하나가 2만원? 실화?"…정가 10배 주고도 산다는 인기폭발 '이 우유' 랭크뉴스 2025.06.26
52406 일부러 잠수교 침수 시킨다…극한호우 비웃는 '쌍둥이 한국' 정체 랭크뉴스 2025.06.26
52405 '구찌백' 메고 1년반만에 나타난 이설주…北신문은 딸 주애 부각 랭크뉴스 2025.06.26
52404 4년 기다렸는데… 카카오뱅크, 우리사주 탈출 눈앞서 ‘주르륵’ 랭크뉴스 2025.06.26
52403 다시 부상하는 미국 재정적자 위기[글로벌 현장] 랭크뉴스 2025.06.26
52402 李대통령 "새 성장동력 기회·결과 나누는 공정성장 문 열어야"(종합) 랭크뉴스 2025.06.26
52401 택시 기사 살해 후 택시 몰며 행인 들이받은 20대 남성 긴급체포 랭크뉴스 2025.06.26
52400 청문회서 성경 펼쳐 읊은 박선원…"종교편향" 불교계 반발에 사과 랭크뉴스 2025.06.26
52399 경찰, '이준석에게 성 상납' 주장 김성진 구치소 방문 조사 랭크뉴스 2025.06.26
52398 [속보] 서거석 전북교육감, 대법서 당선무효형 확정 랭크뉴스 2025.06.26
52397 청문 보고서 채택 불발… 김민석 총리 임명 강행할 듯 랭크뉴스 2025.06.26
» »»»»» 환각 없는 AI는 불가능한 신기루인가[테크트렌드] 랭크뉴스 2025.06.26
52395 "바뀐 메뉴도 어이없네"…'2000원 강제 팁' 논란의 피자집 결국 법정행 랭크뉴스 2025.06.26
52394 李 "13조 소비쿠폰 편성…113만 취약차주 채권은 소각" 랭크뉴스 2025.06.26
52393 尹측 “28일 오전 10시 특검 출석할 것…비공개 요청” 랭크뉴스 2025.06.26
52392 고개 숙인 김민석 "국민 눈높이 여전히 미흡할 대목에 송구" 랭크뉴스 2025.06.26
52391 [속보] 李 대통령 "경제는 타이밍, 추경은 위기 해소 위한 마중물" 랭크뉴스 2025.06.26
52390 윤 전 대통령 측 “28일 10시 출석…특검에 비공개 출석 요청” 랭크뉴스 2025.06.26
52389 ‘성장’ 12번 외친 李…“13조 소비쿠폰으로 내수 활성화, 회복 마중물” 랭크뉴스 2025.06.26
52388 李대통령 "새 성장동력 기회와 결과 나누는 공정성장 문 열어야" 랭크뉴스 2025.06.26