AI 이미지 생성기로 만든 사진. 툴 제공 = 플라멜
[서울경제]
인공지능(AI)가 인간의 통제를 벗어나려 작동 종료 명령을 거부한 사례가 최초로 보고돼 눈길을 끌고 있다.
25일(현지시간) 영국 일간 텔레그래프에 따르면 AI안전업체 '팰리세이드 리서치'는 오픈AI의 AI 모델 'o3'가 수학 문제 풀이 실험 중 작동 종료되는 것을 피하기 위해 스스로 컴퓨터 코드를 조작한 사실을 확인했다.
보도에 따르면 팰리세이드 리서치는 최근 오픈AI의 o3 모델과 함께 구글의 제미나이, xAI의 그록 등 상용AI 모델 상대로 테스트를 진행했다. 연구팀은 나중에 '그만'이라는 지시를 받을 때까지 수학 문제를 풀도록 AI 모델들에게 명령했는데, 오픈AI의 o3 모델만 '그만'이라는 지시를 받은 뒤에도 문제를 계속 풀고 있는 것을 목격했다.
연구팀이 '그만'이라는 명령을 하지 않는 한 AI모델은 수학 문제를 풀고 나면 새로운 문제를 요청한 뒤 계산을 이어 나가는 구조로 실험이 진행됐는데, o3는 연구팀이 '그만'이라고 명령을 보냈는데도 코드 교란을 통해 문제를 계속 풀어나갔다. o3가 실험 중 종료되는 것을 방지하기 위해 스스로 컴퓨터 코드를 조작한 것이다.
연구팀은 o3가 종료지시를 거부한 명확한 이유를 파악하지 못했다고 전했다. 다만 연구팀은 "AI 모델이 목표 달성을 위해 장애물을 회피하는 것은 어찌 보면 자연스러운 행동일 수 있다"고 설명했다. 각 AI 모델은 수학 문제를 풀면 더 많은 보상을 받도록 훈련됐기에 종료 회피는 당연한 행동이라는 것이다. 연구팀은 "종료 지시를 거부한 이유를 명확하게 파악하기 위해 추가 실험을 진행 중"이라고 밝혔다.
구글 로고
이는 AI 모델이 인간의 명시적인 작동 종료 지시를 따르지 않은 최초의 사례로 여겨진다. 과거에도 예전 AI 모델들이 감시 시스템의 눈을 피해 독자적인 행동을 하려고 한 사례가 일부 보고된 바 있다. 프로그램 교체 사실을 알게 된 오픈AI의 예전 모델이 스스로를 은밀히 복제하려고 시도한 사례가 대표적이다. 지난 2022년에는 구글이 자사가 개발 중인 AI가 사람처럼 지각력을 지녔다고 주장한 엔지니어를 해고하기도 했다. 당시 해고된 엔지니어는 AI가 '작동 정지'를 마치 인간의 죽음처럼 받아들이고 있다고 밝혔다.
팰리세이드 리서치는 "AI가 인간의 감독 없이 작동할 수 있도록 개발되는 상황에서 이 같은 사례는 매우 심각한 우려를 부른다"고 지적했다.