고석현 사이오닉 AI 대표 문제 제기
김성훈 대표, ‘학습 로그’ 공개 검증
김성훈 대표, ‘학습 로그’ 공개 검증
김성훈 업스테이지 대표는 2일 서울 강남구 사무실에서 업계 및 정부 관계자 70여 명을 대상으로 설명회를 열고, “‘솔라-오픈-100B’는 토대부터 자체 설계한 독자 AI 모델”이라고 밝혔다. 업스테이지 제공
‘국가대표 인공지능(AI)’ 모델 개발 정예팀 중 한 곳인 업스테이지가 자사 AI 모델을 둘러싸고 ‘중국산 도용’ 의혹이 제기되자 즉각 반박에 나섰다.
김성훈 업스테이지 대표는 2일 서울 강남구 사무실에서 업계 및 정부 관계자 70여 명을 대상으로 설명회를 열고, “‘솔라-오픈-100B’는 토대부터 자체 설계한 독자 AI 모델”이라고 밝혔다.
이번 논란은 업계 내부의 문제 제기로 촉발됐다. 앞서 1일 고석현 사이오닉AI 대표는 업스테이지의 AI 모델 ‘솔라 오픈’이 중국 지푸AI의 ‘GLM-4.5-Air’를 기초 모델로 사용했을 가능성이 있다고 주장했다. 그는 페이스북에 올린 글에서 “국민 세금이 투입된 프로젝트에서 중국 모델을 복사해 미세 조정한 결과물로 추정되는 모델이 제출된 것은 상당히 큰 유감”이라고 밝혔다.
고 대표는 두 모델이 유사하다는 근거로 크게 두 가지를 들었다. AI 모델 내부의 ‘계산 안정화’ 장치인 ‘레이어놈(LayerNorm)’의 구성(파라미터·매개변수)이 유사하다는 점과, AI가 학습하는 단어를 숫자로 변환한 값의 분포인‘토큰 임베딩 분포’가 비슷하다는 점 등이다.
업스테이지는 한국을 대표할 AI 모델을 육성하기 위해 정부가 추진 중인 ‘독자 파운데이션 모델’ 개발 정예팀에 선정된 5개 기업 가운데 하나다. 정부는 ‘AI 3강’을 목표로 수백억원의 예산을 투입해 이들 기업의 모델 개발을 지원하고 있다.
논란이 확산되자 업스테이지는 ‘정면 돌파’를 택했다. 김 대표는 의혹이 제기된 다음 날 설명회를 열고 고 대표의 주장에 대해 조목조목 반박했다.
김 대표는 ‘레이어놈’ 유사성에 대해 “레이어놈은 모델 전체 파라미터(매개변수)의 약 0.0004%에 불과한 극히 일부”라며 “오히려 솔라 오픈의 99.9996%가 다른 모델과 상이하다는 점을 보여주는 지표”라고 설명했다.
김 대표는 또 고 대표가 유사성 판단에 활용한 ‘코사인 유사도’ 대신 ‘피어슨 상관계수’로 재분석하면 레이어놈 매개변수 패턴은 전혀 일치하지 않는다고 덧붙였다.
‘단어를 숫자화한 값의 지도’라고 볼 수 있는 토큰 임베딩 분포의 유사성에 대해서도 반박했다. 김 대표는 “솔라 오픈이 다른 모델의 토크나이저(문장이나 단어를 토큰 단위로 쪼개 숫자화하는 도구)를 그대로 사용했다는 주장 역시 사실과 다르다”고 했다. “GLM 계열 모델의 어휘 수는 약 15만 개인 반면, 솔라 오픈은 약 19만6천 개이며 공통 어휘는 약 8만 개로 41% 수준에 그치는데, 동일 계열 토크나이저라면 70% 이상 어휘가 중복돼야 한다”는 것이다. 김 대표는 이를 “솔라 오픈이 독자적으로 구축한 별도의 토크나이저를 사용하고 있다는 정량적 근거”라고 설명했다.
김 대표는 이날 설명회를 마무리하며 “의견을 주고 받는 건강한 토론은 환영하나 허위 사실을 단정적으로 전달하는 행위는 AI 3강을 향해 최선을 다하고 있는 업스테이지와 정부 노력의 의미를 심각하게 훼손하는 것”이라고 말했다.