메뉴 건너뛰기

한글 AI모델 개발해 생태계 확대하려면
학습데이터·컴퓨팅자원 확보 해결 필수
데이터는 비용보다 양과 접근성이 문제
모두 원하는 GPU... 정부 협상력에 달려

편집자주

'소버린 AI'를 강조해온 민간 전문가가 새 정부의 AI미래기획수석에 낙점되면서 AI 주권에 대한 관심이 높다. AI 주권 확보는 물론, 치열한 미래기술 경쟁에서 선도국으로 발돋움하기 위해 시급히 고민하고 해결해야 할 과제들을 짚어본다.
ETRI가 개발한 소형언어모델 '이글'을 활용한 인공지능 수학교사 챗봇 화면. ETRI 제공


한국전자통신연구원(ETRI)은 지난해 한국어 중심 소형언어모델(SLM)인 ‘이글’을 공개했다. 시중에 대형언어모델(LLM)이 많지만, 비용과 컴퓨팅 자원 한계로 활용이 어려운 중소·중견기업들을 위한 인공지능(AI)을 개발한 것이다. 이글이 학습한 데이터 중 약 20%가 한국어 기반이다. 빅테크 기업의 AI는 데이터 중 한국어가 5%에도 못미치는 데다, 영어로 생성한 응답을 한국어로 번역하는 방식이라 연산 자원 소모가 많다. 이에 비해 이글은 한국어 작업에서 다른 모델보다 약 15% 더 높은 성능을 보인다. 기업이 축적한 한글 데이터로 특화 학습을 하기에도 유리하다.

이글은 이재명 대통령이 공약한 ‘모두의 AI’와 비슷한 취지로 개발됐다. 하지만 과정은 순탄치 않았다. 연구팀이 쓴 그래픽처리장치(GPU)는 단 한 대뿐. 그마저도 구축에만 약 2년이 걸렸다. 고성능 GPU만 충분하다면 SLM은 하루면 학습이 가능하지만, 준비에 오랜 시간을 보내야 했다. 데이터 확보 역시 난제였다. 권오욱 ETRI 인공지능창의연구소 지능정보연구본부장은 “영어에 비해 한국어는 양질의 공개된 데이터가 부족하다”며 “SLM도 데이터 투입에 따라 성능이 달라지기 때문에 원활한 데이터 확보를 위한 지원이 필요하다”고 말했다.

ETRI의 사례는 소버린AI 구축 과정에서 겪게 될 난관을 압축적으로 보여준다. 학습용 데이터와 컴퓨팅 자원 등 인프라 부족은 수년째 계속돼온 고질적인 문제다. 하정우 AI미래기획수석의 주장처럼 ‘한국어 파운데이션(기반) 모델’을 개발해 AI 생태계를 확대하려면 인프라부터 해결해야 한다. 전문가들은 공격적인 투자로 문제를 풀되, 한국 특수성에 맞춘 전략 설계가 필요하다고 조언한다.

이재명 정부의 초대 AI미래기획수석으로 임명된 하정우 전 네이버 퓨처AI 센터장이 2024년 5월 서울 중구 대한상공회의소 국제회의장에서 열린 '한국포럼'에서 '하이퍼클로바X의 혁신'을 주제로 발표하고 있다. 하이퍼클로바X는 네이버클라우드가 한국어 데이터를 기반으로 개발한 생성형AI다. 하 수석은 하이퍼클로바X와 같은 한국형 AI 모델을 바탕으로 독자적인 '소버린AI'를 발전시켜야 한다고 주장해왔다. 최주연 기자


데이터: 산업 특화 연합학습으로 '윈-윈'을



19일 소프트웨어정책연구소의 ‘2024 인공지능산업 실태조사’에 따르면 AI 기업 59.5%는 양질의 데이터를 확보하는 데 어려움을 겪고 있다. 2021년 조사에서 같은 답변은 60.8%였다. 지난 4년간 문제가 개선되지 않은 것이다. 기업들의 애로사항은 ‘AI 서비스에 쓸 만한 고품질 데이터 확보가 어렵다’로 귀결된다. 금융·의료 등 민감하지만 가치가 높은 데이터는 수집이 어렵고 개인정보 관련 규제도 많다. 각 기업이 핵심 데이터를 쥐고 있지만, 이를 거래할 시장도 활성화하지 못했다는 지적이다.

그래픽=김대훈 기자


문제 해결을 위해 정부가 내놓은 대책은 ‘돈’이다. 국가인공지능위원회는 지난 2월 ‘국가 AI 역량 강화방안’으로 ‘월드베스트 LLM’ 프로젝트를 제시하며 "AI 국가대표 정예팀을 선발해 양질의 데이터 구입 및 가공 비용을 지원하겠다"고 밝혔다.

전문가들은 그러나 영어와 중국어에 비해 양적으로 부족한 한국어의 특성상 돈 투입만으로는 근본적인 한계가 있다고 지적한다. 대신 한국이 강점을 가진 산업에 특화한 핵심 데이터를 모아 공동으로 연합학습을 하는 윈-윈 전략이 대안으로 제시된다. 바이오 업계에서 진행하는 ‘K-멜로디’가 그런 예다. 김화종 한국제약바이오협회 K-멜로디 사업단장은 “우리나라는 세계 최고의 바이오 데이터를 보유했지만, 기관과 영역별로 호환되지 않아 활용이 어렵다”며 “데이터로 연합학습을 하되 외부로 공유하지 않도록 보완하면 AI 신약개발에 도움이 될 것”이라고 말했다.

GPU: 국가 컴퓨팅센터 구축은 민간 주도로



이재명 정부가 공약한 ‘GPU 5만 개 확보’라는 목표 자체에는 전문가들도 큰 이견이 없다. 오히려 ‘컴퓨팅 인프라는 많으면 많을수록 좋다’는 의견도 나온다. 문제는 재원 마련과 시행에 민간의 참여가 핵심인데, 이를 어떻게 확보해나가느냐다. 당장 2027년까지 GPU 1만 장 규모의 국가 AI컴퓨팅센터를 구축하려는 사업부터 삐걱거리고 있다. 정부가 지분의 51%를 갖고 의사결정을 주도하는 구조로 사업이 설계되면서 민관 합작에 나서는 기업이 없어 공모가 두 번이나 유찰됐다.

정부가 사업 구조를 재검토하면서 민간 기업에 주도권을 넘겨야 한다는 지적이 나온다. 김정호 한국과학기술원(KAIST) 전기및전자공학부 교수는 "GPU 확보 과정에서 국가 지분을 줄이고 기업에 주도권을 주는 방식으로 사업을 개편해야 더 효율적이고 빠르게 추진될 것”이라고 조언했다.

정부가 할 역할은 따로 있다. 주요 컴퓨팅 인프라 확보를 위해 외교력을 발휘하는 것이다. 이재성 중앙대 AI학과 교수는 “모든 국가가 미국 엔비디아에서 GPU를 구하려 하지만 생산량도 제한된 데다 미국도 이를 국가 전략자원으로 보호하고 있다”며 “재원뿐 아니라 정부의 협상 능력이 인프라 확보 속도를 결정할 것”이라고 말했다.

한국일보

번호 제목 글쓴이 날짜
49779 김민석 “차별금지법, 불이익 우려하는 교계 분들 있다···찬반 말하긴 어려워” new 랭크뉴스 2025.06.20
49778 韓은 임시공휴일 고민하는데…"쉬는 날 너무 많아" 노예해방일 패싱한 트럼프[글로벌 왓] new 랭크뉴스 2025.06.20
49777 [속보] 국정기획위, 검찰 업무보고 중단…“대통령 핵심공약 제대로 분석 안 해” new 랭크뉴스 2025.06.20
49776 “눈치 보여서” 착한 브랜드 찾는 Z세대 new 랭크뉴스 2025.06.20
49775 국정위, 검찰 업무보고 30분 만에 중단… “내용·형식 부실, 25일 재보고” new 랭크뉴스 2025.06.20
49774 국힘 반대로 ‘이종석 청문보고서’ 채택 불발…민주 “국정 발목잡기” new 랭크뉴스 2025.06.20
49773 [속보]‘내란 특검’ 특검보에 김형수·박억수·박지영·박태호·이윤제·장우성 new 랭크뉴스 2025.06.20
49772 [속보] 내란 특검 ‘1호 기소’ 김용현 사건 배당…지귀연 재판부가 병합여부 판단 new 랭크뉴스 2025.06.20
49771 [속보] 김남중 통일·김민재 행안·강형석 농림·김성범 해수부…차관 인사 new 랭크뉴스 2025.06.20
49770 [속보] 국정위, 검찰 업무보고 30분 만에 중단… “24일까지 재보고” new 랭크뉴스 2025.06.20
49769 [속보]이 대통령, 차관급 인사···통일부 김남중, 행안부 김민재 new 랭크뉴스 2025.06.20
49768 "모기인 줄 알았는데 으악!"…호텔 객실서 진드기 수백 마리, 무슨 일? new 랭크뉴스 2025.06.20
49767 코스피, 장중 3000선 돌파…3년 반 만의 '터치' new 랭크뉴스 2025.06.20
49766 [속보] 코스피 3000 돌파…3년 5개월여 만에 new 랭크뉴스 2025.06.20
49765 "지금이라도 사야 하나?"…11년 만에 최고가 찍은 '이것', 금보다 더 올랐다 new 랭크뉴스 2025.06.20
49764 '이 사람' 한 명이 BMW 4000대, 3000억 원 팔았다 new 랭크뉴스 2025.06.20
49763 [속보] 통일차관 김남중·행안차관 김민재… 李대통령, 차관급 5명 임명 new 랭크뉴스 2025.06.20
49762 [속보] 국정위, 검찰 업무보고 중단…"형식요건도 못 갖췄다" new 랭크뉴스 2025.06.20
49761 [속보] 통일부 차관 김남중·행안부 차관 김민재·농림부 차관 강형석·해수부 차관 김성범 임명 new 랭크뉴스 2025.06.20
49760 광주 시내버스 파업 종료 수순…'임금 3% 인상' 잠정 합의 new 랭크뉴스 2025.06.20