메뉴 건너뛰기

한글 AI모델 개발해 생태계 확대하려면
학습데이터·컴퓨팅자원 확보 해결 필수
데이터는 비용보다 양과 접근성이 문제
모두 원하는 GPU... 정부 협상력에 달려

편집자주

'소버린 AI'를 강조해온 민간 전문가가 새 정부의 AI미래기획수석에 낙점되면서 AI 주권에 대한 관심이 높다. AI 주권 확보는 물론, 치열한 미래기술 경쟁에서 선도국으로 발돋움하기 위해 시급히 고민하고 해결해야 할 과제들을 짚어본다.
ETRI가 개발한 소형언어모델 '이글'을 활용한 인공지능 수학교사 챗봇 화면. ETRI 제공


한국전자통신연구원(ETRI)은 지난해 한국어 중심 소형언어모델(SLM)인 ‘이글’을 공개했다. 시중에 대형언어모델(LLM)이 많지만, 비용과 컴퓨팅 자원 한계로 활용이 어려운 중소·중견기업들을 위한 인공지능(AI)을 개발한 것이다. 이글이 학습한 데이터 중 약 20%가 한국어 기반이다. 빅테크 기업의 AI는 데이터 중 한국어가 5%에도 못미치는 데다, 영어로 생성한 응답을 한국어로 번역하는 방식이라 연산 자원 소모가 많다. 이에 비해 이글은 한국어 작업에서 다른 모델보다 약 15% 더 높은 성능을 보인다. 기업이 축적한 한글 데이터로 특화 학습을 하기에도 유리하다.

이글은 이재명 대통령이 공약한 ‘모두의 AI’와 비슷한 취지로 개발됐다. 하지만 과정은 순탄치 않았다. 연구팀이 쓴 그래픽처리장치(GPU)는 단 한 대뿐. 그마저도 구축에만 약 2년이 걸렸다. 고성능 GPU만 충분하다면 SLM은 하루면 학습이 가능하지만, 준비에 오랜 시간을 보내야 했다. 데이터 확보 역시 난제였다. 권오욱 ETRI 인공지능창의연구소 지능정보연구본부장은 “영어에 비해 한국어는 양질의 공개된 데이터가 부족하다”며 “SLM도 데이터 투입에 따라 성능이 달라지기 때문에 원활한 데이터 확보를 위한 지원이 필요하다”고 말했다.

ETRI의 사례는 소버린AI 구축 과정에서 겪게 될 난관을 압축적으로 보여준다. 학습용 데이터와 컴퓨팅 자원 등 인프라 부족은 수년째 계속돼온 고질적인 문제다. 하정우 AI미래기획수석의 주장처럼 ‘한국어 파운데이션(기반) 모델’을 개발해 AI 생태계를 확대하려면 인프라부터 해결해야 한다. 전문가들은 공격적인 투자로 문제를 풀되, 한국 특수성에 맞춘 전략 설계가 필요하다고 조언한다.

이재명 정부의 초대 AI미래기획수석으로 임명된 하정우 전 네이버 퓨처AI 센터장이 2024년 5월 서울 중구 대한상공회의소 국제회의장에서 열린 '한국포럼'에서 '하이퍼클로바X의 혁신'을 주제로 발표하고 있다. 하이퍼클로바X는 네이버클라우드가 한국어 데이터를 기반으로 개발한 생성형AI다. 하 수석은 하이퍼클로바X와 같은 한국형 AI 모델을 바탕으로 독자적인 '소버린AI'를 발전시켜야 한다고 주장해왔다. 최주연 기자


데이터: 산업 특화 연합학습으로 '윈-윈'을



19일 소프트웨어정책연구소의 ‘2024 인공지능산업 실태조사’에 따르면 AI 기업 59.5%는 양질의 데이터를 확보하는 데 어려움을 겪고 있다. 2021년 조사에서 같은 답변은 60.8%였다. 지난 4년간 문제가 개선되지 않은 것이다. 기업들의 애로사항은 ‘AI 서비스에 쓸 만한 고품질 데이터 확보가 어렵다’로 귀결된다. 금융·의료 등 민감하지만 가치가 높은 데이터는 수집이 어렵고 개인정보 관련 규제도 많다. 각 기업이 핵심 데이터를 쥐고 있지만, 이를 거래할 시장도 활성화하지 못했다는 지적이다.

그래픽=김대훈 기자


문제 해결을 위해 정부가 내놓은 대책은 ‘돈’이다. 국가인공지능위원회는 지난 2월 ‘국가 AI 역량 강화방안’으로 ‘월드베스트 LLM’ 프로젝트를 제시하며 "AI 국가대표 정예팀을 선발해 양질의 데이터 구입 및 가공 비용을 지원하겠다"고 밝혔다.

전문가들은 그러나 영어와 중국어에 비해 양적으로 부족한 한국어의 특성상 돈 투입만으로는 근본적인 한계가 있다고 지적한다. 대신 한국이 강점을 가진 산업에 특화한 핵심 데이터를 모아 공동으로 연합학습을 하는 윈-윈 전략이 대안으로 제시된다. 바이오 업계에서 진행하는 ‘K-멜로디’가 그런 예다. 김화종 한국제약바이오협회 K-멜로디 사업단장은 “우리나라는 세계 최고의 바이오 데이터를 보유했지만, 기관과 영역별로 호환되지 않아 활용이 어렵다”며 “데이터로 연합학습을 하되 외부로 공유하지 않도록 보완하면 AI 신약개발에 도움이 될 것”이라고 말했다.

GPU: 국가 컴퓨팅센터 구축은 민간 주도로



이재명 정부가 공약한 ‘GPU 5만 개 확보’라는 목표 자체에는 전문가들도 큰 이견이 없다. 오히려 ‘컴퓨팅 인프라는 많으면 많을수록 좋다’는 의견도 나온다. 문제는 재원 마련과 시행에 민간의 참여가 핵심인데, 이를 어떻게 확보해나가느냐다. 당장 2027년까지 GPU 1만 장 규모의 국가 AI컴퓨팅센터를 구축하려는 사업부터 삐걱거리고 있다. 정부가 지분의 51%를 갖고 의사결정을 주도하는 구조로 사업이 설계되면서 민관 합작에 나서는 기업이 없어 공모가 두 번이나 유찰됐다.

정부가 사업 구조를 재검토하면서 민간 기업에 주도권을 넘겨야 한다는 지적이 나온다. 김정호 한국과학기술원(KAIST) 전기및전자공학부 교수는 "GPU 확보 과정에서 국가 지분을 줄이고 기업에 주도권을 주는 방식으로 사업을 개편해야 더 효율적이고 빠르게 추진될 것”이라고 조언했다.

정부가 할 역할은 따로 있다. 주요 컴퓨팅 인프라 확보를 위해 외교력을 발휘하는 것이다. 이재성 중앙대 AI학과 교수는 “모든 국가가 미국 엔비디아에서 GPU를 구하려 하지만 생산량도 제한된 데다 미국도 이를 국가 전략자원으로 보호하고 있다”며 “재원뿐 아니라 정부의 협상 능력이 인프라 확보 속도를 결정할 것”이라고 말했다.

한국일보

번호 제목 글쓴이 날짜
49826 강남 3구 아파트 ‘신고가’ 속출…노도강의 25배 new 랭크뉴스 2025.06.20
49825 국정위, 검찰·방통위 업무보고 받던 중 중단 "준비 안돼" new 랭크뉴스 2025.06.20
49824 "출국 때 좋아했다면서요?" 농담에 '대통령님‥' 터진 강훈식 new 랭크뉴스 2025.06.20
49823 법원 "이종필 라임 전 부사장, 라임에 35억 배상하라" new 랭크뉴스 2025.06.20
49822 "국무회의 공개하면 어떠냐"‥尹 장관들에게 '전격 제안' new 랭크뉴스 2025.06.20
49821 '김건희 입원' 논란에 입 연 尹 "아내 진짜 많이 아파…수사 회피 아냐" new 랭크뉴스 2025.06.20
49820 "정권나팔수"vs"부역한적 없다" 방통위 국정위 보고 질책속 중단(종합2보) new 랭크뉴스 2025.06.20
49819 “국힘 윗선 지시라며 대통령 대담 이후 결정” 통보···민주당, 이종석 인청보고서 채택 불발 비판 new 랭크뉴스 2025.06.20
49818 ‘수입은 5억, 지출은 13억 가능하냐’ 묻자, 김민석 후보자 답변이 [이런뉴스] new 랭크뉴스 2025.06.20
49817 서울 집값 ‘과열’…6년 9개월 만에 최대폭 상승 [뉴스in뉴스] new 랭크뉴스 2025.06.20
49816 "휴대폰 하나 만들자" 오랜 친구의 전화, 이스라엘 첩보전이었다 new 랭크뉴스 2025.06.20
49815 국정위, 검찰 업무보고 중단…“공약 ‘수사-기소 분리’ 내용 없어” new 랭크뉴스 2025.06.20
49814 5월 생산자물가 1년 반 만 최대 폭 하락… 양파 42.7%↓ new 랭크뉴스 2025.06.20
49813 김정숙 여사, '양산 사저 시위 소음' 질문에… "소리치고 싶어요" 토로 new 랭크뉴스 2025.06.20
49812 “형식이 전략이 됐다”…NH는 왜 애플식 무대를 택했나 [비즈니스 포커스] new 랭크뉴스 2025.06.20
49811 코스피, 3년 5개월 만에 3000선 돌파…기관·외인 동반 순매수 new 랭크뉴스 2025.06.20
49810 ‘내란 특검’ 특검보 6명 임명…김건희 특검 파견검사 수사 시작 new 랭크뉴스 2025.06.20
49809 "공약 분석도 없고, 형식도 못 갖췄다"... 국정기획위, 검찰청 업무 보고 중단 new 랭크뉴스 2025.06.20
49808 “백종원, 지역축제서 유통기한 지난 식자재 사용?”…예산군 “절대 아니다” new 랭크뉴스 2025.06.20
49807 이스라엘, 아라크 중수로 타격 영상 공개…"방사능 유출은 없어" new 랭크뉴스 2025.06.20