메뉴 건너뛰기

멀티모달 AI 부상…음성으로 시각장애인 택시 승차도 도와
초상권 침해 등 부작용 우려도…네카오·트웰브랩스 등 도전장


GPT-4o를 이용해 시각장애인이 택시를 부르는 모습
[오픈AI 유튜브 캡처]


(서울=연합뉴스) 김현수 기자 = 챗GPT 개발사인 오픈AI는 지난해 생성형 인공지능(AI) 'GPT-4o'를 활용해 시각장애인이 택시를 부르는 장면을 공개해 화제를 낳았다.

시각장애인이 도로를 향해 스마트폰 카메라를 비추며 '빈 택시를 찾아줘'라고 말하자, GPT-4o가 '택시 한 대가 다가오니 부를 준비를 하세요'라고 안내했다.

이처럼 이용자가 음성으로 질문하거나, 사진·영상을 입력하면 AI가 음성으로 답을 내놓는 시각언어모델(VLM) 개발 경쟁이 치열해지고 있다.

VLM은 텍스트와 시각 데이터를 동시에 학습하는 멀티모달 학습에 기반하는데, 주변 상황 등 시각 데이터를 인식할 수 있어 교육·의료·상거래 등 다양한 분야에서 활용도가 높을 것이란 전망이 나온다.

쇼핑몰 이미지를 VLM이 인식해 맞춤형 광고 문구를 제안하거나, 특정 여행지에 대한 홍보 이미지·영상 콘텐츠를 생성하는 게 대표적이다. 흉부 엑스레이 이미지를 인식한 VLM이 의사를 보조해 리포트를 생성할 수도 있다.

이같은 VLM 기술로 인해 AI와 사랑에 빠진 한 남성의 이야기를 그린 영화 '그녀'(Her) 속 세상이 점점 현실화하고 있다는 평가도 나온다.

영화 '그녀'(her) 속 장면
[유니버설 픽쳐스 유튜브 캡처]


다만, 초상권 도용, 허위 정보 생성 등 해결 과제도 적지 않다.

지난해 GPT-4o가 공개된 후 챗GPT의 음성이 미국 유명 배우 스칼릿 조핸슨의 목소리와 유사하다는 논란이 일자, 오픈AI는 해당 음성을 일시 중단한 바 있다.

텍스트·이미지를 결합한 데이터를 학습한 멀티모달 모델을 통해 사진 속 풍경, 위치정보 등을 분석해 이용자의 신원을 추론하거나 음성 등을 결합한 가짜 콘텐츠 생성에 악용할 수 있다는 우려도 나온다.

그럼에도 불구하고 후발주자인 국내 업계를 포함해 전 세계적으로 자체 VLM 모델을 개발하려는 시도는 뜨겁다.

18일 ICT 업계에 따르면 네이버의 생성형 AI '하이퍼클로바X SEED 3B'가 개발자 플랫폼 허깅페이스에서 지난 16일 기준 누적 다운로드 12만회를 넘었다.

지난달 24일 허깅페이스에 공개된 해당 모델은 네이버가 오픈소스로 공개한 첫 생성형 AI다. 네이버의 자체 생성형 AI '하이퍼클로바X' 경량 모델이자, 텍스트·이미지·영상 정보를 처리할 수 있는 VLM이다.

도표 이해, 개체 인식, 사진 묘사 등 성능을 갖췄으며, 관광 가이드, 시각적 콘텐츠 분석, 이미지 기반 질의응답 시스템 등 다양한 분야에 활용이 가능하다고 네이버는 설명했다. 한국어 맥락의 시각 데이터 처리에 특화된 점도 장점이다.

네이버 관계자는 "한국어에 특화된 경량 모델인 점을 고려하면 오픈소스 커뮤니티에서 좋은 반응을 얻고 있다"고 전했다.

네이버 생성형 AI '하이퍼클로바X SEED'
[네이버 제공]


카카오는 지난 1일 텍스트·오디오를 이해하는 오디오 언어모델 '카나나-a', 이미지, 오디오 모두를 이해하는 '카나나-o' 성능을 공개했다.

카카오에 따르면 카나나-o는 한국어 및 영어 벤치마크(성능 검증)에서 글로벌 최고 AI 모델과 유사한 수준을 기록했다. 한국어 벤치마크에서는 높은 우위를 보였다.

초거대 AI 개발 기업 트웰브랩스도 멀티모달 AI 모델인 '마렝고'와 '페가수스'를 국내 기업의 영상 AI 모델로는 처음으로 아마존 AI 플랫폼 '베드록'에서 출시할 예정이다.

엔씨소프트는 한국어 처리에 특화된 중소형 오픈소스 VLM '바르코 비전'을 지난해 공개했다.

고삼석 동국대 AI융합대학 석좌교수는 "AI 기술을 영상 분야에 도입하는 것은 하나의 트렌드가 됐다"며 "네이버, 삼성전자 등이 LLM 모델을 개발하고 중견·중소 기업은 공개된 오픈소스 모델을 응용한 서비스를 개발하는 두 가지 전략을 적극 추진해야 한다"고 전했다.

[email protected]

연합뉴스

번호 제목 글쓴이 날짜
49375 北, 韓도 국산화 못한 공대공미사일 실사격 훈련 공개 랭크뉴스 2025.05.18
49374 미국 ‘최고’ 신용등급 다 잃었다…“트럼프 감세, 나라 빚 늘릴 것” 랭크뉴스 2025.05.18
49373 [속보]이재명 “대통령 4년 연임제·결선투표제 도입하자” 개헌 입장문 내 랭크뉴스 2025.05.18
49372 157㎝ 伊총리 보자마자 무릎꿇었다, 2m 알바니아 총리 화제 랭크뉴스 2025.05.18
49371 [속보] 이재명 “4년 연임제 도입으로 대통령 권한 분산하자” 랭크뉴스 2025.05.18
49370 [속보] 이재명 "대통령 4년 연임제, 5·18 정신 헌법 전문 수록" 개헌 제안 랭크뉴스 2025.05.18
49369 검찰, ‘김건희 다이아 목걸이’ 의혹 건진법사 재소환 랭크뉴스 2025.05.18
49368 [속보] 국민의힘 탈당한 김상욱, 오늘 민주당 입당 랭크뉴스 2025.05.18
49367 [속보] 이재명 “4년 연임제, 결선투표제 도입…국무총리 국회서 추천” 랭크뉴스 2025.05.18
49366 미얀마 강진 때 무너진 방콕 건물, 결국 ‘부실 공사’가 원인? [특파원 리포트] 랭크뉴스 2025.05.18
49365 트럼프 “푸틴과 19일 통화할것…젤렌스키와도 뒤이어 통화” 랭크뉴스 2025.05.18
49364 큰소리로 울었다고 스티커 잘못 붙였다고…어린이집 원생 잇따라 학대한 보육교사 랭크뉴스 2025.05.18
49363 '죽음의 감옥' 절대 보안도 뚫었다…죄수 3명의 '엽기적 탈출' 랭크뉴스 2025.05.18
49362 네 번 걸려 온 ‘대통령님’ 전화…“총 쏴서라도 들어가” [피고인 윤석열]⑦ 랭크뉴스 2025.05.18
49361 울었다고 스티커 잘못 붙였다고…어린이집 원생 잇따라 학대한 보육교사 랭크뉴스 2025.05.18
49360 핵실험 감시 장비로 ‘우주 재앙’ 피한다니…어떻게? 랭크뉴스 2025.05.18
49359 ‘우크라 종전’ 중재 재시동 건 트럼프 “19일 푸틴과 통화할 것” 랭크뉴스 2025.05.18
49358 생고무 20t에 1주일 예상했던 광주 금호타이어 화재…오늘 주불 진압 목표 랭크뉴스 2025.05.18
49357 쌀쌀한 아침, 낮 최고 24도…비 그친 뒤 화창한 일요일 랭크뉴스 2025.05.18
49356 광주 도심 금호타이어 화재 이틀째…오늘 주불 진압 목표 랭크뉴스 2025.05.18