메뉴 건너뛰기

멀티모달 AI 부상…음성으로 시각장애인 택시 승차도 도와
초상권 침해 등 부작용 우려도…네카오·트웰브랩스 등 도전장


GPT-4o를 이용해 시각장애인이 택시를 부르는 모습
[오픈AI 유튜브 캡처]


(서울=연합뉴스) 김현수 기자 = 챗GPT 개발사인 오픈AI는 지난해 생성형 인공지능(AI) 'GPT-4o'를 활용해 시각장애인이 택시를 부르는 장면을 공개해 화제를 낳았다.

시각장애인이 도로를 향해 스마트폰 카메라를 비추며 '빈 택시를 찾아줘'라고 말하자, GPT-4o가 '택시 한 대가 다가오니 부를 준비를 하세요'라고 안내했다.

이처럼 이용자가 음성으로 질문하거나, 사진·영상을 입력하면 AI가 음성으로 답을 내놓는 시각언어모델(VLM) 개발 경쟁이 치열해지고 있다.

VLM은 텍스트와 시각 데이터를 동시에 학습하는 멀티모달 학습에 기반하는데, 주변 상황 등 시각 데이터를 인식할 수 있어 교육·의료·상거래 등 다양한 분야에서 활용도가 높을 것이란 전망이 나온다.

쇼핑몰 이미지를 VLM이 인식해 맞춤형 광고 문구를 제안하거나, 특정 여행지에 대한 홍보 이미지·영상 콘텐츠를 생성하는 게 대표적이다. 흉부 엑스레이 이미지를 인식한 VLM이 의사를 보조해 리포트를 생성할 수도 있다.

이같은 VLM 기술로 인해 AI와 사랑에 빠진 한 남성의 이야기를 그린 영화 '그녀'(Her) 속 세상이 점점 현실화하고 있다는 평가도 나온다.

영화 '그녀'(her) 속 장면
[유니버설 픽쳐스 유튜브 캡처]


다만, 초상권 도용, 허위 정보 생성 등 해결 과제도 적지 않다.

지난해 GPT-4o가 공개된 후 챗GPT의 음성이 미국 유명 배우 스칼릿 조핸슨의 목소리와 유사하다는 논란이 일자, 오픈AI는 해당 음성을 일시 중단한 바 있다.

텍스트·이미지를 결합한 데이터를 학습한 멀티모달 모델을 통해 사진 속 풍경, 위치정보 등을 분석해 이용자의 신원을 추론하거나 음성 등을 결합한 가짜 콘텐츠 생성에 악용할 수 있다는 우려도 나온다.

그럼에도 불구하고 후발주자인 국내 업계를 포함해 전 세계적으로 자체 VLM 모델을 개발하려는 시도는 뜨겁다.

18일 ICT 업계에 따르면 네이버의 생성형 AI '하이퍼클로바X SEED 3B'가 개발자 플랫폼 허깅페이스에서 지난 16일 기준 누적 다운로드 12만회를 넘었다.

지난달 24일 허깅페이스에 공개된 해당 모델은 네이버가 오픈소스로 공개한 첫 생성형 AI다. 네이버의 자체 생성형 AI '하이퍼클로바X' 경량 모델이자, 텍스트·이미지·영상 정보를 처리할 수 있는 VLM이다.

도표 이해, 개체 인식, 사진 묘사 등 성능을 갖췄으며, 관광 가이드, 시각적 콘텐츠 분석, 이미지 기반 질의응답 시스템 등 다양한 분야에 활용이 가능하다고 네이버는 설명했다. 한국어 맥락의 시각 데이터 처리에 특화된 점도 장점이다.

네이버 관계자는 "한국어에 특화된 경량 모델인 점을 고려하면 오픈소스 커뮤니티에서 좋은 반응을 얻고 있다"고 전했다.

네이버 생성형 AI '하이퍼클로바X SEED'
[네이버 제공]


카카오는 지난 1일 텍스트·오디오를 이해하는 오디오 언어모델 '카나나-a', 이미지, 오디오 모두를 이해하는 '카나나-o' 성능을 공개했다.

카카오에 따르면 카나나-o는 한국어 및 영어 벤치마크(성능 검증)에서 글로벌 최고 AI 모델과 유사한 수준을 기록했다. 한국어 벤치마크에서는 높은 우위를 보였다.

초거대 AI 개발 기업 트웰브랩스도 멀티모달 AI 모델인 '마렝고'와 '페가수스'를 국내 기업의 영상 AI 모델로는 처음으로 아마존 AI 플랫폼 '베드록'에서 출시할 예정이다.

엔씨소프트는 한국어 처리에 특화된 중소형 오픈소스 VLM '바르코 비전'을 지난해 공개했다.

고삼석 동국대 AI융합대학 석좌교수는 "AI 기술을 영상 분야에 도입하는 것은 하나의 트렌드가 됐다"며 "네이버, 삼성전자 등이 LLM 모델을 개발하고 중견·중소 기업은 공개된 오픈소스 모델을 응용한 서비스를 개발하는 두 가지 전략을 적극 추진해야 한다"고 전했다.

[email protected]

연합뉴스

번호 제목 글쓴이 날짜
34738 200가지 바이러스 품은 박쥐는 어떻게 멀쩡히 생존할까 랭크뉴스 2025.05.18
34737 [단독] 온누리 상품권 17억 원어치 소멸…쥐도 새도 모르게 사라진 캐시백 랭크뉴스 2025.05.18
» »»»»» AI가 음성·이미지에 영상까지 이해…영화 '그녀' 현실화하나 랭크뉴스 2025.05.18
34735 퇴사에 골머리 앓는 기업들…직원 ‘퇴사율’ 낮춰주는 스타트업 뜬다 랭크뉴스 2025.05.18
34734 맞춤형 AI 비서의 마지막 퍼즐, 음성합성 기술[테크트렌드] 랭크뉴스 2025.05.18
34733 오스트레일리아에 한국 여행객이 크게 는 이유는? 랭크뉴스 2025.05.18
34732 "잘못한 학생에 '반성' 가르칠 수 없는 현실"···3인 사제지간 교사들의 교단 진단 랭크뉴스 2025.05.18
34731 ‘보험부채 16조’ KDB생명, 사실상 완전 자본잠식 상태 랭크뉴스 2025.05.18
34730 12개월 미만 여아 항생제 사용, 성조숙증 가능성 높여 랭크뉴스 2025.05.18
34729 24년만에 예금자보호한도 상향···예금 유치경쟁 불 붙을까[경제뭔데] 랭크뉴스 2025.05.18
34728 "메로나랑 똑같네"·"질려서 못 먹어"…화제의 '메론킥' 먹어보니 [신상 언박싱] 랭크뉴스 2025.05.18
34727 송파·서초 매물 석 달 만에 30% 줄어… “갈아타기·외지인 수요 몰려” 랭크뉴스 2025.05.18
34726 음주운전하다 다른 차량 추돌한 교도소 대체복무요원 랭크뉴스 2025.05.18
34725 대통령 이재명·총리 홍준표…밑질 것 없는 ‘브로맨스’[송종호의 여쏙야쏙] 랭크뉴스 2025.05.18
34724 '건보 자격 취득' 내국인 3만여명 줄 동안 중국인 2만7천명 늘어 랭크뉴스 2025.05.18
34723 이재명 "호남은 죽비‥광주, AI 중심도시로" 랭크뉴스 2025.05.18
34722 “회장님 나가시니 확 달라졌다”...남양유업의 ‘부활’ 랭크뉴스 2025.05.18
34721 대선후보 첫 TV 토론…후보 4명 경제 공약 검증 랭크뉴스 2025.05.18
34720 광주 금호타이어 공장 화재…이 시각 진화 상황 랭크뉴스 2025.05.18
34719 차기 대통령, 취임 직후 참석할 軍행사?…다산정약용함·이봉창함 진수식·해군국제관함식[이현호의 밀리터리!톡] 랭크뉴스 2025.05.18