메뉴 건너뛰기

멀티모달 AI 부상…음성으로 시각장애인 택시 승차도 도와
초상권 침해 등 부작용 우려도…네카오·트웰브랩스 등 도전장


GPT-4o를 이용해 시각장애인이 택시를 부르는 모습
[오픈AI 유튜브 캡처]


(서울=연합뉴스) 김현수 기자 = 챗GPT 개발사인 오픈AI는 지난해 생성형 인공지능(AI) 'GPT-4o'를 활용해 시각장애인이 택시를 부르는 장면을 공개해 화제를 낳았다.

시각장애인이 도로를 향해 스마트폰 카메라를 비추며 '빈 택시를 찾아줘'라고 말하자, GPT-4o가 '택시 한 대가 다가오니 부를 준비를 하세요'라고 안내했다.

이처럼 이용자가 음성으로 질문하거나, 사진·영상을 입력하면 AI가 음성으로 답을 내놓는 시각언어모델(VLM) 개발 경쟁이 치열해지고 있다.

VLM은 텍스트와 시각 데이터를 동시에 학습하는 멀티모달 학습에 기반하는데, 주변 상황 등 시각 데이터를 인식할 수 있어 교육·의료·상거래 등 다양한 분야에서 활용도가 높을 것이란 전망이 나온다.

쇼핑몰 이미지를 VLM이 인식해 맞춤형 광고 문구를 제안하거나, 특정 여행지에 대한 홍보 이미지·영상 콘텐츠를 생성하는 게 대표적이다. 흉부 엑스레이 이미지를 인식한 VLM이 의사를 보조해 리포트를 생성할 수도 있다.

이같은 VLM 기술로 인해 AI와 사랑에 빠진 한 남성의 이야기를 그린 영화 '그녀'(Her) 속 세상이 점점 현실화하고 있다는 평가도 나온다.

영화 '그녀'(her) 속 장면
[유니버설 픽쳐스 유튜브 캡처]


다만, 초상권 도용, 허위 정보 생성 등 해결 과제도 적지 않다.

지난해 GPT-4o가 공개된 후 챗GPT의 음성이 미국 유명 배우 스칼릿 조핸슨의 목소리와 유사하다는 논란이 일자, 오픈AI는 해당 음성을 일시 중단한 바 있다.

텍스트·이미지를 결합한 데이터를 학습한 멀티모달 모델을 통해 사진 속 풍경, 위치정보 등을 분석해 이용자의 신원을 추론하거나 음성 등을 결합한 가짜 콘텐츠 생성에 악용할 수 있다는 우려도 나온다.

그럼에도 불구하고 후발주자인 국내 업계를 포함해 전 세계적으로 자체 VLM 모델을 개발하려는 시도는 뜨겁다.

18일 ICT 업계에 따르면 네이버의 생성형 AI '하이퍼클로바X SEED 3B'가 개발자 플랫폼 허깅페이스에서 지난 16일 기준 누적 다운로드 12만회를 넘었다.

지난달 24일 허깅페이스에 공개된 해당 모델은 네이버가 오픈소스로 공개한 첫 생성형 AI다. 네이버의 자체 생성형 AI '하이퍼클로바X' 경량 모델이자, 텍스트·이미지·영상 정보를 처리할 수 있는 VLM이다.

도표 이해, 개체 인식, 사진 묘사 등 성능을 갖췄으며, 관광 가이드, 시각적 콘텐츠 분석, 이미지 기반 질의응답 시스템 등 다양한 분야에 활용이 가능하다고 네이버는 설명했다. 한국어 맥락의 시각 데이터 처리에 특화된 점도 장점이다.

네이버 관계자는 "한국어에 특화된 경량 모델인 점을 고려하면 오픈소스 커뮤니티에서 좋은 반응을 얻고 있다"고 전했다.

네이버 생성형 AI '하이퍼클로바X SEED'
[네이버 제공]


카카오는 지난 1일 텍스트·오디오를 이해하는 오디오 언어모델 '카나나-a', 이미지, 오디오 모두를 이해하는 '카나나-o' 성능을 공개했다.

카카오에 따르면 카나나-o는 한국어 및 영어 벤치마크(성능 검증)에서 글로벌 최고 AI 모델과 유사한 수준을 기록했다. 한국어 벤치마크에서는 높은 우위를 보였다.

초거대 AI 개발 기업 트웰브랩스도 멀티모달 AI 모델인 '마렝고'와 '페가수스'를 국내 기업의 영상 AI 모델로는 처음으로 아마존 AI 플랫폼 '베드록'에서 출시할 예정이다.

엔씨소프트는 한국어 처리에 특화된 중소형 오픈소스 VLM '바르코 비전'을 지난해 공개했다.

고삼석 동국대 AI융합대학 석좌교수는 "AI 기술을 영상 분야에 도입하는 것은 하나의 트렌드가 됐다"며 "네이버, 삼성전자 등이 LLM 모델을 개발하고 중견·중소 기업은 공개된 오픈소스 모델을 응용한 서비스를 개발하는 두 가지 전략을 적극 추진해야 한다"고 전했다.

[email protected]

연합뉴스

번호 제목 글쓴이 날짜
49471 '많이 봐줬다'...트럼프, “애플, 인도 말고 미국에서 만들어라” 공개 압박 랭크뉴스 2025.05.18
49470 검찰, ‘김건희 다이아’ 건진법사 재소환…전달 여부 집중 추궁 랭크뉴스 2025.05.18
49469 광주 금호타이어 공장 화재 이틀째…진화율 80% 랭크뉴스 2025.05.18
49468 김혜경 ‘경기도 법카 유용’ 대법원 간다…1·2심서 벌금 150만원 랭크뉴스 2025.05.18
49467 인명 4명 살린 구조견 ‘전진이’ 은퇴식…“행복한 견생 되길” 랭크뉴스 2025.05.18
49466 이재명 “4년 연임제, 개헌 당시 대통령은 해당 안 돼” 랭크뉴스 2025.05.18
49465 "아디다스가 아크로폴리스 짓밟았다"…그리스 난리 난 '모욕' 논란, 무슨 일? 랭크뉴스 2025.05.18
49464 50년 지기 이낙연 떠난 이석현 “이재명 지지…새미래민주 탈당” 랭크뉴스 2025.05.18
49463 부하 직원에게 “거지냐” 폭언하고 주먹질까지···법원 “면직 정당” 랭크뉴스 2025.05.18
49462 NYT “머스크, SNS서 극우·음모론자들의 영향받는 듯” 랭크뉴스 2025.05.18
49461 제2의 ‘검정고무신’ 비극 막는다···공정위, 저작권관련 불공정 약관 대거 시정 랭크뉴스 2025.05.18
49460 이재명 "커피 원가 120원, 판매 1만원"…카페 주인들 뒤집어졌다 랭크뉴스 2025.05.18
49459 이재명 ‘호텔·커피경제론’에… 윤희숙 “먹튀” 권성동 “황당한 발상” 랭크뉴스 2025.05.18
49458 웃통 벗고 옹기 안으로 쑥…80만뷰 대박난 '옹기맨' 깜짝 정체 랭크뉴스 2025.05.18
49457 ‘계몽’ 김계리, 국힘 입당…“김문수 턱걸이 능력까지 알리겠다” 랭크뉴스 2025.05.18
49456 트럼프 "19일 푸틴과 전화회담"‥종전 논의하나 랭크뉴스 2025.05.18
49455 트럼프의 19일 푸틴·젤렌스키 연쇄통화, 휴전 돌파구 만들까(종합) 랭크뉴스 2025.05.18
49454 김혜경, '공직선거법 위반' 항소심 벌금 150만 원에 상고 랭크뉴스 2025.05.18
49453 김문수 “규제 개혁으로 경제 판갈이”…이준석, 5·18 기념식 참석 랭크뉴스 2025.05.18
49452 연립·다세대 재건축 활성화할까···서울시, 3년간 용적률 300% 완화 랭크뉴스 2025.05.18