메뉴 건너뛰기

멀티모달 AI 부상…음성으로 시각장애인 택시 승차도 도와
초상권 침해 등 부작용 우려도…네카오·트웰브랩스 등 도전장


GPT-4o를 이용해 시각장애인이 택시를 부르는 모습
[오픈AI 유튜브 캡처]


(서울=연합뉴스) 김현수 기자 = 챗GPT 개발사인 오픈AI는 지난해 생성형 인공지능(AI) 'GPT-4o'를 활용해 시각장애인이 택시를 부르는 장면을 공개해 화제를 낳았다.

시각장애인이 도로를 향해 스마트폰 카메라를 비추며 '빈 택시를 찾아줘'라고 말하자, GPT-4o가 '택시 한 대가 다가오니 부를 준비를 하세요'라고 안내했다.

이처럼 이용자가 음성으로 질문하거나, 사진·영상을 입력하면 AI가 음성으로 답을 내놓는 시각언어모델(VLM) 개발 경쟁이 치열해지고 있다.

VLM은 텍스트와 시각 데이터를 동시에 학습하는 멀티모달 학습에 기반하는데, 주변 상황 등 시각 데이터를 인식할 수 있어 교육·의료·상거래 등 다양한 분야에서 활용도가 높을 것이란 전망이 나온다.

쇼핑몰 이미지를 VLM이 인식해 맞춤형 광고 문구를 제안하거나, 특정 여행지에 대한 홍보 이미지·영상 콘텐츠를 생성하는 게 대표적이다. 흉부 엑스레이 이미지를 인식한 VLM이 의사를 보조해 리포트를 생성할 수도 있다.

이같은 VLM 기술로 인해 AI와 사랑에 빠진 한 남성의 이야기를 그린 영화 '그녀'(Her) 속 세상이 점점 현실화하고 있다는 평가도 나온다.

영화 '그녀'(her) 속 장면
[유니버설 픽쳐스 유튜브 캡처]


다만, 초상권 도용, 허위 정보 생성 등 해결 과제도 적지 않다.

지난해 GPT-4o가 공개된 후 챗GPT의 음성이 미국 유명 배우 스칼릿 조핸슨의 목소리와 유사하다는 논란이 일자, 오픈AI는 해당 음성을 일시 중단한 바 있다.

텍스트·이미지를 결합한 데이터를 학습한 멀티모달 모델을 통해 사진 속 풍경, 위치정보 등을 분석해 이용자의 신원을 추론하거나 음성 등을 결합한 가짜 콘텐츠 생성에 악용할 수 있다는 우려도 나온다.

그럼에도 불구하고 후발주자인 국내 업계를 포함해 전 세계적으로 자체 VLM 모델을 개발하려는 시도는 뜨겁다.

18일 ICT 업계에 따르면 네이버의 생성형 AI '하이퍼클로바X SEED 3B'가 개발자 플랫폼 허깅페이스에서 지난 16일 기준 누적 다운로드 12만회를 넘었다.

지난달 24일 허깅페이스에 공개된 해당 모델은 네이버가 오픈소스로 공개한 첫 생성형 AI다. 네이버의 자체 생성형 AI '하이퍼클로바X' 경량 모델이자, 텍스트·이미지·영상 정보를 처리할 수 있는 VLM이다.

도표 이해, 개체 인식, 사진 묘사 등 성능을 갖췄으며, 관광 가이드, 시각적 콘텐츠 분석, 이미지 기반 질의응답 시스템 등 다양한 분야에 활용이 가능하다고 네이버는 설명했다. 한국어 맥락의 시각 데이터 처리에 특화된 점도 장점이다.

네이버 관계자는 "한국어에 특화된 경량 모델인 점을 고려하면 오픈소스 커뮤니티에서 좋은 반응을 얻고 있다"고 전했다.

네이버 생성형 AI '하이퍼클로바X SEED'
[네이버 제공]


카카오는 지난 1일 텍스트·오디오를 이해하는 오디오 언어모델 '카나나-a', 이미지, 오디오 모두를 이해하는 '카나나-o' 성능을 공개했다.

카카오에 따르면 카나나-o는 한국어 및 영어 벤치마크(성능 검증)에서 글로벌 최고 AI 모델과 유사한 수준을 기록했다. 한국어 벤치마크에서는 높은 우위를 보였다.

초거대 AI 개발 기업 트웰브랩스도 멀티모달 AI 모델인 '마렝고'와 '페가수스'를 국내 기업의 영상 AI 모델로는 처음으로 아마존 AI 플랫폼 '베드록'에서 출시할 예정이다.

엔씨소프트는 한국어 처리에 특화된 중소형 오픈소스 VLM '바르코 비전'을 지난해 공개했다.

고삼석 동국대 AI융합대학 석좌교수는 "AI 기술을 영상 분야에 도입하는 것은 하나의 트렌드가 됐다"며 "네이버, 삼성전자 등이 LLM 모델을 개발하고 중견·중소 기업은 공개된 오픈소스 모델을 응용한 서비스를 개발하는 두 가지 전략을 적극 추진해야 한다"고 전했다.

[email protected]

연합뉴스

번호 제목 글쓴이 날짜
49452 연립·다세대 재건축 활성화할까···서울시, 3년간 용적률 300% 완화 new 랭크뉴스 2025.05.18
49451 "목이 90도로 확 꺾였다"…종일 스마트폰만 보던 20대 日 남성 엑스레이 '깜짝' new 랭크뉴스 2025.05.18
49450 오늘 첫 TV토론‥후보 4인 '경제분야' 격돌 new 랭크뉴스 2025.05.18
49449 "세상에서 가장 잔인한 병"…20대 여성 생명 앗아간 '희귀 치매' 뭐길래? new 랭크뉴스 2025.05.18
49448 이경실 “89평 자택 경매 취소…투자 꼬였으나 해결돼" new 랭크뉴스 2025.05.18
49447 나경원 "국민과 당원이 빅텐트…이제 선거 판갈이 시작해야" new 랭크뉴스 2025.05.18
49446 5·18 기념식 묵념 때 ‘늙은 군인을 위한 노래’를 사용했다고? new 랭크뉴스 2025.05.18
49445 광주 하늘 15km 시커멓다…"화재 연기기둥 사흘은 더 갈듯" new 랭크뉴스 2025.05.18
49444 제조업 취업자 비중 역대 최저…신규채용도 사라져 new 랭크뉴스 2025.05.18
49443 이재명, 선대위에 홍준표 세우려 했다…거침없는 '보수 돌진' [대선 비하인드] new 랭크뉴스 2025.05.18
49442 소방 당국 "금호타이어 광주공장 오전 중 90% 이상 진화 목표" new 랭크뉴스 2025.05.18
49441 김문수 "규제혁신처 신설, 주52시간 규제 깰 것" 경제공약 발표 new 랭크뉴스 2025.05.18
49440 이재명, ‘대통령 4년 연임제’ 개헌…“책임 강화, 권한 분산” new 랭크뉴스 2025.05.18
49439 "무능해질 때까지 승진? 두고 못 봐" 팀장 줄이는 빅테크의 속사정 [정혜진의 라스트컴퍼니] new 랭크뉴스 2025.05.18
49438 [김문수 포스터 몰아보기] 29년 전 ‘노동 투사’, 2010년 ‘보수 전사’ new 랭크뉴스 2025.05.18
49437 한동훈, 20일부터 ‘김문수 지원 유세’… 부산·대구 등 ‘영남권 벨트’ 공략 new 랭크뉴스 2025.05.18
49436 이재명 "대통령 4년 연임제 하자, 개헌 당시 대통령엔 미적용" new 랭크뉴스 2025.05.18
49435 이재명 "재임 대통령엔 연임제 적용 안 돼…임기단축 신중해야" new 랭크뉴스 2025.05.18
49434 해킹 사고 한 달 SKT, ‘고객신뢰 위원회’ 출범···내일부턴 도서·벽지 직접 간다 new 랭크뉴스 2025.05.18
49433 안창호 인권위원장, 광주시민 항의에 5·18기념식장서 쫓겨나 new 랭크뉴스 2025.05.18