메뉴 건너뛰기



한때 음성합성 기술은 개발하기 쉬워서 이미 범용화된 기술이란 평을 듣기도 했다. 그러나 딥러닝, LLM 등 우수한 AI 모델에 힘입어 합성된 음성의 품질은 더 이상 과거의 기계적인 음성이 아니라 사람이 자연스럽게 말하는 수준으로 향상되었고 이제는 감정을 싣는 등 보다 풍부한 표현력까지 갖추기 시작하고 있다. 사람 간 소통의 핵심 인터페이스는 음성현재 대부분의 AI 서비스는 글을 써서 명령하고, 글로 답을 받는 문자 기반의 소통 방식을 주로 채택하고 있다. 이런 단일한 방식의 소통은 사람들에게 다소 불편하거나 비효율적일 수도 있다. 사람들 간의 의사소통은 주로 글(문자), 말(음성), 표정(시각 데이터, 이미지), 동작(시각 데이터, 행동) 중 둘 이상을 동시에 사용해서 정보를 주고받음으로써 이루어지기 때문이다. 이런 점을 감안하면 일반적인 사용자들은 자신의 비서 역할을 수행하는 AI 서비스를 이용할 때 사람을 상대하듯 말도 함께 사용할 수 있는 방식을 훨씬 편리하게 여길 것이라 짐작할 수 있다. 향후 사람처럼 음성, 문자, 이미지를 동시에 활용할 수 있는 멀티모달 인터페이스가 적용된다면 사용 편의성이 획기적으로 높아져 AI 서비스의 활용도가 훨씬 확장될 수 있을 것이다.

널리 알려진 AI 모델인 챗GPT에 사람의 비서 역할을 맡은 AI 에이전트에 필요한 인터페이스가 무엇인지 질문해 보면 아주 흥미로운 대답을 한다. AI 에이전트에 필요한 인터페이스는 단순히 문자를 주고받는 채팅창을 넘어선 멀티모달 인터페이스라고 답한다. 챗GPT 등 각종 AI 서비스를 활용해 도출한 AI 비서의 인터페이스로는 문서 기반, 맥락 기반, 문자 기반, 타임라인 기반, 행동 유도 기반 및 멀티모달의 총 5가지 인터페이스를 들 수 있다. 이 중에서 사람에게 가장 친근한 소통 기능을 제공하는 것은 멀티모달 인터페이스이다. 그리고 멀티모달 인터페이스의 중추는 대화형 인터페이스이고, 그 이면에는 문자를 음성으로 바꾸는 음성합성 기술이 자리 잡고 있다.
멀티모달 소통의 기반은 음성합성음성합성(Text to Speech) 기술은 오래된 기술이다. 초보적인 전기적 음성합성 기술은 근 100년 전인 1930년대에 개발되었고, 컴퓨터 기반의 음성합성 기술도 1950년대에 이미 등장했다. 1970년대부터는 주파수 변조를 통한 인공적인 음성합성 기술과 사람 음성을 녹음한 데이터를 재조합한 음성합성 기술이 등장해 시각장애인, 난독증 등 학습 장애가 있는 사람들을 위한 안내 음성 등 제한적인 영역에서의 상용화가 이루어졌다. 그렇지만 당시의 합성된 음성 품질은 단순히 문자를 기계적으로 읽는 수준에 그쳤다.

각 개인별 음성이 지닌 고유의 음조, 억양 등 특성을 반영한 음성 합성이나 문자를 즉각 음성으로 변환하는 기술, 감정을 조절해 실제 사람처럼 자연스럽게 발성하는 기술들은 딥러닝 기반 신경망(Neural Network) 기술, 특히 트랜스포머(transformer), seq2seq, attention 메커니즘 등이 도입되면서 획기적으로 개선되었다. 구글의 Tacotron, 딥마인드의 WaveNet 등 대표적인 딥러닝 기반 모델이 등장한 이후에는 운율 표현이나 더 자연스러워진 감정 표현 등이 가능해졌다. 음성합성 기술에 LLM이 본격적으로 활용되면 훨씬 풍부한 억양, 발음이 반영된 보다 자연스러운 음성합성이 가능해질 것으로 기대 받고 있다.
신속 정확하고 풍부한 표현력을 갖춘 자연스러운 대화로 발전현재 개발되고 있는 음성합성 기술들은 딥러닝, LLM 등 향상된 AI 모델과 풍부해진 데이터를 바탕으로 특정 인물의 음색과 억양, 맥락에 맞는 감정을 가미해 풍부한 표현이 가능한 음성을 다국어로 보다 빠르고 정확하게 만들어내도록 개발되고 있다.

▲ End-to-End 음성합성: 문자의 전처리, 발음 변환, 운율 예측 등 여러 단계를 하나의 딥러닝 네트워크로 통합해 자연스러운 음성을 생성하는 기술로서 Tacotron, Deep Voice 등이 해당된다.

▲ 신경망 기반 보코더(Neural Vocoder): 실제 소리를 만들어내는 단계에서 고품질 음성 파형을 생성하는 기술로서 WaveNet 등이 해당된다.

▲ 맞춤화, 개인화 음성: 소량의 음성 데이터만으로 특정인의 목소리를 학습해 맞춤형 음성을 합성할 수 있고 전이학습(transfer learning) 기술이 맞춤화 속도를 가속화하고 있다.

▲ 다국어 확장: 다양한 언어와 억양을 지원하는 다국어 시스템이 개발되고 있고 글로벌 서비스 확장에 초점을 두고 추진되고 있다.

▲ 감정 및 스타일 표현: 단순한 발성을 넘어서 감정, 스타일, 상황에 맞는 음조를 낼 수 있는 음성합성 기술이 등장한 결과 엔터테인먼트, 게임, 오디오북 등 다양한 분야로 음성합성 기술의 적용 범위가 한층 넓어지고 있다.

공통적인 기술적 특성에 더해 기업들이 자연스러움, 사용자 제어, 접근성, 개발자 지원 등에서 차별화된 강점을 가진 음성합성 기술들을 개발하고 있다.

신생 스타트업 나리랩스(Nari Labs)는 올해 4월 오픈소스 모델 다이아(Dia)를 공개했다. 다이아는 1.6억 개의 파라미터를 가진 대형 AI 모델로 자연스러운 대화체 음성 합성에 특화되어 있다. 감정 표현과 웃음, 기침 등 비언어적 소리의 삽입이 가능해 실제 사람 간의 대화와 유사한 음성을 생성할 수 있다. 나리랩스는 오픈AI의 GPT-4o 등 기존 음성합성 모델들보다 더 자연스럽고 대화하기에 적합한 음성 품질을 지향한다. 짧은 오디오 샘플을 입력해 음색, 감정, 전달 스타일을 지정할 수 있고 스크립트상의 명령어로 비언어적 소리를 제어할 수 있다. 오픈소스 모델이므로 가중치와 코드 수정을 통해 누구든 맞춤화하기에 용이하다. 업계에서는 팟캐스트, 오디오북, 게임 캐릭터 등에 적용될 것으로 전망한다.

AI 분야의 선두 기업인 오픈AI는 올해 3월 차세대 TTS 모델 ‘gpt-4o-mini-tts’를 출시했다. 음성합성의 ‘조정 가능성(steerability)’: 단순히 무엇을 말할지만 결정하는 것을 넘어 어떻게 말할지까지 개발자가 지시할 수 있다. 고객 서비스, 창작 스토리텔링 등 다양한 분야에 적합한 맞춤형 음성 경험을 제공할 것으로 평가받는다.

로보AI는 AI 음성 합성 분야에서 돋보이는 스타트업이다. 로보AI의 음성합성 기술은 500개 이상의 AI 음성과 100개 이상의 언어 및 억양을 지원하고 특정 인물의 목소리를 정밀하게 복제하는 음성 클로닝 기능도 갖추고 있다. 사용자 친화적 인터페이스를 갖추고 있어 자연스러운 음성을 생성하고 속도·강조·일시정지 등의 세밀한 조정도 활용할 수 있어 영상 콘텐츠, 오디오북, 게임, 더빙, 마케팅 등 다양한 산업에 활용될 것으로 기대 받는다.

플레이HT(PlayHT)는 AI 기반 음성합성 플랫폼으로서 다양한 언어, 목소리, 억양을 지원함으로써 보다 사실적인 인간 음성을 낼 수 있고 미디어, 교육, 고객 서비스 등 다양한 산업에서 맞춤형 음성 지원과 다국어 지원 용도로도 사용될 것으로 예상된다.

진석용 LG경영연구원 연구위원

한경비즈니스

번호 제목 글쓴이 날짜
49472 ‘광주 공장 화재’ 금호타이어 대표 “사죄”···완전 가동에는 수개월 new 랭크뉴스 2025.05.18
49471 '많이 봐줬다'...트럼프, “애플, 인도 말고 미국에서 만들어라” 공개 압박 new 랭크뉴스 2025.05.18
49470 검찰, ‘김건희 다이아’ 건진법사 재소환…전달 여부 집중 추궁 new 랭크뉴스 2025.05.18
49469 광주 금호타이어 공장 화재 이틀째…진화율 80% new 랭크뉴스 2025.05.18
49468 김혜경 ‘경기도 법카 유용’ 대법원 간다…1·2심서 벌금 150만원 new 랭크뉴스 2025.05.18
49467 인명 4명 살린 구조견 ‘전진이’ 은퇴식…“행복한 견생 되길” new 랭크뉴스 2025.05.18
49466 이재명 “4년 연임제, 개헌 당시 대통령은 해당 안 돼” new 랭크뉴스 2025.05.18
49465 "아디다스가 아크로폴리스 짓밟았다"…그리스 난리 난 '모욕' 논란, 무슨 일? new 랭크뉴스 2025.05.18
49464 50년 지기 이낙연 떠난 이석현 “이재명 지지…새미래민주 탈당” new 랭크뉴스 2025.05.18
49463 부하 직원에게 “거지냐” 폭언하고 주먹질까지···법원 “면직 정당” new 랭크뉴스 2025.05.18
49462 NYT “머스크, SNS서 극우·음모론자들의 영향받는 듯” new 랭크뉴스 2025.05.18
49461 제2의 ‘검정고무신’ 비극 막는다···공정위, 저작권관련 불공정 약관 대거 시정 new 랭크뉴스 2025.05.18
49460 이재명 "커피 원가 120원, 판매 1만원"…카페 주인들 뒤집어졌다 new 랭크뉴스 2025.05.18
49459 이재명 ‘호텔·커피경제론’에… 윤희숙 “먹튀” 권성동 “황당한 발상” new 랭크뉴스 2025.05.18
49458 웃통 벗고 옹기 안으로 쑥…80만뷰 대박난 '옹기맨' 깜짝 정체 new 랭크뉴스 2025.05.18
49457 ‘계몽’ 김계리, 국힘 입당…“김문수 턱걸이 능력까지 알리겠다” new 랭크뉴스 2025.05.18
49456 트럼프 "19일 푸틴과 전화회담"‥종전 논의하나 new 랭크뉴스 2025.05.18
49455 트럼프의 19일 푸틴·젤렌스키 연쇄통화, 휴전 돌파구 만들까(종합) new 랭크뉴스 2025.05.18
49454 김혜경, '공직선거법 위반' 항소심 벌금 150만 원에 상고 new 랭크뉴스 2025.05.18
49453 김문수 “규제 개혁으로 경제 판갈이”…이준석, 5·18 기념식 참석 new 랭크뉴스 2025.05.18