메뉴 건너뛰기



한때 음성합성 기술은 개발하기 쉬워서 이미 범용화된 기술이란 평을 듣기도 했다. 그러나 딥러닝, LLM 등 우수한 AI 모델에 힘입어 합성된 음성의 품질은 더 이상 과거의 기계적인 음성이 아니라 사람이 자연스럽게 말하는 수준으로 향상되었고 이제는 감정을 싣는 등 보다 풍부한 표현력까지 갖추기 시작하고 있다. 사람 간 소통의 핵심 인터페이스는 음성현재 대부분의 AI 서비스는 글을 써서 명령하고, 글로 답을 받는 문자 기반의 소통 방식을 주로 채택하고 있다. 이런 단일한 방식의 소통은 사람들에게 다소 불편하거나 비효율적일 수도 있다. 사람들 간의 의사소통은 주로 글(문자), 말(음성), 표정(시각 데이터, 이미지), 동작(시각 데이터, 행동) 중 둘 이상을 동시에 사용해서 정보를 주고받음으로써 이루어지기 때문이다. 이런 점을 감안하면 일반적인 사용자들은 자신의 비서 역할을 수행하는 AI 서비스를 이용할 때 사람을 상대하듯 말도 함께 사용할 수 있는 방식을 훨씬 편리하게 여길 것이라 짐작할 수 있다. 향후 사람처럼 음성, 문자, 이미지를 동시에 활용할 수 있는 멀티모달 인터페이스가 적용된다면 사용 편의성이 획기적으로 높아져 AI 서비스의 활용도가 훨씬 확장될 수 있을 것이다.

널리 알려진 AI 모델인 챗GPT에 사람의 비서 역할을 맡은 AI 에이전트에 필요한 인터페이스가 무엇인지 질문해 보면 아주 흥미로운 대답을 한다. AI 에이전트에 필요한 인터페이스는 단순히 문자를 주고받는 채팅창을 넘어선 멀티모달 인터페이스라고 답한다. 챗GPT 등 각종 AI 서비스를 활용해 도출한 AI 비서의 인터페이스로는 문서 기반, 맥락 기반, 문자 기반, 타임라인 기반, 행동 유도 기반 및 멀티모달의 총 5가지 인터페이스를 들 수 있다. 이 중에서 사람에게 가장 친근한 소통 기능을 제공하는 것은 멀티모달 인터페이스이다. 그리고 멀티모달 인터페이스의 중추는 대화형 인터페이스이고, 그 이면에는 문자를 음성으로 바꾸는 음성합성 기술이 자리 잡고 있다.
멀티모달 소통의 기반은 음성합성음성합성(Text to Speech) 기술은 오래된 기술이다. 초보적인 전기적 음성합성 기술은 근 100년 전인 1930년대에 개발되었고, 컴퓨터 기반의 음성합성 기술도 1950년대에 이미 등장했다. 1970년대부터는 주파수 변조를 통한 인공적인 음성합성 기술과 사람 음성을 녹음한 데이터를 재조합한 음성합성 기술이 등장해 시각장애인, 난독증 등 학습 장애가 있는 사람들을 위한 안내 음성 등 제한적인 영역에서의 상용화가 이루어졌다. 그렇지만 당시의 합성된 음성 품질은 단순히 문자를 기계적으로 읽는 수준에 그쳤다.

각 개인별 음성이 지닌 고유의 음조, 억양 등 특성을 반영한 음성 합성이나 문자를 즉각 음성으로 변환하는 기술, 감정을 조절해 실제 사람처럼 자연스럽게 발성하는 기술들은 딥러닝 기반 신경망(Neural Network) 기술, 특히 트랜스포머(transformer), seq2seq, attention 메커니즘 등이 도입되면서 획기적으로 개선되었다. 구글의 Tacotron, 딥마인드의 WaveNet 등 대표적인 딥러닝 기반 모델이 등장한 이후에는 운율 표현이나 더 자연스러워진 감정 표현 등이 가능해졌다. 음성합성 기술에 LLM이 본격적으로 활용되면 훨씬 풍부한 억양, 발음이 반영된 보다 자연스러운 음성합성이 가능해질 것으로 기대 받고 있다.
신속 정확하고 풍부한 표현력을 갖춘 자연스러운 대화로 발전현재 개발되고 있는 음성합성 기술들은 딥러닝, LLM 등 향상된 AI 모델과 풍부해진 데이터를 바탕으로 특정 인물의 음색과 억양, 맥락에 맞는 감정을 가미해 풍부한 표현이 가능한 음성을 다국어로 보다 빠르고 정확하게 만들어내도록 개발되고 있다.

▲ End-to-End 음성합성: 문자의 전처리, 발음 변환, 운율 예측 등 여러 단계를 하나의 딥러닝 네트워크로 통합해 자연스러운 음성을 생성하는 기술로서 Tacotron, Deep Voice 등이 해당된다.

▲ 신경망 기반 보코더(Neural Vocoder): 실제 소리를 만들어내는 단계에서 고품질 음성 파형을 생성하는 기술로서 WaveNet 등이 해당된다.

▲ 맞춤화, 개인화 음성: 소량의 음성 데이터만으로 특정인의 목소리를 학습해 맞춤형 음성을 합성할 수 있고 전이학습(transfer learning) 기술이 맞춤화 속도를 가속화하고 있다.

▲ 다국어 확장: 다양한 언어와 억양을 지원하는 다국어 시스템이 개발되고 있고 글로벌 서비스 확장에 초점을 두고 추진되고 있다.

▲ 감정 및 스타일 표현: 단순한 발성을 넘어서 감정, 스타일, 상황에 맞는 음조를 낼 수 있는 음성합성 기술이 등장한 결과 엔터테인먼트, 게임, 오디오북 등 다양한 분야로 음성합성 기술의 적용 범위가 한층 넓어지고 있다.

공통적인 기술적 특성에 더해 기업들이 자연스러움, 사용자 제어, 접근성, 개발자 지원 등에서 차별화된 강점을 가진 음성합성 기술들을 개발하고 있다.

신생 스타트업 나리랩스(Nari Labs)는 올해 4월 오픈소스 모델 다이아(Dia)를 공개했다. 다이아는 1.6억 개의 파라미터를 가진 대형 AI 모델로 자연스러운 대화체 음성 합성에 특화되어 있다. 감정 표현과 웃음, 기침 등 비언어적 소리의 삽입이 가능해 실제 사람 간의 대화와 유사한 음성을 생성할 수 있다. 나리랩스는 오픈AI의 GPT-4o 등 기존 음성합성 모델들보다 더 자연스럽고 대화하기에 적합한 음성 품질을 지향한다. 짧은 오디오 샘플을 입력해 음색, 감정, 전달 스타일을 지정할 수 있고 스크립트상의 명령어로 비언어적 소리를 제어할 수 있다. 오픈소스 모델이므로 가중치와 코드 수정을 통해 누구든 맞춤화하기에 용이하다. 업계에서는 팟캐스트, 오디오북, 게임 캐릭터 등에 적용될 것으로 전망한다.

AI 분야의 선두 기업인 오픈AI는 올해 3월 차세대 TTS 모델 ‘gpt-4o-mini-tts’를 출시했다. 음성합성의 ‘조정 가능성(steerability)’: 단순히 무엇을 말할지만 결정하는 것을 넘어 어떻게 말할지까지 개발자가 지시할 수 있다. 고객 서비스, 창작 스토리텔링 등 다양한 분야에 적합한 맞춤형 음성 경험을 제공할 것으로 평가받는다.

로보AI는 AI 음성 합성 분야에서 돋보이는 스타트업이다. 로보AI의 음성합성 기술은 500개 이상의 AI 음성과 100개 이상의 언어 및 억양을 지원하고 특정 인물의 목소리를 정밀하게 복제하는 음성 클로닝 기능도 갖추고 있다. 사용자 친화적 인터페이스를 갖추고 있어 자연스러운 음성을 생성하고 속도·강조·일시정지 등의 세밀한 조정도 활용할 수 있어 영상 콘텐츠, 오디오북, 게임, 더빙, 마케팅 등 다양한 산업에 활용될 것으로 기대 받는다.

플레이HT(PlayHT)는 AI 기반 음성합성 플랫폼으로서 다양한 언어, 목소리, 억양을 지원함으로써 보다 사실적인 인간 음성을 낼 수 있고 미디어, 교육, 고객 서비스 등 다양한 산업에서 맞춤형 음성 지원과 다국어 지원 용도로도 사용될 것으로 예상된다.

진석용 LG경영연구원 연구위원

한경비즈니스

번호 제목 글쓴이 날짜
49452 연립·다세대 재건축 활성화할까···서울시, 3년간 용적률 300% 완화 new 랭크뉴스 2025.05.18
49451 "목이 90도로 확 꺾였다"…종일 스마트폰만 보던 20대 日 남성 엑스레이 '깜짝' new 랭크뉴스 2025.05.18
49450 오늘 첫 TV토론‥후보 4인 '경제분야' 격돌 new 랭크뉴스 2025.05.18
49449 "세상에서 가장 잔인한 병"…20대 여성 생명 앗아간 '희귀 치매' 뭐길래? new 랭크뉴스 2025.05.18
49448 이경실 “89평 자택 경매 취소…투자 꼬였으나 해결돼" new 랭크뉴스 2025.05.18
49447 나경원 "국민과 당원이 빅텐트…이제 선거 판갈이 시작해야" new 랭크뉴스 2025.05.18
49446 5·18 기념식 묵념 때 ‘늙은 군인을 위한 노래’를 사용했다고? new 랭크뉴스 2025.05.18
49445 광주 하늘 15km 시커멓다…"화재 연기기둥 사흘은 더 갈듯" new 랭크뉴스 2025.05.18
49444 제조업 취업자 비중 역대 최저…신규채용도 사라져 new 랭크뉴스 2025.05.18
49443 이재명, 선대위에 홍준표 세우려 했다…거침없는 '보수 돌진' [대선 비하인드] new 랭크뉴스 2025.05.18
49442 소방 당국 "금호타이어 광주공장 오전 중 90% 이상 진화 목표" new 랭크뉴스 2025.05.18
49441 김문수 "규제혁신처 신설, 주52시간 규제 깰 것" 경제공약 발표 new 랭크뉴스 2025.05.18
49440 이재명, ‘대통령 4년 연임제’ 개헌…“책임 강화, 권한 분산” new 랭크뉴스 2025.05.18
49439 "무능해질 때까지 승진? 두고 못 봐" 팀장 줄이는 빅테크의 속사정 [정혜진의 라스트컴퍼니] new 랭크뉴스 2025.05.18
49438 [김문수 포스터 몰아보기] 29년 전 ‘노동 투사’, 2010년 ‘보수 전사’ new 랭크뉴스 2025.05.18
49437 한동훈, 20일부터 ‘김문수 지원 유세’… 부산·대구 등 ‘영남권 벨트’ 공략 new 랭크뉴스 2025.05.18
49436 이재명 "대통령 4년 연임제 하자, 개헌 당시 대통령엔 미적용" new 랭크뉴스 2025.05.18
49435 이재명 "재임 대통령엔 연임제 적용 안 돼…임기단축 신중해야" new 랭크뉴스 2025.05.18
49434 해킹 사고 한 달 SKT, ‘고객신뢰 위원회’ 출범···내일부턴 도서·벽지 직접 간다 new 랭크뉴스 2025.05.18
49433 안창호 인권위원장, 광주시민 항의에 5·18기념식장서 쫓겨나 new 랭크뉴스 2025.05.18