‘스피킹맥스’ 위버스브레인, 다국어 발화 특화 TTS 엔진 자체 개발

수정 2026-04-29 17:07
입력 2026-04-29 14:33
위버스브레인 로고


AI 교육 기업 위버스브레인(공동대표 조세원·이용국)이 자체 개발한 TTS(텍스트→음성 변환) 엔진을 ‘맥스AI’에 상용화했다고 29일 밝혔다.

이번에 개발된 TTS 엔진은 자사의 대화형 AI 튜터 서비스 ‘맥스AI’의 일부 기능에 우선 적용됐다. 위버스브레인은 앞서 내재화를 완료한 STT(음성→텍스트 변환) 엔진에 이어 TTS까지 개발하면서 대화형 AI의 음성 처리 전 구간 기술을 확보했다.


위버스브레인이 자체 TTS 엔진 개발에 나선 계기는 실제 서비스 운영 과정에서 발견한 글로벌 상용 엔진의 구조적 한계 때문이다. 주요 글로벌 TTS 엔진들은 영어권 단일 언어 중심으로 설계돼 비영어권 언어나 다국어가 혼합된 발화 환경에서 오류가 빈번하게 발생한다. 한국어 문장 속 외국어 단어를 어색하게 읽거나 언어 전환 지점에서 발화가 부자연스럽게 끊기는 문제가 대표적이다. 또한 한·중·일 등 한자 기반 언어에서 발생하는 발음과 억양 자체의 오류도 상당 수준으로 발견됐다.

위버스브레인은 음성 엔진을 적용·운영하는 과정에서 이러한 오류를 지속적으로 분석해왔다. 어학 서비스를 오랫동안 운영한 만큼 언어 전환과 혼합 발화가 빈번했기 때문이다. 회사 측은 이 과정에서 확보한 기술이 글로벌 시장에서도 드물게 특화된 영역이라고 설명했다.

자체 TTS 엔진의 핵심 차별점은 크게 세 가지로, ▲비영어권 언어 발화 품질 ▲혼합 이중 발화(코드 스위칭) 처리 ▲발화 지시 제어 기술이다.



비영어권 언어 발화 품질은 글로벌 상용 엔진이 상대적으로 취약한 영역으로, 한자 기반 언어에서 오는 발음과 억양 오류를 최소화했다. 다국어 교육 서비스를 운영하며 쌓은 언어별 음소 분석과 발음 이해도가 오류를 잡아내는 기반이 됐다.

이중 발화는 한 문장 안 서로 다른 언어가 섞인 환경에서 언어 전환을 끊김 없이 처리하는 기술이다. 영어권과 달리 아시아 언어권은 외국어가 일상 대화에 자연스럽게 혼합되는 경우가 많다. 예컨대 “데드라인은 8시까지예요”라는 문장에서 ‘데드’는 영어 발음(dɛd)으로, ‘라인’은 한국어로 분절해 어색하게 발음하거나 앞선 영어 단어의 영향으로 ‘8시’를 갑작스러운 영어 발음(여덥 쉬)으로 말해 어색하게 발화한다. 위버스브레인의 자체 엔진은 이러한 언어 전환 지점을 자연스럽게 처리하도록 설계됐다.

발화 지시 제어는 텍스트를 음성으로 바꾸는 수준을 넘어 억양·강세·속도·톤 등 발화의 세밀한 요소를 지시하는 기술이다. 핵심 문장에서 강세를 주거나 천천히 전달하는 등 목적에 맞는 발화 스타일을 설계할 수 있다. 이는 교육 현장뿐 아니라 전달력이 중요한 AI 상담, 영업 응대, 콘텐츠 내레이션 등 다양한 대화형 AI 서비스에서 활용도가 높다는 설명이다.

조세원 위버스브레인 대표는 “이번 TTS 내재화는 어학을 넘어 AI가 사람처럼 자연스럽게 말하는 환경을 만들기 위한 기반 작업”이라며 “앞으로도 대화형 AI의 핵심 기술을 고도화해 다양한 사업 분야로 확대할 것”이라고 밝혔다.

양승현 리포터
에디터 추천 인기 기사
많이 본 뉴스