복사

구글, Gemini 2.5 텍스트 음성 변환 모델 업그레이드

2025. 12. 12.

AI 요약

구글이 제미나이 2.5 Flash와 Pro TTS 모델을 업그레이드해 표현력 강화, 정밀 페이싱, 다중 화자 대화 기능을 대폭 개선했습니다. 맥락에 맞는 속도 조절과 24개 언어 지원으로 캐릭터 음성 일관성을 유지하며 롤플레잉부터 드라마틱 내레이션까지 활용 가능합니다. Wondercraft, Toonsutra 등 업계 채택이 가속화되며 TTS 시장이 2025년 48억 달러에서 2032년 97억 달러로 성장할 전망입니다.

구글은 25년 12월 10일 Gemini 2.5 Flash와 Gemini 2.5 Pro Text-to-Speech 프리뷰 모델에 대한 대규모 업그레이드를 발표했으며, 개발자들에게 AI 생성 오디오에 대한 더 큰 제어권을 제공하는 것을 목표로 향상된 표현력, 정밀한 페이싱, 그리고 개선된 다중 화자 기능을 도입했습니다.

5월에 출시된 버전을 대체하는 업데이트된 모델은 스타일 프롬프트에 대한 더욱 엄격한 준수와 함께 더 풍부한 톤 다양성을 특징으로 하며, 개발자들이 "밝고 낙관적인" 톤에서 "침울하고 진지한" 톤까지 다양한 톤을 지정할 수 있게 합니다. 구글에 따르면, 이 모델은 이제 역할극 게임 캐릭터부터 드라마틱한 내레이터에 이르기까지 다양한 애플리케이션을 위한 음성을 향상된 역할 준수로 생성할 수 있습니다.

개선 사항에는 정교해진 맥락 인식 속도 제어가 포함되어 있어, 모델이 콘텐츠에 따라 자연스럽게 속도를 조절할 수 있습니다. 강조를 위해 느리게 하거나 흥분감을 위해 빠르게 할 수 있습니다. Google은 미스터리 소설 예시를 통해 이 기능을 시연했으며, 모델이 단일 문단 내에서 긴장된 톤에서 흥분과 안도감으로 전환하는 방식을 보여주었습니다.

다중 화자 시나리오의 경우, 모델은 이제 24개 지원 언어에서 일관된 캐릭터 음성을 유지하면서 대화 교환 중 화자 전환을 더 자연스럽게 처리합니다. 다국어 개선 사항은 대화 전반에 걸쳐 각 캐릭터의 고유한 톤, 음높이 및 스타일을 유지합니다.

Gemini 2.5 Flash TTS는 낮은 지연 시간에 최적화되어 있으며, Gemini 2.5 Pro TTS는 오디오 품질을 우선시합니다. 가격은 Flash의 경우 백만 입력 토큰당 $0.50이고 Pro의 경우 $1.00로 책정되었습니다.