AI 요약
구글은 25년 12월 10일 Gemini 2.5 Flash와 Gemini 2.5 Pro Text-to-Speech 프리뷰 모델에 대한 대규모 업그레이드를 발표했으며, 개발자들에게 AI 생성 오디오에 대한 더 큰 제어권을 제공하는 것을 목표로 향상된 표현력, 정밀한 페이싱, 그리고 개선된 다중 화자 기능을 도입했습니다.
5월에 출시된 버전을 대체하는 업데이트된 모델은 스타일 프롬프트에 대한 더욱 엄격한 준수와 함께 더 풍부한 톤 다양성을 특징으로 하며, 개발자들이 "밝고 낙관적인" 톤에서 "침울하고 진지한" 톤까지 다양한 톤을 지정할 수 있게 합니다. 구글에 따르면, 이 모델은 이제 역할극 게임 캐릭터부터 드라마틱한 내레이터에 이르기까지 다양한 애플리케이션을 위한 음성을 향상된 역할 준수로 생성할 수 있습니다.
개선 사항에는 정교해진 맥락 인식 속도 제어가 포함되어 있어, 모델이 콘텐츠에 따라 자연스럽게 속도를 조절할 수 있습니다. 강조를 위해 느리게 하거나 흥분감을 위해 빠르게 할 수 있습니다. Google은 미스터리 소설 예시를 통해 이 기능을 시연했으며, 모델이 단일 문단 내에서 긴장된 톤에서 흥분과 안도감으로 전환하는 방식을 보여주었습니다.
다중 화자 시나리오의 경우, 모델은 이제 24개 지원 언어에서 일관된 캐릭터 음성을 유지하면서 대화 교환 중 화자 전환을 더 자연스럽게 처리합니다. 다국어 개선 사항은 대화 전반에 걸쳐 각 캐릭터의 고유한 톤, 음높이 및 스타일을 유지합니다.
Gemini 2.5 Flash TTS는 낮은 지연 시간에 최적화되어 있으며, Gemini 2.5 Pro TTS는 오디오 품질을 우선시합니다. 가격은 Flash의 경우 백만 입력 토큰당 $0.50이고 Pro의 경우 $1.00로 책정되었습니다.
새로 올라온 콘텐츠
전체보기








