Gemini 3.1 Flash TTS：新一代富有表现力的 AI 语音

Gemini 3.1 Flash TTS: the next generation of expressive AI speech

对我们的启示

💡

可借鉴：TTS 语音合成能力属于多模态范畴，但非我们当前 Agent/MCP/开发者体验主线，可作为多模态能力储备参考。

战略视角

Gemini 3.1 Flash TTS 代表了 AI 语音合成向「可控性」演进的方向——通过 granular audio tags 实现精细表达控制。对我们的影响主要在：1）多模态 Agent 场景中，语音交互是重要输入输出通道，高质量 TTS 能提升 Agent 用户体验；2）如果 Google 将此能力通过 API 开放，开发者会在选择平台时考虑语音能力。目前我们百炼的 TTS 能力需要评估与此的差距。建议作为多模态能力路标的参考项，短期不紧急但中期需关注。

一句话摘要

Google 发布 Gemini 3.1 Flash TTS，通过精细音频标签实现可控的 AI 语音生成，增强了多模态音频能力。

详细描述

Google DeepMind released Gemini 3.1 Flash TTS, a new audio model introducing granular audio tags for precise control over expressive AI speech generation.

Google DeepMind 发布 Gemini 3.1 Flash TTS 音频模型，引入精细音频标签以实现对 AI 语音表达的精确控制。

原文摘录

Our newest audio model introduces granular audio tags that give you precise control to direct AI speech for expressive audio generation.