AI 竞品情报
线上 · resumization.cn
← 时间线|Microsoft Azure AI Foundry 全部动态 →
Microsoft Azure AI Foundry里程碑新发布changelog~抓取于 2026-05-24

Realtime API audio models General Availability

https://learn.microsoft.com/en-us/azure/ai-services/openai/whats-new

对我们的启示

💡
要做语音 Agent 核心能力 GA 是行业里程碑,异步 Function Calling + 对话模式直接定义语音 Agent 交互范式,我们必须对标。

战略视角

Realtime API GA 标志着语音 Agent 从预览技术进入生产就绪阶段。关键升级:1)异步 Function Calling 让 Agent 在等待函数执行时不中断对话;2)Conversation Mode + VAD 实现了真人般的轮流说话体验;3)Image Input 支持通过语音讨论图像。这三项升级共同定义了语音 Agent 的交互标准。影响的核心客群是构建语音 Agent 的开发者(客服、陪伴、教育等场景)。在 Agent Runtime 赛道,如果不能提供同等水平的语音交互能力(特别是异步 Function Calling),我们的 Agent 方案将在语音场景中显著落后。建议立即开展语音 Agent 能力对标和路线规划,关注异步 Function Calling 的技术实现方案。

一句话摘要

GPT Realtime 和 Audio 模型 GA,新增图像输入、异步 Function Calling、对话模式等,语音 Agent 能力全面成熟。

详细描述

OpenAI's GPT RealTime and Audio models are now generally available in Microsoft Foundry. Improvements include enhanced instruction following, new standard voices (Marin, Cedar), improved audio quality, image input support, improved async function calling, and Conversation Mode with VAD.

原文摘录

OpenAI's GPT RealTime and Audio models are now generally available in Microsoft Foundry Models. Improvements: Enhanced instruction following, new standard voices Marin and Cedar, improved audio quality, Image Input support, improved function calling with async support, Conversation Mode with VAD.