AI 竞品情报

线上 · resumization.cn

时间线

按发生时间倒序排列，最新在前。共 15 条匹配。按重要性筛选用下方「影响」chip。

里程碑行业级事件（新模型家族 / 新平台范式 / 重大降价）重要核心能力增强 / 价格调整 / 重要合作常规小修小补 / 文档更新

Microsoft Azure AI Foundry重要能力增强changelog多模态低延迟Agent RuntimePlayground~2026-05-24

Realtime API preview support for WebRTC

Realtime API 支持 WebRTC，实现浏览器端实时音频流和低延迟语音交互。

要做：WebRTC 支持让语音 Agent 可直接在浏览器中运行，是开发者体验的关键一环，我们需要在 Playground 中提供类似能力。

Microsoft Azure AI Foundry重要新发布changelog多模态~2026-05-24

Sora video generation released (preview)

Sora 视频生成模型在 Azure 上预览发布，支持文本到视频生成。

暂不跟进：视频生成是创意工具场景，非 MaaS 平台核心能力方向。

Microsoft Azure AI Foundry常规能力增强changelog多模态~2026-05-24

GPT-image-1 update: input fidelity and partial image streaming

GPT-image-1 新增 input_fidelity 参数和部分图像流式输出，提升编辑控制和用户体验。

暂不跟进：图像生成非 MaaS 主线，流式渲染思路可参考但不紧急。

Microsoft Azure AI Foundry里程碑新发布changelog多模态低延迟Tool UseFunction Calling~2026-05-24

Realtime API audio models General Availability

GPT Realtime 和 Audio 模型 GA，新增图像输入、异步 Function Calling、对话模式等，语音 Agent 能力全面成熟。

要做：语音 Agent 核心能力 GA 是行业里程碑，异步 Function Calling + 对话模式直接定义语音 Agent 交互范式，我们必须对标。

Microsoft Azure AI Foundry常规能力增强changelog多模态~2026-05-24

Sora image-to-video support

Sora 支持图像到视频生成，可指定图像出现的帧位置。

暂不跟进：视频生成非 MaaS 平台核心能力，暂不跟进。

Microsoft Azure AI Foundry常规能力增强changelog多模态~2026-05-24

Sora video-to-video support

Sora 支持视频到视频生成，可输入短片生成长视频。

暂不跟进：视频生成不在 MaaS 主线范围内，为 B2C 创意场景。

Microsoft Azure AI Foundry常规新发布changelog多模态~2026-05-24

GPT-image-1-mini model available for global deployments

GPT-image-1-mini 全球可用，轻量版图像生成模型，不支持编辑和输入保真度。

暂不跟进：图像生成轻量模型发布，非 MaaS 主线，无对标需求。

Microsoft Azure AI Foundry重要新发布changelog多模态效果提升~2026-05-24

GPT-4o audio diarization model released

Azure 发布说话人分离 ASR 模型 gpt-4o-transcribe-diarize，支持 100+ 语言实时转写并标注说话人。

可借鉴：说话人分离是会议 Agent 场景的重要能力，但可通过集成实现，非平台核心差异化。

Microsoft Azure AI Foundry重要能力增强changelog多模态Agent Runtime集成~2026-05-24

Realtime API support for SIP

Realtime API 支持 SIP 协议，可直接接入电话网络，打通语音 Agent 到 PSTN 的最后一步。

要做：SIP 支持让语音 Agent 直接接入电话网，是 Agent 落地的关键基础设施，我们需要评估是否提供类似能力。

Microsoft Azure AI Foundry常规能力增强changelog多模态效果提升~2026-05-24

Text to speech model update: gpt-4o-mini-tts

TTS 模型升级，多语言合成更自然，改善说话人相似度和减少音频瑕疵。

可借鉴：TTS 能力提升改善语音 Agent 输出体验，但我们可通过集成方式获取，不需要自研。

Microsoft Azure AI Foundry重要能力增强changelog多模态低延迟Tool UseFunction Calling~2026-05-24

Realtime-mini speech-to-speech model update

Realtime-mini 模型在指令遵循和 Function Calling 上达到与完整版持平，语音 Agent 能力下沉到轻量模型。

要做：轻量级语音模型具备完整 Function Calling 能力将大幅降低语音 Agent 成本，直接影响我们 Agent 方案的竞争力。

Microsoft Azure AI Foundry重要能力增强changelog多模态低延迟效果提升~2026-05-24

Automatic speech recognition model update: gpt-4o-mini-transcribe

ASR 模型重大升级：WER 降低约 50%，静音幻觉减少 4 倍，多语言性能提升。

可借鉴：ASR 能力提升对语音 Agent 体验有间接影响，我们可通过集成方式受益，无需自研模型。

Microsoft Azure AI Foundry重要新发布changelog多模态效果提升~2026-05-24

GPT-image-1.5 model now available

Azure 上线 GPT-image-1.5，提升图像生成质量、编辑控制和面部保留能力，支持高输入保真度编辑。

可借鉴：图像生成非我们 MaaS 主线（聚焦 Agent/开发者体验），但多模态能力趋势值得关注，可作为参考。

Microsoft Azure AI Foundry重要新发布changelog多模态低延迟Tool UseFunction Calling~2026-05-24

GPT-Realtime-1.5 and GPT-Audio-1.5 models released

Azure 发布 GPT-Realtime-1.5 和 GPT-Audio-1.5，提升指令遵循、多语言支持和 Tool Calling 能力。

要做：实时语音+Tool Calling 是 Agent 的关键能力组合，竞争对手已在迭代，我们需评估自身语音 Agent 方案的差距。

Microsoft Azure AI Foundry常规其他changelog多模态文档~2026-05-24

GPT Realtime Translate and GPT Realtime Whisper concept articles

Azure 发布 Realtime Translate 和 Realtime Whisper 概念文档，覆盖实时翻译和低延迟流式转录场景。

可借鉴：实时翻译和流式转录是语音 AI 的重要应用场景，我们可参考其产品定位思路，但暂无对标压力。

第 1–15 条 / 共 15 条

每页10 20 50

← 上一页1 / 1下一页 →