GPT-5 家族四款模型发布:GPT-5(需注册)、GPT-5-mini、GPT-5-nano、GPT-5-chat,覆盖从旗舰到轻量的完整产品线。
GPT Realtime 和 Audio 模型 GA,新增图像输入、异步 Function Calling、对话模式等,语音 Agent 能力全面成熟。
微软Foundry在2026年4月发布了一系列新模型(如GPT-5.5、GPT-image-2等)以及新的开发工具和框架。
Realtime API 支持 WebRTC,实现浏览器端实时音频流和低延迟语音交互。
Sora 视频生成模型在 Azure 上预览发布,支持文本到视频生成。
codex-mini 和 o3-pro 两款新推理模型发布,丰富推理模型产品矩阵。
Provisioned spillover 正式 GA,预留实例超限流量自动溢出到标准部署,提升资源利用率。
GPT-5-codex 发布,专为 Codex CLI 和 VS Code 扩展设计,面向 Coding Agent 场景。
Azure 内置 PII 检测内容过滤器,可在 LLM 输出中识别并阻止敏感个人信息。
Azure 发布说话人分离 ASR 模型 gpt-4o-transcribe-diarize,支持 100+ 语言实时转写并标注说话人。
Realtime API 支持 SIP 协议,可直接接入电话网络,打通语音 Agent 到 PSTN 的最后一步。
Realtime-mini 模型在指令遵循和 Function Calling 上达到与完整版持平,语音 Agent 能力下沉到轻量模型。
ASR 模型重大升级:WER 降低约 50%,静音幻觉减少 4 倍,多语言性能提升。
Azure 上线 GPT-image-1.5,提升图像生成质量、编辑控制和面部保留能力,支持高输入保真度编辑。
Azure 发布 GPT-Realtime-1.5 和 GPT-Audio-1.5,提升指令遵循、多语言支持和 Tool Calling 能力。
微软Foundry本地版1.1增加了实时转录、嵌入、Responses API等功能。
微软Foundry推出Toolbox功能,简化了AI代理工具的配置和复用。
Model router 预览发布,自动为每个 prompt 选择最优模型,优化成本与效果平衡。
Prompt shields 新增 Spotlighting 功能,通过标记文档信任级别防御间接注入攻击。
GPT-image-1 新增 input_fidelity 参数和部分图像流式输出,提升编辑控制和用户体验。
Model router 新增 GPT-5 系列支持,自动路由选择最优模型。
Sora 支持图像到视频生成,可指定图像出现的帧位置。
Sora 支持视频到视频生成,可输入短片生成长视频。
GPT-image-1-mini 全球可用,轻量版图像生成模型,不支持编辑和输入保真度。
TTS 模型升级,多语言合成更自然,改善说话人相似度和减少音频瑕疵。
Azure 发布 Realtime Translate 和 Realtime Whisper 概念文档,覆盖实时翻译和低延迟流式转录场景。
Azure 发布 GPT Realtime 2.0 概念文档,涵盖推理支持、响应分阶段和更严格的指令遵循。