OpenAI 正式推出全新一代基础模型 GPT-5.4 系列,该模型定位于当前功能最强、效率最高的专业工作前沿大模型,通过差异化的产品布局与跨越式的技术升级,全面重构专业场景下的 AI 应用能力。据 AIbase 报道,此次 GPT-5.4 系列采用多版本并行的发布策略,在标准版之外,同步上线两大垂直优化版本 —— 专注复杂逻辑处理的 GPT-5.4Thinking 推理模型,以及面向极致高性能需求深度优化的 GPT-5.4Pro,实现对不同专业场景的精准覆盖。
技术层面,GPT-5.4 实现了 OpenAI 模型史上的标志性突破。其 API 版本支持最高 100 万个标记(Tokens)的上下文窗口,创下 OpenAI 旗下模型上下文容量的最高纪录,可支撑超长文本、全流程复杂任务的端到端处理。与此同时,该模型完成了令牌效率的显著优化,能够以更低的算力与资源消耗,完成同等复杂度的任务,大幅降低大规模商用的落地成本。
在行业普遍关注的安全性与输出准确性上,GPT-5.4 系列同样实现了量级提升。数据显示,相较前代 GPT-5.2 模型,新模型的单个陈述错误率降低 33%,整体回复错误率下降 18%,显著减少了专业场景下的事实性偏差风险。针对推理模型长期存在的 “思维链欺骗” 隐患,OpenAI 为其搭载了全新的安全评估系统,实测结果表明,GPT-5.4Thinking 的推理过程具备更高的透明度,可有效杜绝推理环节的隐藏与伪造行为。
基准测试结果印证了该系列模型的行业领先地位。在实测中,GPT-5.4 不仅在 OSWorld-Verified、WebArena Verified 等计算机操作能力标准化测试中刷新全球纪录,更在面向知识工作核心能力的 GDPval 测试中,取得 83% 的创纪录高分,展现了极强的通用专业工作处理能力。
专业领域的表现同样亮眼。Mercor 首席执行官 Brendan Foody 指出,GPT-5.4 系列在金融、法律等高门槛专业领域的 APEX-Agents 基准测试中稳居行业头部,尤其擅长财务模型搭建、法律合规分析等长周期、高复杂度的专业成果交付。配合此次新增的 “工具搜索” 系统,模型的外部工具调用效率实现质的提升,大幅降低了大规模工具集成场景下的令牌损耗,为企业级复杂工作流的 AI 化落地提供了更高效的解决方案。
