OpenAI最强推理模型o4-mini来了 这次什么新功能? - 新闻详情

OpenAI最强推理模型o4-mini来了 这次什么新功能?

来源:腾讯科技

分类: 💻 科教

发布时间:2025-04-16 21:31:51

北京时间4月17日凌晨,OpenAI发布了两款突破性AI模型——o3和o4-mini,它们能通过图像进行推理,并可自主调用多种工具,被专家称为人工智能能力的一次飞跃式提升。



这两款模型都是OpenAI “o 系列”推理模型的最新成员,经过训练后,它们可在响应前进行更长时间的思考。同时,它们也是OpenAI迄今发布的最智能、最强大的模型。

这些推理模型可以自主组合并使用ChatGPT内的所有工具——包括网页搜索、利用Python分析上传的文件和数据、对视觉输入进行深入推理,甚至还能生成图像。

最重要的是,这些模型不仅能判断何时使用工具,还能决定如何使用工具,从而以正确的输出格式,在一分钟内给出经过深思熟虑的详细回答,帮助解决更复杂的问题。

这意味着它们能更高效地应对多层次、多步骤的问题,让ChatGPT具备“自主执行任务”的能力。将顶级推理能力与完整工具访问权限结合在一起,让这些新模型在学术评测和实际任务中的表现都有了显著提升。

性能提升

OpenAI声称,o3是其迄今推出的最强大推理模型,在编程、数学、科学、视觉理解等多个领域均取得了突破性进展。它在多项基准测试中都创下新纪录,包括Codeforces、SWE-bench和MMMU。



OpenAI新模型o3和o4-mini等在数学竞赛、编程、指令遵循和工具调用方面的表现

这款模型非常适合需要多维度分析、答案并不直观的复杂查询,在视觉任务(如图像、图表和图形分析)中表现尤为突出。

根据外部专家的评估,在现实世界的高难度任务中,o3的重大错误率比OpenAIo1降低了20%,在编程、商业/咨询和创意构思等领域表现也很出色。早期测试者称其为具有极高分析能力的“思考伙伴”,尤其擅长在生物学、数学和工程领域提出并评估全新的假设。

与o3相比,OpenAIo4-mini是一款更小巧、但高效能的推理模型,专为快速、成本友好的应用场景而优化。在数学、编程和视觉任务上,它展现出了惊人的性价比。o4-mini是AIME2024和AIME2025基准测试中表现最好的模型之一。

在专家评估中,o4-mini在非STEM任务(科学、技术、工程、数学)上的表现超越了o3-mini。凭借出色的计算效率,o4-mini支持比o3更高的使用频率,使其成为需要推理能力的高频、高吞吐量场景的理想选择。

外部专家评估认为,得益于智能水平的提升和网络信息的引入,这两款模型在遵循指令和提供更有用、可验证的回答方面均优于前代模型。与此前的推理模型相比,它们的对话体验也更加自然,尤其是在引用记忆和过往对话时,能够提供更个性化、更相关的回答。

持续扩展强化学习能力

在OpenAI o3的开发过程中,OpenAI发现大规模强化学习(RL)呈现出与GPT系列预训练相同的规律——“计算量越大,性能越强”。

同时,模型在被允许“思考”得越久,表现就越好。

在相同延迟和成本条件下,o3在ChatGPT中的表现优于o1。同时,如果允许模型进行更长时间的思考,它的表现还会进一步提升。

OpenAI通过强化学习训练这两款模型如何使用工具,还让它们学会判断何时使用工具,从而在开放式任务中表现更出色,尤其是在视觉推理和多步骤工作流程任务中。

首次实现图像思维链整合



在上述示例中,OpenAI首次展示了其模型如何将图像直接整合进推理思维链中。模型不仅能“看到”图像,更能“用图像进行思考”。这一突破实现了视觉与文本推理的深度融合,使其在多模态基准测试中达到最先进水平。

用户可以上传照片,比如:白板内容、教科书里的图示,甚至是手绘草图,模型都能理解它们。即使图像存在模糊、倒置或低质量的情况,模型仍能准确解析。

结合工具调用能力,模型还能在推理过程中即时操控图像,比如旋转、缩放、格式转换等,让图像处理成为其思考的一部分。

这些模型在视觉感知任务中表现出业界领先的准确率,能解决过去难以应对的问题。

自主完成工具调用

OpenAI的o3和o4-mini模型在ChatGPT中拥有对所有工具的完整访问权限,开发者还可以通过API中的函数调用功能接入自定义工具。

例如,当用户提出“与去年相比,加州今年夏天的能源使用情况有何变化?”这个问题时,模型可以执行一连串工具调用:搜索公共能源数据、编写Python代码进行预测、生成图表或图像,并解释预测背后的关键因素。

通过推理,它可以根据新获取的信息灵活应变,例如多次搜索不同关键词、分析结果、再尝试新的搜索策略。

这种灵活、策略性较强的方式,使模型能够完成那些超出其内部知识、需要实时信息、跨模态推理与综合输出的复杂任务。

性价比

OpenAI称o3和o4-mini在很多情况下,它们都比各自的前代o1与o3-mini更高效,也更节省成本。在AME2025基准测试中,性价比都远远超过前代模型。



价格方面,OpenAIo3的输入为每100万个tokens收费10美元,缓存输入为每100万个tokens收费2.5美元,输出为每100万个tokens收费40美元。



OpenAIo4-mini的输入为每100万个tokens收费1.1美元,缓存输入为每100万个tokens收费0.275美元,输出为每100万个tokens收费4.4美元。

安全性

对于o3和o4-mini,OpenAI全面重构了安全训练数据集,新增了针对生物威胁(生物风险)、恶意软件生成、越狱提示等领域的拒绝示例,让两个模型在其内部安全拒绝基准测试中表现优异,例如在指令层级理解和越狱防护上都展现出强大的防护能力。

除了模型自身的表现外,OpenAI还开发了系统层面的风险缓解机制,用于识别和标记涉及前沿风险领域的危险提示。

例如,该公司训练了一个基于推理的语言模型监控器,能够依据人类编写的可解释安全规范进行判断。在生物风险的红队测试中,该监控器成功识别并标记了约99%的高风险对话。

OpenAI对这两个模型进行了迄今为止最严格的安全测试,按照最新的 《准备度框架》(PreparednessFramework)标准,对其在以下三个能力领域进行了评估:

——生物与化学风险

——网络安全

——AI 自我改进能力

根据评估结果,o3与o4-mini在上述所有领域均处于“低风险”级别(低于框架中设定的“高”风险阈值)。

全新实验项目Codex CLI

OpenAI还发布了一个全新的实验项目:Codex CLI ——一款轻量级的编程智能体,专为最大化o3和o4-mini等模型的推理能力而设计,并即将支持GPT-4.1等更多API模型。

用户可以直接从命令行体验多模态推理,比如向模型传递截图或低保真草图,结合本地代码环境,让模型参与解决实际编程任务。

OpenAI将Codex CLI视为一种最简约的界面,用于将强大的AI模型与用户的计算机无缝连接。

OpenAI首席执行官山姆·奥特曼发帖称:“o3和o4-mini非常擅长编码,所以我们发布了一个新产品CodexCLI,让它们更容易使用。这是一个在用户计算机上运行的编程智能体。它是完全开源的,现在就可以使用;我们希望它能迅速改进。”



同时,OpenAI也启动了一个总额100万美元的资助计划,专门支持使用CodexCLI和OpenAI模型的项目。每个项目将以2.5万美元等值的API使用额度发放。

如何使用o3与o4-mini

从4月17日开始,ChatGPTPlus、Pro和Team用户将在模型选择器中看到o3、o4-mini和o4-mini-high,它们将取代之前的o1、o3-mini和o3-mini-high。ChatGPTEnterprise和Edu用户将在一周后获得访问权限。

免费用户可以在撰写查询前点击 “Think” 按钮,尝试 o4-mini的推理能力。

此外,OpenAI计划在未来几周推出支持全部工具功能的OpenAI o3-pro。

与此同时,o3和o4-mini也将通过Chat Completions API和ResponsesAPI向开发者开放,部分开发者可能需验证组织身份。

ResponsesAPI提供支持推理摘要、保留函数调用上下文以提升性能的能力,未来还将支持内置工具(如网页搜索、文件检索和代码解释器)。

评论 (0)