外来客网 - 首页

北京时间4月17日凌晨，OpenAI发布了两款突破性AI模型——o3和o4-mini，它们能通过图像进行推理，并可自主调用多种工具，被专家称为人工智能能力的一次飞跃式提升。

这两款模型都是OpenAI “o 系列”推理模型的最新成员，经过训练后，它们可在响应前进行更长时间的思考。同时，它们也是OpenAI迄今发布的最智能、最强大的模型。

这些推理模型可以自主组合并使用ChatGPT内的所有工具——包括网页搜索、利用Python分析上传的文件和数据、对视觉输入进行深入推理，甚至还能生成图像。

最重要的是，这些模型不仅能判断何时使用工具，还能决定如何使用工具，从而以正确的输出格式，在一分钟内给出经过深思熟虑的详细回答，帮助解决更复杂的问题。

这意味着它们能更高效地应对多层次、多步骤的问题，让ChatGPT具备“自主执行任务”的能力。将顶级推理能力与完整工具访问权限结合在一起，让这些新模型在学术评测和实际任务中的表现都有了显著提升。

性能提升

OpenAI声称，o3是其迄今推出的最强大推理模型，在编程、数学、科学、视觉理解等多个领域均取得了突破性进展。它在多项基准测试中都创下新纪录，包括Codeforces、SWE-bench和MMMU。

OpenAI新模型o3和o4-mini等在数学竞赛、编程、指令遵循和工具调用方面的表现

这款模型非常适合需要多维度分析、答案并不直观的复杂查询，在视觉任务（如图像、图表和图形分析）中表现尤为突出。

根据外部专家的评估，在现实世界的高难度任务中，o3的重大错误率比OpenAIo1降低了20%，在编程、商业/咨询和创意构思等领域表现也很出色。早期测试者称其为具有极高分析能力的“思考伙伴”，尤其擅长在生物学、数学和工程领域提出并评估全新的假设。

与o3相比，OpenAIo4-mini是一款更小巧、但高效能的推理模型，专为快速、成本友好的应用场景而优化。在数学、编程和视觉任务上，它展现出了惊人的性价比。o4-mini是AIME2024和AIME2025基准测试中表现最好的模型之一。

在专家评估中，o4-mini在非STEM任务（科学、技术、工程、数学）上的表现超越了o3-mini。凭借出色的计算效率，o4-mini支持比o3更高的使用频率，使其成为需要推理能力的高频、高吞吐量场景的理想选择。

外部专家评估认为，得益于智能水平的提升和网络信息的引入，这两款模型在遵循指令和提供更有用、可验证的回答方面均优于前代模型。与此前的推理模型相比，它们的对话体验也更加自然，尤其是在引用记忆和过往对话时，能够提供更个性化、更相关的回答。

持续扩展强化学习能力

在OpenAI o3的开发过程中，OpenAI发现大规模强化学习（RL）呈现出与GPT系列预训练相同的规律——“计算量越大，性能越强”。

同时，模型在被允许“思考”得越久，表现就越好。

在相同延迟和成本条件下，o3在ChatGPT中的表现优于o1。同时，如果允许模型进行更长时间的思考，它的表现还会进一步提升。

OpenAI通过强化学习训练这两款模型如何使用工具，还让它们学会判断何时使用工具，从而在开放式任务中表现更出色，尤其是在视觉推理和多步骤工作流程任务中。

首次实现图像思维链整合

在上述示例中，OpenAI首次展示了其模型如何将图像直接整合进推理思维链中。模型不仅能“看到”图像，更能“用图像进行思考”。这一突破实现了视觉与文本推理的深度融合，使其在多模态基准测试中达到最先进水平。

用户可以上传照片，比如：白板内容、教科书里的图示，甚至是手绘草图，模型都能理解它们。即使图像存在模糊、倒置或低质量的情况，模型仍能准确解析。

结合工具调用能力，模型还能在推理过程中即时操控图像，比如旋转、缩放、格式转换等，让图像处理成为其思考的一部分。

这些模型在视觉感知任务中表现出业界领先的准确率，能解决过去难以应对的问题。

自主完成工具调用

OpenAI的o3和o4-mini模型在ChatGPT中拥有对所有工具的完整访问权限，开发者还可以通过API中的函数调用功能接入自定义工具。

例如，当用户提出“与去年相比，加州今年夏天的能源使用情况有何变化？”这个问题时，模型可以执行一连串工具调用：搜索公共能源数据、编写Python代码进行预测、生成图表或图像，并解释预测背后的关键因素。

通过推理，它可以根据新获取的信息灵活应变，例如多次搜索不同关键词、分析结果、再尝试新的搜索策略。

这种灵活、策略性较强的方式，使模型能够完成那些超出其内部知识、需要实时信息、跨模态推理与综合输出的复杂任务。

性价比

OpenAI称o3和o4-mini在很多情况下，它们都比各自的前代o1与o3-mini更高效，也更节省成本。在AME2025基准测试中，性价比都远远超过前代模型。

价格方面，OpenAIo3的输入为每100万个tokens收费10美元，缓存输入为每100万个tokens收费2.5美元，输出为每100万个tokens收费40美元。

OpenAIo4-mini的输入为每100万个tokens收费1.1美元，缓存输入为每100万个tokens收费0.275美元，输出为每100万个tokens收费4.4美元。

安全性

对于o3和o4-mini，OpenAI全面重构了安全训练数据集，新增了针对生物威胁（生物风险）、恶意软件生成、越狱提示等领域的拒绝示例，让两个模型在其内部安全拒绝基准测试中表现优异，例如在指令层级理解和越狱防护上都展现出强大的防护能力。

除了模型自身的表现外，OpenAI还开发了系统层面的风险缓解机制，用于识别和标记涉及前沿风险领域的危险提示。

例如，该公司训练了一个基于推理的语言模型监控器，能够依据人类编写的可解释安全规范进行判断。在生物风险的红队测试中，该监控器成功识别并标记了约99%的高风险对话。

OpenAI对这两个模型进行了迄今为止最严格的安全测试，按照最新的《准备度框架》（PreparednessFramework）标准，对其在以下三个能力领域进行了评估：

——生物与化学风险

——网络安全

——AI 自我改进能力

根据评估结果，o3与o4-mini在上述所有领域均处于“低风险”级别（低于框架中设定的“高”风险阈值）。

全新实验项目Codex CLI

OpenAI还发布了一个全新的实验项目：Codex CLI ——一款轻量级的编程智能体，专为最大化o3和o4-mini等模型的推理能力而设计，并即将支持GPT-4.1等更多API模型。

用户可以直接从命令行体验多模态推理，比如向模型传递截图或低保真草图，结合本地代码环境，让模型参与解决实际编程任务。

OpenAI将Codex CLI视为一种最简约的界面，用于将强大的AI模型与用户的计算机无缝连接。

OpenAI首席执行官山姆·奥特曼发帖称：“o3和o4-mini非常擅长编码，所以我们发布了一个新产品CodexCLI，让它们更容易使用。这是一个在用户计算机上运行的编程智能体。它是完全开源的，现在就可以使用；我们希望它能迅速改进。”

同时，OpenAI也启动了一个总额100万美元的资助计划，专门支持使用CodexCLI和OpenAI模型的项目。每个项目将以2.5万美元等值的API使用额度发放。

如何使用o3与o4-mini

从4月17日开始，ChatGPTPlus、Pro和Team用户将在模型选择器中看到o3、o4-mini和o4-mini-high，它们将取代之前的o1、o3-mini和o3-mini-high。ChatGPTEnterprise和Edu用户将在一周后获得访问权限。

免费用户可以在撰写查询前点击 “Think” 按钮，尝试 o4-mini的推理能力。

此外，OpenAI计划在未来几周推出支持全部工具功能的OpenAI o3-pro。

与此同时，o3和o4-mini也将通过Chat Completions API和ResponsesAPI向开发者开放，部分开发者可能需验证组织身份。

ResponsesAPI提供支持推理摘要、保留函数调用上下文以提升性能的能力，未来还将支持内置工具（如网页搜索、文件检索和代码解释器）。

OpenAI最强推理模型o4-mini来了这次什么新功能?

评论 (0)

OpenAI最强推理模型o4-mini来了 这次什么新功能?

评论 (0)

OpenAI最强推理模型o4-mini来了这次什么新功能?