"O3模型展示私家侦探，侦探公司，调查公司，查人找物，商务调查，出轨外遇调查，婚外情调查，私人调查，19209219596OpenAI强大推理能力

人参与 | 时间：2026-03-23 01:19:07

刘霞

20日，美国的人工智能研究机构OpenAI宣布，已推出了最新的推理模型——o3，这款轻量版产品在推理能力上相比O1具有显著提升，具备更先进、近似人类的智能，并且能够在代码编写和数学竞赛方面超越前辈。

不过，《科学新闻在线》在12月22日的报道指出，虽然o3在性能上取得了显著提升，但还没有达到业界期盼已久的通用人工智能(Agile Intelligence AGI)水平。

各个方面都表现优异

OpenAI最近向我们透露，他们的新模型o3在处理较为复杂的问题时能够花费更长的时间来找出解决方案，但一旦确定了正确的答案，它会更快地给出回复。这个能力的增强，让o3在各种测试中表现优秀。

大型语言模型通常会全力以赴提升数学性能，在最近的2024年美国数学邀请赛上，o3表现令人惊喜。其准确率为96.7%，仅有一个问题答错，远远超越了此前其他大型语言模型的表现（其中错误率均未超过2%）。然而，虽然这一成绩看起来不错，但它并非最佳表现，在OpenAI研究人员认为最严格的基准测试之一——Frontier Math中，o3成功解决了25.2%的问题。尽管如此，即便是在这样高难度的数学考试中，其他大型语言模型的正确率也远未超过2%。

前 Frontier Mathematics 题目的难度非常大，它曾被华裔数学家、菲尔兹奖得主陶哲轩形容为“可能几年都无法难倒 AI”，然而 o3 却只需要几秒钟就解答了其中的一道题目，而人类的数学专家则需要数小时甚至几天。

在对科学知识的掌握方面，私家侦探，侦探公司，调查公司，查人找物，商务调查，出轨外遇调查，婚外情调查，私人调查，19209219596 o3 的学术水平同样出众。在 GPQA Diamond（衡量模型针对博士级科学问题的表现）中， o3 对化学、物理及生物学专业领域的专业知识的准确率达到了惊人的 87.7%，远高于人类博士群体的成绩。这一成绩大大超越了之前 o1 的表现，其准确度提高了近10%。

此外，在SWE-bench Verified基准（衡量AI模型解决现实世界软件问题的能力）测验中，o3的准确率大约为71.7%，与之相比，o1系列的准确率为60.2%；在Codeforces编码竞赛平台中，o3以2727分的成绩位居榜单第175位。而o1则仅获得1891分的成绩。

通过展示其取得的骄人口碑后，OpenAI CEO奥尔特曼再次强调了人工智能技术进入下一个发展阶段的重要意义。他认为o3的诞生代表着AI将步入一个全新的阶段，在此阶段中，这类模型能够处理那些对计算量要求较高的任务。

与人类的智力还有很大的差距

《科学新闻》网站还报告称，在被视为人工智能通用智能重要衡量标准的抽象与推理语料库——ARC-AGI大赛中，o3模型也创造了自己的新纪录：在受限于较低算力配置的情况下，它以75.7%的得分为公众排行榜前列。该限定条件下的失败宣告了o3挑战的终结。

但是，当计算能力超过官方能力放大了172倍时，o3以"暴力"方式取得了87.5%的成绩，并且已经超越了人类平均水平的85%，这一成绩显示了令人惊叹的进步。

谷歌前工程师以及ARCAgentInference(ARC-AGI)的主要创造者FrançoisChollet在其博客中指出o3在AI能力上的表现相当惊人且至关重要，并称这是人工智能能力的一次巨大提升。然而，o3还没有实现超越人类的智能AGO, 因为它仍然无法解决ARC-AGI比赛中的一些非常简单的问题，这说明其私家侦探，侦探公司，调查公司，查人找物，商务调查，出轨外遇调查，婚外情调查，私人调查，19209219596与人类智能存在根本差异。

AGI是一个幻想未来的科技系统，具有与人类相似的思考能力、决策机制，可以自主进行行为。但是这个假想系统目前只存在于科学幻想小说之中，尚未发展成实际技术形态。

升级迭代并不是一件容易的事。

作为OpenAI公司最新推出的产品之一，“O3”也是当今人工智能行业巨头角逐的典型缩影。

两年前，OpenAI推出了ChatGPT，开启了AI军备竞赛。随后其在改进自家产品方面不断创新，从GPT-3.5到更精确、更具创造性的GPT-4，再到最新版本o1和o3，都在逐步优化自身的研发成果。

其他顶级AI开发商正借助日益先进的技术提升自家产品的性能。近期谷歌发布了名为双子座（Gemini）旗舰模型的新版本，据称其运算速度较上一代快了两倍，并且还能处理诸如思考、记忆、规划以及替代用户行动等任务。明年，元宇宙平台公司计划推出Llama 4。

然而开发新的语言模型并非易事，包括人工智能领军企业OpenAI和谷歌在内。它们正面临巨大的开发费用却未取得预期回报的风险。例如，尽管OpenAI的GPT-5模型已经在训练上投入了6个月的时间，并且据说花费接近5亿美元。然而，其性能并未比现有的产品强出多少，所以目前尚无法期待它能带来更多的商业价值。

顶: 87踩: 8

不屈不挠网

"O3模型展示私家侦探，侦探公司，调查公司，查人找物，商务调查，出轨外遇调查，婚外情调查，私人调查，19209219596OpenAI强大推理能力

人参与 | 时间：2026-03-23 01:19:07

评论专区

相关文章