刘霞
20日,美国的人工智能研究机构OpenAI宣布,已推出了最新的推理模型——o3,这款轻量版产品在推理能力上相比O1具有显著提升,具备更先进、近似人类的智能,并且能够在代码编写和数学竞赛方面超越前辈。

不过,《科学新闻在线》在12月22日的报道指出,虽然o3在性能上取得了显著提升,但还没有达到业界期盼已久的通用人工智能(Agile Intelligence AGI)水平。
各个方面都表现优异
OpenAI最近向我们透露,他们的新模型o3在处理较为复杂的问题时能够花费更长的时间来找出解决方案,但一旦确定了正确的答案,它会更快地给出回复。这个能力的增强,让o3在各种测试中表现优秀。
大型语言模型通常会全力以赴提升数学性能,在最近的2024年美国数学邀请赛上,o3表现令人惊喜。其准确率为96.7%,仅有一个问题答错,远远超越了此前其他大型语言模型的表现(其中错误率均未超过2%)。然而,虽然这一成绩看起来不错,但它并非最佳表现,在OpenAI研究人员认为最严格的基准测试之一——Frontier Math中,o3成功解决了25.2%的问题。尽管如此,即便是在这样高难度的数学考试中,其他大型语言模型的正确率也远未超过2%。
前 Frontier Mathematics 题目的难度非常大,它曾被华裔数学家、菲尔兹奖得主陶哲轩形容为“可能几年都无法难倒 AI”,然而 o3 却只需要几秒钟就解答了其中的一道题目,而人类的数学专家则需要数小时甚至几天。
在对科学知识的掌握方面,私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596 o3 的学术水平同样出众。在 GPQA Diamond(衡量模型针对博士级科学问题的表现)中, o3 对化学、物理及生物学专业领域的专业知识的准确率达到了惊人的 87.7%,远高于人类博士群体的成绩。这一成绩大大超越了之前 o1 的表现,其准确度提高了近10%。
此外,在SWE-bench Verified基准(衡量AI模型解决现实世界软件问题的能力)测验中,o3的准确率大约为71.7%,与之相比,o1系列的准确率为60.2%;在Codeforces编码竞赛平台中,o3以2727分的成绩位居榜单第175位。而o1则仅获得1891分的成绩。
通过展示其取得的骄人口碑后,OpenAI CEO奥尔特曼再次强调了人工智能技术进入下一个发展阶段的重要意义。他认为o3的诞生代表着AI将步入一个全新的阶段,在此阶段中,这类模型能够处理那些对计算量要求较高的任务。
与人类的智力还有很大的差距
《科学新闻》网站还报告称,在被视为人工智能通用智能重要衡量标准的抽象与推理语料库——ARC-AGI大赛中,o3模型也创造了自己的新纪录:在受限于较低算力配置的情况下,它以75.7%的得分为公众排行榜前列。该限定条件下的失败宣告了o3挑战的终结。

但是,当计算能力超过官方能力放大了172倍时,o3以"暴力"方式取得了87.5%的成绩,并且已经超越了人类平均水平的85%,这一成绩显示了令人惊叹的进步。
谷歌前工程师以及ARCAgentInference(ARC-AGI)的主要创造者FrançoisChollet在其博客中指出o3在AI能力上的表现相当惊人且至关重要,并称这是人工智能能力的一次巨大提升。然而,o3还没有实现超越人类的智能AGO, 因为它仍然无法解决ARC-AGI比赛中的一些非常简单的问题,这说明其私家侦探,侦探公司,调查公司,查人找物,商务调查,出轨外遇调查,婚外情调查,私人调查,19209219596与人类智能存在根本差异。
AGI是一个幻想未来的科技系统,具有与人类相似的思考能力、决策机制,可以自主进行行为。但是这个假想系统目前只存在于科学幻想小说之中,尚未发展成实际技术形态。
升级迭代并不是一件容易的事。
作为OpenAI公司最新推出的产品之一,“O3”也是当今人工智能行业巨头角逐的典型缩影。
两年前,OpenAI推出了ChatGPT,开启了AI军备竞赛。随后其在改进自家产品方面不断创新,从GPT-3.5到更精确、更具创造性的GPT-4,再到最新版本o1和o3,都在逐步优化自身的研发成果。
其他顶级AI开发商正借助日益先进的技术提升自家产品的性能。近期谷歌发布了名为双子座(Gemini)旗舰模型的新版本,据称其运算速度较上一代快了两倍,并且还能处理诸如思考、记忆、规划以及替代用户行动等任务。明年,元宇宙平台公司计划推出Llama 4。
然而开发新的语言模型并非易事,包括人工智能领军企业OpenAI和谷歌在内。它们正面临巨大的开发费用却未取得预期回报的风险。例如,尽管OpenAI的GPT-5模型已经在训练上投入了6个月的时间,并且据说花费接近5亿美元。然而,其性能并未比现有的产品强出多少,所以目前尚无法期待它能带来更多的商业价值。
顶: 87踩: 8





评论专区