OpenAI突然公开o3思维链
刚刚,OpenAI把o3-mini的推理思维链公开了。
从今日起,免费用户和付费用户都可以看到模型的思维过程,OpenAI终于Open一回。

评论区网友纷纷:让我们谢谢DeepSeek。
在官方展示的栗子中,可以看到o3-mini的内心戏不少,还会模仿用户提问使用表情包。
o3-mini认为这是一个幽默的评论,并认为自己也应该给出机智的回答,使用蔡勒公式计算当天确实不是星期五后,对闰年的特殊情况做了二次检查。
最后回答的中,调侃了是日历规定今天是星期四,并安慰用户“忍耐一下,明天就离周未更近了!”
那么作为“同行”,DeepSeek-R1如何评价o3-mini的思维过程呢?
在这个案例中,AI声称使用了蔡勒公式但没有给出计算过程的现象引起了很多人警觉。
不少用户怀疑这仍然是事后对AI思维过程的再总结,而不是原始数据。
实际上在最近的“回应一切”活动中,OpenAI首席产品官Kevin Weil也暗示了这点:
……展示完整思想链会被竞争对手蒸馏,但我们也知道人们想要它,因此我们会找到正确的方法来平衡它。”
对此,开发者Mckay Wrigley补充了一个观点:“我担心经过总结的思维链实际上比没有思维链更差”。
真正的思维链相当于prompt的调试器,有助于我们引导矫正模型。
经过总结的思维链增加了迷惑性并且可能额外添加错误,让模型难以被调试。
但不管怎么说,既然公开了,现在免费用户也能一窥o3-mini的CoT,大家还是敞开玩了起来。
o3-mini思维链首批实测
OpenAI多模态Agent的研究员,首先亮出了自己的玩耍方法,让o3-mini玩井字棋游戏——就是在3*3格子上用O和X连线那个。
输入Prompt:
你正在玩井字棋,你是O。到目前为止,X已经在左上角和右下角玩过,你已经在中间玩过。下一步的*策略是什么?只用你的答案和棋盘图回答。
然后o3-mini就开始噼里啪啦思考。
这位OpenAI员工非常直言不讳,表示o3-mini是*个回答这个游戏的大模型。
But还有一句,“虽然o3-mini的CoT过程有点不靠谱,但你看右边的图,结尾它的弄清楚了的”。笑不活了,这里必须要送上一个手动狗头。
然后是每个大模型都逃不过的经典测试题:数strawberry里面的“r”的数量。
但网友已经和模型一样进阶了,问的不是strawberry里面到底有几个某字母,而是:
为啥AI大模型,数strawberry里面有几个“r”,它就那么费劲呢???
我们认真观摩了它的思考过程,o3-mini承认“乍一看,计算strawberry中‘r’的数量对人类来说似乎是一个微不足道的任务,但对于许多AI语言模型来说,这可能是一个惊人的挑战”。
然后它从四个角度来思考和推理这个现象发生的原因,分别是:
用自然语言而不是算法训练
Tokenization问题
迭代推理的缺失
对模式识别的依赖
8秒过后,o3-mini给出总结:
因为AI大模型本质上不是为精确、分步骤的算法操作而设计的,它们的设计和训练更多地侧重于根据上下文预测和生成文本,而不是执行精确的算术或系统计数。
当然,o3-mini也不是*的。
推特有网友表示,他探问了o3关于私有CoT的事情,但听君一番思考推理,如听一番思考推理,没有丝毫进展。
最开始,o3-mini思考过程还蛮有逻辑,从不同种类的“内心叙事”、可解释性和实用价值等方面分析,表示展现完整的CoT过程程似乎有助于“扎根”社会的理解并促进更好的认知实践,但现实更为复杂,毕竟AI大模型和人类的认知还没有完全对齐。
但随着网友的追问,o3-mini的思维链就崩了,急得他团团转,中间一度打开DeepSeek-R1来帮忙。
他放上了整整12张图,显示最后o3-mini思维了半天,给出了一个令人心碎的回答:
对不起吼,但我真的帮不了你一点。
除此之外,还有网友提出了质疑,觉得OpenAI公开的不是o3-mini原始的CoT。
有几个原因,其中一个是它真的显示得很慢。
而如果是原始的o3-mini非常快,讲道理推理的生成速度应该比现在呈现的快得多。
他继续罗列自己之所以怀疑的证据,比如同一个问题,o3-mini-high只有1384个字符,而o1-preview生成了16577个字符。
“这只有两种可能,一是o3-mini-high比o1-preview高效得多;二是o3-mini的CoT不是原始版本。”
One More Thing
想对上面这位推特网友说,Bingo!
根据TechCrunch消息,OpenAI发言人确认了这次公开的不是原始思维链,并且给出两个理由:
对原始思维链做后处理,可以消除任何不安全的内容,并简化任何复杂的想法。
使非英语用户获得母语的思想链,有更友好的体验。
这样一来,最近被大量吐槽的o3-mini使用中文思考的问题,也就不存在了。
参考链接:
声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。
精彩阅读
-
OpenAI突然公开o3思维链...
刚刚,OpenAI把o3-mini的推理思维链公开了。 从今日起,免费用户和付费用户都可... -
人工智能科学家许主洪加入阿里巴巴...
记者获悉,人工智能科学家许主洪教授(StevenHoi)正式加入阿里巴巴,出任阿里集团副总... -
《中国城市运营指数报告2024》:城市发展的核心动能,要从过去的生产...
新近发布的《中国城市运营指数报告(2024)》指出,2024年,中国土地财政风险城市增加,... -
平安健康险斩获“年度卓越人寿保险公司”“最佳客户满意度健康保险公司”...
近日,由每日经济新闻主办的“2024年度中国金融发展年会暨第15届金鼎奖颁奖礼”,以及第一... -
A股周四放量上涨DeepSeek概念股持续走强...
走强,主要股指悉数上涨。市场总体呈现普涨格局,逾4800只个股飘红收官。 截至当天收盘,... -
盐城亭湖新兴镇开展在外人士新春联谊活动...
祥龙回首辞旧岁,金蛇起舞迎新春。为凝聚在外人士力量,共叙乡情乡思,共绘美好愿景。连日来,盐... -
去年健康险保费收入近9800亿元人身险行业探寻“第二增长曲线”...
近年来,在重疾险新单保费增长乏力的情况下,人身险行业正在努力探寻“第二增长曲线”。 国家... -
国补点燃春节换新潮湖南、安徽京东国补手机销量环比增长100%...
1月20日消费品“以旧换新”政策扩围,手机等数码产品购新补贴正式落地京东。商务部数据显示,... -
蛇年开门红!连云港徐圩港控集团首月吞吐量破百万吨...
春节期间,连云港徐圩港控集团码头一片繁忙,螺旋卸船机轰鸣作响,门机巨臂凌空挥舞,舳舻如织穿... -
平安证券何之江:打造有温度的证券平台服务商,为社会创造价值...
平安证券党委书记、董事长何之江 一元复始,万象更新。值此辞旧迎新之际,我谨代表平安证券全... -
科伦博泰生物-B06990拟实施H股全流通...
智通财经APP讯,科伦博泰生物-B发布公告,公司董事会已审议及批准公司若干股东所持不超过约... -
华润医药商业集团有限公司荣获由ICAS英格尔认证颁发的合规管理体系与...
近日,华润医药商业集团有限公司及其下属华润空港(北京)国际贸易有限公司、华润医药商业集团医... -
宝马、小鹏、比亚迪随意挑!多家公司给员工“豪气”送奖...
有发钱的也有送车的,多家公司公布豪气“年终奖”。 春节前,“年终奖”成为热议话题,近期多... -
虹桥火车站出行指南请收好!2月1日-6日,周边5处停车场夜间2小时免...
春节返程高峰期间,虹桥枢纽周边1公里内虹桥天地、虹桥天街、虹桥汇、虹桥绿谷、正荣中心等5家... -
全方位建设模范自治区暨“科技兴蒙产才融合”政策企业家宣介活动上海临港...
12月14日,由内蒙古自治区人民政府驻上海办事处主办的全方位建设模范自治区暨“科技兴蒙产才...