
Xin Zhiyuan报告编辑:Taozi Rhino [Xin Zhiyuan介绍]模型的模型如何变形?新的时代AI研究期发现,O3-Mini-High不仅是广泛的知识,而且还可以解决基于直觉的问题。但是,推理的风格过于取决于直觉,没有力量和创造力,甚至有时“相反”。推理模型无法推理,并在一夜之间成为硅谷中最热门的话题。 Epoch AI的最新报告指出,O3-Mini-tall不仅可以理由,而且可以解决领先的数学问题。组建了一个14位数学家小组,以评估O3通过29个前部进行推理的能力。 As a result, it is surprising that the O3-mini-highly solved the problem whenwhole in "math intuition" and does not rely on simple rote memorization.扩展全文
他们还发现O3具有思维物理学,并且有很多原因没有严格争议和准确证明的步骤。
一位数学家称其为“基于直觉的理解”。
缺乏创造力和深入理解成为O3的最大弱点。
29个数学测试中的O3米尼高表演是什么?这是报告的所有详细信息。
O3解决了13个问题,具有相同的知识和直觉
在29个识别过程中,有13个带有正确的答案,O3-Mini-High可以解决这些数学问题吗?
超级知识 - 死记硬背不仅是记忆
一个主要因素是它的惊人知识,这并不奇怪,毕竟,它已经收到了大量数据。
O3-Mini-High可以在各个领域处理前沿问题,而Maths同意它具有丰富的知识储备。
一位数学家评论说:“ O3-Mini-High可以准确地扩大问题的数学背景并涉及一些高级概念。对问题的一般知识和理解不是瓶颈。“
而且,这不仅是记忆的死记硬背。
尽管问题设计师故意隐藏了理解问题所需的基本技术,但数学家通常会发现,O3-Mini-High仍然具有良好的呼叫正确定理以促进问题解决问题的能力。
尤其是在约66%的推理中,数学家给出了至少3分(从5分)的高评分,以使模型调用相关的数学结果。
检查数学家通常发现,O3-Mini-High通过呼吁数学文献中的相关结果,并得分3/5或更高至三分之二的问题。
全部通过直觉,缺乏准确性
如前所述,O3米尼高的推理过程往往更为非正式。
简而言之,它是一种“基于直观的归纳推理”,并且具有数学家的好奇心,可以找到解决问题的最简单方法。
但是,在数学眼中,O3思维过程是相对随机的,n足够准确。
此外,其对描述的初步概念通常很粗糙,语言不够严格。在某些特殊情况下,它们在正式的OneSshematics文书工作中不被接受。
为什么不采用O3-Mini-High更正式的推理?
这个时代并没有充分想象原因,但至少可以肯定的是,它不仅像“懒惰模型”那样简单。
例如,他们发现O3可以根据需要毫不犹豫地计算和编写代码。
这个看似令人惊讶的乏味的步骤使该模型保持了更扎实,更抽象的风格。
不可否认的是,其推理仍然依赖直觉。
此外,另一种可能性是,“正式推理”一组预训练的比例很小,并且很难在另一个阶段完美刺激所有O3潜力。
表达了三个主要缺点
缺乏准确性
上面提到的正式准确性不足的问题是主要的SHO之一o3-mini-high的RTCOMINGS。
例如,一位数学家教授:“与人类数学相比,O3-Mini-High的明显缺点之一是,它在发现一定的结论后不会试图证明这一点。”
在一种情况下,O3-Mini-High提出了通过非正式推理的适当猜测,但没有试图证明这种猜测,但是直接使用了这种猜测来解决问题。
最后,我得到了正确的答案。
他们称这种情况为“奶酪”。
换句话说,该模型通常取决于答案的预测,而无需完成完整的推理过程,并且完整的推理应包括对相关的-Haka -Haka的验证。
机会是该模型推理过程中很小一部分来绘制正确答案的一小部分:
“机会”的现象很常见,但是在大多数情况下,O3-Mini-High可以正确解决该问题,而没有任何机会行为(即标记为5)。只有这个数字适用于O3-Mini-High提出的问题的正确答案
有时,O3米尼高的想法几乎是正确的,但是仅仅因为它无法促进最终的关键联系,因此无法获得正确的答案。
例如,有了关于分区理论的问题,该模型距离正确回答仅一步之遥。 May -int评论说:“如果它由一定数字中的n = 0的输出组成,答案是正确的。我真的很欣赏它的性能。”
但是,更常见的是,O3-Mini-Tall与解决该问题的问题不是很近,如下图所示:
在大约18%的情况下,O3-Mini-High获得麦芽解决方案的情况非常接近正确的解决方案,推理的准确性更广泛地分布。
缺乏创造力和深刻理解
数学认为,O3-Mini-High的最大限制是缺乏创造力和深刻的理解,尤其是与具有相同水平的人相比Owledge。
数学家结束了:
这个模型就像是一个勤奋的学生毕业生,他读了很多书,可以说很多结果,而这个名称乍一看是非常了不起的,但是专家即将发现,这个“学生”并不真正了解这些内容,大多数人就像重述一样。
另一位数学家说:
该模型有一些更喜欢它的想法,并始终尝试应用它们。
kbut这些想法已经耗尽,没有很大的发展。
我认为这是一种挫败感。作为专业的数学家组合,我希望它可以从不同的角度解决问题或思考(即使尝试失败)。
数学进一步停止:“让AI解决一项八年级的数学竞赛,需要新想法要比计算大型有限域中的超椭圆形曲线中有多少点更困难。”
尽管这种声音已扩大,但在大多数数学中都反映了类似的情况。
幻觉问题-GUni
该模型还显示了许多其他故障模式。
一个重要的问题是,大约75%的推理过程包含“幻觉”,通常是MISGA的术语和数学公式。
例如,一位数学家教授:“尽管它经常记住相关公式的名称,但不能复制它,并且占位符经常被插入不记得细节的领域,例如(...)。
O3-Mini-High还使用工具和资源(例如Web搜索)存在问题。
例如,有些人将其描述为“试图从已保留的许多不存在的URL中获取信息”。当有必要准确表达不受欢迎的数学结果时,这种类型的问题尤其重要。
实际上,一位受访者说:“一个可以在Google或Arxiv上进行类似浏览以找到潜在相关结果的代理系统将大大改善其在现实问题中的性能。”
像一个人一样怀有疾病,但不像一个人?
是理性的过程O3-Mini-High与人类数学有相似之处?
在这方面,Epoch AI将COT模型与人类数学进行了比较。通常,最终答案从数学家到推理的过程有所不同。
如下图所示,数学得分了看起来像人类的O3米尼最高推理水平。
尽管它没有达到完全难以理解的水平,但AI在回答四个问题的人类数学主义的过程中赢得了类似的结果。
1点意味着推理不像人类,5点意味着推理与人类数学家无法区分。
另外,在其他时间间隔内,涉及O3。为什么跨度如此广泛?研究团队回顾了为什么存在很大差异的原因与O3-Mini-High的不同组合有关,至少是人。
一方面,对于人们的推理问题,表现出好奇心和各种解决方案的探索似乎非常好问题。
另一方面,它似乎非常了解,没有创造力和紧密性,并且有一些奇怪的“怪癖”。
在提出疑问的过程中,O3-Mini-高推理过程通常很长。即使是数学,在口头测试中写一名长期学生也不是一件坏事。
但是,并非所有的理解细节都显然是有益的。有时,当AI提交最终答案时,“焦虑”就会出现。
例如,O3-Mini-High最终将陷入“预次次数重述”的周期 -
答案已经完成。上面的推理过程是最终答案,它与自我怀疑的内部OS混合,然后逐步计算以计算最终公式的某些算术。
不仅O3,而且任何理解模式都将属于这种恶习。
在这种情况下,识别模型的过程显然与温和的人类数学家不同。
讨论
基于上述,我们只能摘要将O3-Mini-High视为“一种学识渊博但基于感觉的感觉,缺乏数学家的创造力和严格性,并且往往很奇怪或长时间重复。”
这似乎通常符合我们在线看到的数学观点。
他们认为,这篇评论自然会提出两个关键问题。
第一个问题是:为什么诸如O3-Mini-High之类的理解模型显示出这些品质?
部分原因很明确 - 这些模型之所以学习,是因为它们接受了大量数据的培训,包括大量公开发表的数学文献。
但是,为什么这些模型不能使用现有知识,在不同的数学子场之间建立更多联系或提出更具创意的新想法更加好奇?
这个问题的答案尚不清楚。
第二个问题是:这些模型在当前的弱点(例如创造力和正式推理)方面可以在未来有多少改善?以及这样的开发人员怎么能Elopment还原数学推理的整个方法吗?
例如,我们可以比较在字母座等系统中的推理方法的方法 - 后者主要甚至完全基于合成数据训练,因此数学“可见”的世界可能完全不同。
由于数学本身在合成数据中的灵活性很高,因此可以合理地认为,未来的理解模型在思维中可能与人类数学不同。
当然,我们目前的理解只会触及这些模型的工作机制的表面。我希望将来会有更多类似的评论来揭示这些系统背后的深刻逻辑。
参考:
https://epoch.ai/gradient-p -dates/becter-benchmark-cores-analying-o3-mini-math-resounting回到sohu,以查看更多