
几天前,“思考的幻想”的苹果纸引起了无数的关注和争议,研究了“侵权模型”是否现在可以真正“理解”的问题,而这里的结论是负面的。该论文指出:“我们的研究表明,最先进的LRM(例如O3-Mini,DeepSeek-R1,Claude-3.7-Connet Inkinging)仍然未能在不同的环境中发展出一般的问题解决能力,当达到一定的复杂性时,准确性最终下降到零。”但是,本文的研究方法也有很多值得谈论的话题。例如,我们的一位读者认为,“在数学问题中添加无关的内容会发现大型模型更有可能回答错误,而询问大型模型的是“著名的LLM Sniffer Gary Marcus,也发布了一篇文章,以指出研究的缺点并再次批评LLM。总而言之,他的意见有7分:https://garymarcus.substack.com/p/seven-plies-to-to-to-the-viral-applE复杂问题和干扰模型(LRM)将无法解决。完美。关于这项研究的问题:思维的幻想。是的,您正确地阅读了,这就是本文评论的标题,这些论文评论中的慈善和慈善事业!它指出了该苹果纸的三个主要缺陷:汉诺威的实验,该实验超出了模型的输出的输出令牌限制到报告的故障,并且该模型清楚地识别了其输出处的这些限制;对苹果纸的自动检查未能从实际障碍中确定识别失败,从而导致模型能力不当。最关注的事情是,由于船舶的能力不足,他们的“河流交叉”基准测试包含n≥6时不可能的数学机会,但模型是由于未能无法回答无法解决的问题。该论文非常简短,参考文献仅为4页。更有趣的是拟人化的一组名为C. Opus,实际上是Claude Opus。还应指出的是,另一组Alex Laveen是“ AI治理和政策的高级项目专家”,在英国(第六个)学院的数学和物理学学院也是六个成型的大学形式)。 。纸质标题:纸质纸质论文的错觉思维:https://arxiv.org/pdf/2506.09250V1让我们看一下本评论论文的具体内容。 1简介Shojaee等。 (2025)声称,通过对计划困难的系统评估,可以找到大型理解模型(LRMS)的基本限制。他们的主要发现在AI的推理研究中具有重要意义,也就是说,在某些复杂的阈值带来了结果后,模型的准确性将“崩溃”至零。但是,我们的评论表明,这些明显的失败来自实验设计的选择,而不是模型中固有的限制。 2个型号可以居住提示输出障碍。苹果的原始研究没有注意到基本的观察:该模型可以积极确定其是否达到了输出限制。