仍然不能规划,刷屏的远未达到饱和

机器之心报道

编辑:陈陈、小舟

实验证明,大模型的System2能力还有待开发。

规划行动方案以实现所需状态的能力一直被认为是智能体的核心能力。随着大型语言模型(LLM)的出现,人们对LLM是否具有这种规划能力产生了极大的兴趣。

最近,OpenAI发布了o1模型,一举创造了很多历史记录。o1模型拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力,相比GPT-4o有巨大提升,让大模型的上限从「没法看」直接上升到优秀水平,不专门训练直接数学奥赛金牌,甚至能在博士级别的科学问答环节上超越人类专家。

那么,o1模型是否具备上述规划能力?

2022年,来自亚利桑那州立大学(ASU)的研究团队开发了评估LLM规划能力的基准——PlanBench。现在,亚利桑那州立大学研究团队全面审视了当前LLM在PlanBench上的表现,包括o1模型。值得注意的是,虽然o1在基准测试上性能超过了竞争对手,但它还远未达到饱和状态。

SOTA性能的LLM仍然不会规划

对于vanillaLLM(通过RLHF微调的Transformer模型)来说,PlanBench基准仍然充满挑战,即使在最简单的测试集上,模型表现也不佳。

下表为当前和前一代LLM的结果,测试领域包括Blocksworld和MysteryBlocksworld(混淆版本),其中前者是在600个3到5个blockBlocksworld问题静态测试集上运行的结果,仍然不能规划,刷屏的远未达到饱和后者是在600个语义相同但语法混淆的实例(称之为MysteryBlocksworld)上的运行结果。

在这些模型中,LLaMA3.1405B在常规Blocksworld测试中表现最佳,准确率达到62.6%。然而模型在MysteryBlocksworld的表现却远远落后——没有一个LLM在测试集上达到5%,并且在一个领域上的性能并不能清楚地预测另一个领域的性能。

这种结果揭示了LLM本质上仍是近似检索系统。

更进一步的,作者测试了自然语言提示和PDDL,发现vanilla语言模型在前者上的表现更好。

作者还发现,与之前的说法相反,one-shot提示并不是对zero-shot的严格改进。这在对LLaMA系列模型的测试中最为明显。

值得注意的是,基准测试的原始迭代没有考虑效率,因为vanillaLLM生成某些输出所花费的时间仅取决于该输出的长度,而与实例的语义内容或难度无关。不过作者也对各个模型的提示成本进行了比较,如表格4所示。

从近似检索到近似推理:评估o1

标准自回归LLM通过近似检索生成输出,但这些模型面临一个问题,即在System1任务中表现出色,但在对规划任务至关重要的类似System2的近似推理能力上表现不佳。

回顾之前的研究,从LLM中获取可靠规划能力的最佳方法是将它们与生成测试框架中的外部验证器配对,即所谓的LLM-Modulo系统。o1尝试以不同的方式为底层LLM补充类似System2的能力。

据了解,o1是将底层LLM(很可能是经过修改的GPT-4o)结合到RL训练的系统中,该系统可指导私有CoT推理轨迹的创建、管理和最终选择。但是目前确切的细节很少,因此只能推测其确切机制。

作者猜测o1和LLM之间有两个主要区别:一个额外的强化学习预训练阶段和一个新的自适应扩展推理程序。无论如何,从现有细节可以看出,该模型在本质上与以前的LLM根本不同。

在原始测试集上评估LRM:作者在静态PlanBench测试集上测试了o1-preview和o1-mini,结果如表2所示。其中,600个Blocksworld实例范围从3到5个block不等,需要2到16个step的规划才能解决。

结果显示,o1正确回答了97.8%的这些实例,但在MysteryBlocksworld上,o1没有保持这种性能,但也远远超过了以前的模型,正确回答了52.8%的实例。

标准LLMCoT提示方法很脆弱,无法随着问题规模的扩大而稳健地扩展。作者在一组较大的Blocksworld问题上测试了这些模型(见图3)。此集合中的问题长度从6到20个block不等,需要20到40step的最佳规划。

作者发现模型性能从之前报告的97.8%迅速下降。事实上,在这组实例中,o1-preview仅实现了23.63%的准确率。可以看出虽然这些模型总体上令人印象深刻,但这表明它们的性能仍然远不够稳健。

在不可解决实例上的性能:接着作者修改了测试集中的一些实例,结果如表3所示。在Blocksworld上,只有27%的实例被o1正确且明确地识别为无法解决。在所有案例中,有19%的模型返回一个点或「emptyplan」标记,没有任何解释或指示无法解决。在其余54%的案例中,模型生成了一个完整的规划。

在随机MysteryBlocksworld上,这些数字更糟:16%的案例被正确识别为无法解决,5%返回了一个「emptyplan」,其余79%的案例得到了完整规划的回答。

准确率/成本权衡与保证

研究团队发现:o1-preview似乎在每个问题使用的推理token数量方面受到限制。如果o1的正式版本消除了这一限制,可能会提高整体准确性,但也可能导致更不可预测(甚至高得离谱)的推理成本。o1-mini虽然更便宜,但通常性能较差。

免责声明:本网站部分内容由用户自行上传,若侵犯了您的权益,请联系我们处理,谢谢!联系QQ:2760375052

分享:

扫一扫在手机阅读、分享本文

吉昊

这家伙太懒。。。

  • 暂无未发布任何投稿。

最近发表