仍然不能规划刷屏的远未达到饱和
-
仍然不能规划,刷屏的远未达到饱和
机器之心报道编辑:陈陈、小舟实验证明,大模型的System2能力还有待开发。规划行动方案以实现所需状态的能力一直被认为是智能体的核心能力。随着大型语言模型(LLM)的出现,人们对LLM是否具有这种规划能力产生了极大的兴趣。最近,OpenAI发布了o1模型,一举创造了很多历史记录。o1模型拥有真正的通用推理能力。在一系列高难基准测试中展现出了超强实力,相比GPT-4o有巨大提升,让大模型的上限从「没法看」直接上升到优秀水平,不专门训练直接数学奥赛金牌,甚至能在博士级别的科学问答环节上超越人类专家。那么,o1模型是否具...