LeCun发文质疑LLM推理能力大模型涌现离不开上下文学习

近期，LeCun在推特上引发了关于大语言模型（LLM）推理能力的讨论，强调LLM缺乏真正的规划推理能力，其涌现能力实际上是上下文学习的结果。研究通过多个实验验证LLM在复杂规划任务上表现不佳，强调其能力受限于任务复杂度。

研究团队在GPT-4上进行的实验显示，在国际规划竞赛中，LLM的自主生成可执行计划的成功率相当有限。对于声称展示了LLM规划能力的论文，文章指出其往往混淆了从LLM中提取的计划知识和实际可执行计划，最终认为LLM缺乏真正的规划和推理能力。

文章还提到，对于LLM的规划任务研究存在一些问题，包括领域知识和实际执行计划的混淆。研究团队通过混淆规划问题中的动作和对象的名称来降低近似检索的有效性，挑战LLM的经验表现。

尽管进行了微调和不断提示的尝试，但改进LLM的规划能力仍然困难，且可能只是将规划任务转化为基于内存的检索。最终，文章总结认为，LLM的涌现能力主要体现在任务简单且问题已知的情境中，而在复杂规划任务和推理方面存在局限。

这一讨论对于理解大语言模型的真实能力，特别是在推理和规划领域，提供了重要的见解。随着对LLM的研究的不断深入，对其真实能力的理解也在逐渐清晰，为未来自然语言处理研究方向提供了有价值的参考。

LeCun发文质疑LLM推理能力 大模型涌现离不开上下文学习