近日,苹果的人工智能研究团队在 arXiv 上发表了一项令人震惊的研究,揭示了大型语言模型在推理能力上的重大弱点。这项研究对一系列领先的语言模型进行了评估,包括来自 OpenAI、Meta 等知名开发商的模型,结果却发现这些模型在处理数学推理任务时存在严重问题。
研究指出,即使问题措辞的细微变化,也会导致这些语言模型的性能出现重大差异。这意味着,在需要逻辑一致性的场景中,这些模型的可靠性将大打折扣。苹果团队通过几项测试证明,在问题中添加不相关的信息,竟然会导致模型给出截然不同的答案,这一发现无疑给人工智能领域带来了新的挑战。
值得注意的是,所有测试的模型,无论大小,都表现出了这一问题。从较小的开源版本如 Llama,到专有模型如 OpenAI 的 GPT-4,在面对输入数据中看似无关紧要的变化时,性能都显著下降。这一结果让人们开始重新审视语言模型的能力,并思考如何改进它们以应对更复杂的任务。
苹果团队建议,人工智能可能需要将神经网络与传统的基于符号的推理(称为神经符号人工智能)相结合,以获得更准确的决策和解决问题的能力。这一建议为未来的研究提供了新的方向,也让我们对人工智能的未来充满了期待。
以上就是苹果AI团队揭秘:大型语言模型推理能力竟如此脆弱!的全部内容了,J8APP精心打造,旨在为您呈现一个满载精彩纷呈资讯的宝库,全球前沿资讯、深度剖析行业动态、汇聚热门话题与独特视角,力求为您带来一场场知识与娱乐并重的盛宴。