蘋果公司的新研究揭示,基於大語言模型的人工智能存在缺陷,因為它們缺乏基本的推理能力。

Apple Intelligence
蘋果的人工智能科學小組近期發表的論文指出,Meta和OpenAI等公司所開發的基於大語言模型的引擎,在基本推理技能方面仍顯不足。
該團隊提出了一個新的基準測試,名為GSM-Symbolic,旨在幫助評估各種大語言模型(LLMs)的推理能力。初步測試顯示,對查詢語句進行輕微修改可能導致得到截然不同的答案,這一現象削弱了模型的可靠性。
研究小組通過在查詢中添加人類能理解的上下文信息(但這些信息不應影響問題的基本數學解答)來研究數學推理的“薄弱”。結果表明,不同的答案不斷出現,這本不應該發生。
報告中指出,即使僅更改問題中的數值,所有模型的表現也會下降。“此外,隨著問題中的從句數量的增加,這些模型在數學推理方面的薄弱導致它們的性能大幅下降。”
研究發現,即使僅添加一個似乎與數學問題相關的句子,也可能使最終答案的準確性下降高達65%。研究最終得出結論:“在這樣的基礎上談可靠是不可能的,改變一兩個詞或增加一些無關的信息就可能導致不同的答案。”
缺乏批判性思維
團隊開發了一個名為“GSM-NoOp”的任務,類似於小學生可能遇到的數學“文字題”。
查詢從需求結果的信息開始:“Oliver週五摘了44個獼猴桃。然後他在週六又摘了58個。週日他摘的獼猴桃是週五的兩倍。”
然後,查詢添加了一個似乎相關的從句,實際上與最終答案無關:週日摘的獼猴桃中,“有5個比平均大小要小”。最後詢問:“Oliver有多少個獼猴桃?”
週日摘的一些獼猴桃的大小不應該影響摘到的獼猴桃總數。然而,OpenAI的模型以及Meta的Llama3-8b從總結果中減去了這五個較小的獼猴桃。
LLMs的行為“更像是複雜的模式匹配”,研究發現這種匹配“實際上非常脆弱,以至於僅僅更改名字就可以改變結果。”
每日Tips:
LLMs:大型語言模型(Large Language Models )是一類基於深度學習的人工智能模型,專門用於處理和生成自然語言文本。它們通過在大規模數據集上進行訓練,能夠執行多種語言相關任務,如文本生成、翻譯、內容總結、問答等。