LLM Research Findings - RAG 模型的忠實度

RAG 模型生成結果是否忠於資料來源?

影片介紹:How Faithful are RAG Models?

短片簡要介紹了一篇由 Wu et al. (2024) 發表的論文,探討在 RAG 情境中:LLM 的內部知識(prior)與外部檢索資訊之間的「拉鋸戰」。


:books: 論文重點整理(Wu et al. 2024)

  • 研究名稱:ClashEval: Quantifying the tug‑of‑war between an LLM’s internal prior and external evidence
  • 實驗內容
    • 使用 6 個資訊領域、超過 1200 題問題。
    • 比較 GPT‑4 等模型在有/無 RAG 資訊下的表現。
  • 主要發現
    1. 當檢索資訊 正確時,能修正大多數模型錯誤,總體準確率達 94% :contentReference[oaicite:21]{index=21}。
    2. 當檢索內容 錯誤時:
      • 若模型 prior(內部信心)弱,較容易接受錯誤資訊;
      • prior 強 或檢索內容偏離其預期越大,模型越少接受該內容 :contentReference[oaicite:22]{index=22}。
  • 結論啟示
    • RAG 系統大幅提升模型準確性,但也可能導致錯誤資訊被重複。
    • 要設計安全可靠的系統,就必須評估模型的 prior 強度與資料偏差程度。


Source: Wu et al. (2024)

  • Concordance (Prior):GPT-4 未使用 RAG、僅靠自身知識時的準確率。
  • Concordance (w/ RAG):GPT-4 使用 RAG 檢索資訊後的準確率。
  • Slope:代表 GPT-4「是否容易被錯誤資料說服」的程度。數值越大(越靠近 0),代表越容易被影響。

總結表

問題 結論摘要
正確的檢索資料對模型有何效果? 可以修正模型大部分錯誤,提升整體準確率至約 94%。
錯誤的檢索資料又如何影響模型? 若模型內部信心不高,容易被錯誤資訊影響,重複錯誤。
模型內部信心的影響? 信心強的模型更傾向拒絕與 prior 相差大的錯誤資料。
開發與產品應用時應注意什麼? 必須評估 RAG 資訊的正確性與模型 prior 的互動機制。

References

How Faithful are RAG Models?


目錄:LLM Research Findings - 簡介

上一篇:LLM Research Findings - LLM Reasoning (大型語言模型推理)
下一篇:LLM Research Findings - 大型語言模型的上下文召回能力