LLM Research Findings - RAG 模型的忠實度

vincent · 2025年07月29日05:32

RAG 模型生成結果是否忠於資料來源？

短片簡要介紹了一篇由 Wu et al. (2024) 發表的論文，探討在 RAG 情境中：LLM 的內部知識（prior）與外部檢索資訊之間的「拉鋸戰」。

研究名稱：ClashEval: Quantifying the tug‑of‑war between an LLM’s internal prior and external evidence
實驗內容：
- 使用 6 個資訊領域、超過 1200 題問題。
- 比較 GPT‑4 等模型在有／無 RAG 資訊下的表現。
主要發現：
1. 當檢索資訊正確時，能修正大多數模型錯誤，總體準確率達 94% :contentReference[oaicite:21]{index=21}。
2. 當檢索內容錯誤時：
  - 若模型 prior（內部信心）弱，較容易接受錯誤資訊；
  - 若 prior 強 或檢索內容偏離其預期越大，模型越少接受該內容 :contentReference[oaicite:22]{index=22}。
結論啟示：
- RAG 系統大幅提升模型準確性，但也可能導致錯誤資訊被重複。
- 要設計安全可靠的系統，就必須評估模型的 prior 強度與資料偏差程度。

Source: Wu et al. (2024)

問題	結論摘要
正確的檢索資料對模型有何效果？	可以修正模型大部分錯誤，提升整體準確率至約 94%。
錯誤的檢索資料又如何影響模型？	若模型內部信心不高，容易被錯誤資訊影響，重複錯誤。
模型內部信心的影響？	信心強的模型更傾向拒絕與 prior 相差大的錯誤資料。
開發與產品應用時應注意什麼？	必須評估 RAG 資訊的正確性與模型 prior 的互動機制。