RAG 模型生成結果是否忠於資料來源?
影片介紹:How Faithful are RAG Models?
短片簡要介紹了一篇由 Wu et al. (2024) 發表的論文,探討在 RAG 情境中:LLM 的內部知識(prior)與外部檢索資訊之間的「拉鋸戰」。
論文重點整理(Wu et al. 2024)
- 研究名稱:ClashEval: Quantifying the tug‑of‑war between an LLM’s internal prior and external evidence
- 實驗內容:
- 使用 6 個資訊領域、超過 1200 題問題。
- 比較 GPT‑4 等模型在有/無 RAG 資訊下的表現。
- 主要發現:
- 當檢索資訊 正確時,能修正大多數模型錯誤,總體準確率達 94% :contentReference[oaicite:21]{index=21}。
- 當檢索內容 錯誤時:
- 若模型 prior(內部信心)弱,較容易接受錯誤資訊;
- 若 prior 強 或檢索內容偏離其預期越大,模型越少接受該內容 :contentReference[oaicite:22]{index=22}。
- 結論啟示:
- RAG 系統大幅提升模型準確性,但也可能導致錯誤資訊被重複。
- 要設計安全可靠的系統,就必須評估模型的 prior 強度與資料偏差程度。
Source: Wu et al. (2024)
- Concordance (Prior):GPT-4 未使用 RAG、僅靠自身知識時的準確率。
- Concordance (w/ RAG):GPT-4 使用 RAG 檢索資訊後的準確率。
- Slope:代表 GPT-4「是否容易被錯誤資料說服」的程度。數值越大(越靠近 0),代表越容易被影響。
總結表
| 問題 | 結論摘要 |
|---|---|
| 正確的檢索資料對模型有何效果? | 可以修正模型大部分錯誤,提升整體準確率至約 94%。 |
| 錯誤的檢索資料又如何影響模型? | 若模型內部信心不高,容易被錯誤資訊影響,重複錯誤。 |
| 模型內部信心的影響? | 信心強的模型更傾向拒絕與 prior 相差大的錯誤資料。 |
| 開發與產品應用時應注意什麼? | 必須評估 RAG 資訊的正確性與模型 prior 的互動機制。 |
References
上一篇:LLM Research Findings - LLM Reasoning (大型語言模型推理)
下一篇:LLM Research Findings - 大型語言模型的上下文召回能力
