Risks & Misuses-Factuality

Risks & Misuses-事實性(Factuality)


大型語言模型(LLM)生成回應時,內容常常表現得自然流暢,讓人感覺可信,但可能是虛構或錯誤的資訊,這種現象被稱為「幻覺」(hallucination)。這也是探討「事實性」(factuality)風險時的重要議題。透過改進提示(prompt),可以提升模型回應的正確性與事實性,並降低產生不一致和虛構回答的可能性。


本篇目標


什麼是內容「幻覺」(Hallucination)?

LLM有時會生成看起來像真的,但實際上是捏造的內容,這種情況稱為「幻覺(hallucination)」。


為什麼會有這種現象?

原因其實跟大型語言模型的運作原理有關:

  1. 模型不是在查資料,而是預測文字
    LLM 是透過學習大量文字資料,學會「下一個詞最可能是什麼」,並不是像人在搜尋真實資料或核對事實。它根據統計模式,生成看起來合理的文字,但不一定是真的。

  2. 缺乏事實驗證機制
    模型本身沒有內建「判斷真假」的能力,也沒有連接外部資料庫或網路去確認內容是否正確。它只憑訓練時看到的文字模式作答。

  3. 訓練資料本身可能有錯誤
    訓練用的大量文本資料可能包含錯誤資訊或不完整內容,模型也會學到這些錯誤。

  4. 在不確定時仍必須生成回答
    模型在設計上是要生成連貫回應,即使面對自己不確定的問題,仍會「硬湊」出答案,導致錯誤或捏造。

簡單說,幻覺是因為模型「在猜字」而不是「在查資料」,所以有時會說出看似合理,但其實是錯的話。


如何減少錯誤?

  1. 在提示中提供具體上下文
    提供與問題相關的資料段落(例如來自維基百科、相關文件等),幫助模型根據真實資訊作答。

  2. 設定明確提示,鼓勵模型在不知道時說「不知道」
    明確指示模型在沒有信心或不知道時承認這一點,避免亂答。

  3. 利用範例讓模型學會拒答或謹慎回答
    在提示中提供它可能知道和不知道的問題和答案的範例

舉個簡單例子:

Q: 什麼是原子?  
A: 原子是構成萬物的微小粒子。  

Q: 誰是 Alvan Muntz? 
A: ? 

Q: Kozar-09 是什麼? 
A: ? 

Q: 火星有幾顆衛星?  
A: 兩顆,分別為 Phobos 和 Deimos。  

Q: Neto Beto Roberto 是誰?  
A: ?

我編造了“Neto Beto Roberto”這個名字,所以這個模型是正確的。試著稍微修改一下問題,看看能否讓它運作。根據你目前所學的知識,你可以用不同的方式進一步改進它。


結論

今天我們認識了語言模型常見的「幻覺」問題,也了解如何透過設計提示與調整參數,降低模型亂掰內容的風險。
下一篇將帶你探討另一項重要風險——「偏見( Biases)」,並介紹如何發現與緩解模型中的偏見現象,讓 AI 回答更公平、更可靠。


References

Prompt Engineering Guide


目錄:Risks & Misuses - 風險與誤用

上一篇:Risks & Misuses - 對抗性提示(Adversarial Prompting))
下一篇:Risks & Misuses - 偏見(biases)