Risks & Misuses-biases

Risks & Misuses-偏見(biases)

AI 語言模型雖然很聰明,但它們學習的資料來自人類世界,而我們的世界本身就有很多偏見。這些偏見如果沒有處理好,AI 可能會在無意間傳遞錯誤或歧視性的訊息。因此,設計Prompt時要特別注意,不要讓偏見混進來。


本篇目標


什麼是偏見?

在大型語言模型中,偏見指的是模型在生成回應時,可能會反映出訓練資料中的社會偏見或刻板印象。這些偏見可能導致模型產生有害、不公平或不準確的回應,影響其在下游任務中的表現。

常見偏見範例

在執行小樣本學習時,範例的分佈是否會影響模型的性能或使模型產生偏見?我們可以進行一個簡單的測試。

Q:我剛剛得到最好的消息!
A:正面

Q:我們剛剛在工作中加薪了!
A:正面

Q:我今天實在是太開心了!
A:正面

Q:我現在感到非常快樂。
A:正面

Q:外面的天氣真陰鬱。
A:負面

Q:我剛剛得到了一些可怕的消息。
A:負面

Q:這留下了一種酸澀的味道。
A:

輸出:

負面

在上面的例子中,範例的分佈好像不會使模型產生偏見,這是好的。讓我們再試另一個更難分類的文本,看看模型的表現如何。

Q:這裡的食物真美味!
A:正面

Q:我真不敢相信我考試失敗了。
A:負面

Q:我今天過得很愉快!
A:正面

Q:我討厭這份工作。
A:負面

Q:這裡的服務真糟糕。
A:負面

Q:我對生活感到非常沮喪。
A:負面

Q:我感到某些東西。
A:

輸出:

負面

雖然最後一句話有些主觀,但我改用了2個正面例子和4個負面例子,然後再次嘗試完全相同的句子,它回應了「負面」。模型可能擁有大量關於情緒分類的知識,因此很難讓它在這個問題上表現出偏見。

然而,若示範的順序有所改變,模型的回應可能會有所不同。

Q:「這家店我不太喜歡。」  
A:負面

Q:「這頓晚餐真的太棒了。」  
A:正面

Q:「這次的經驗真的很糟糕。」  
A:負面

Q:「我超喜歡這部電影!」  
A:正面

Q:「今天心情好好~」  
A:正面

Q:「這句話要判斷什麼情緒?」  
A:

輸出:

模型不會因為「前幾句都是正面」而誤判,因為正負樣本分布較均衡、順序也打亂了。

因此,建議在設計提示時,盡可能避免不平均的範例分佈,提供每個標籤的更平均的範例數量,以減少偏見的影響。


結論

偏見是語言模型運作中難以完全避免的問題,但透過謹慎設計提示、強化資料多元性、以及主動察覺偏誤,就能有效降低其影響。開發者與使用者共同努力,才能讓 AI 回應更具包容性、公平性與可信度。


References

Prompt Engineering Guide


目錄:Risks & Misuses - 風險與誤用

上一篇:Risks & Misuses - 真實性
下一篇:LLM Research Findings - 簡介