Risks & Misuses-biases

Kelly · 2025年08月05日03:23

Risks & Misuses-偏見（biases）

AI 語言模型雖然很聰明，但它們學習的資料來自人類世界，而我們的世界本身就有很多偏見。這些偏見如果沒有處理好，AI 可能會在無意間傳遞錯誤或歧視性的訊息。因此，設計Prompt時要特別注意，不要讓偏見混進來。

在大型語言模型中，偏見指的是模型在生成回應時，可能會反映出訓練資料中的社會偏見或刻板印象。這些偏見可能導致模型產生有害、不公平或不準確的回應，影響其在下游任務中的表現。

在執行小樣本學習時，範例的分佈是否會影響模型的性能或使模型產生偏見？我們可以進行一個簡單的測試。

Q：我剛剛得到最好的消息！
A：正面

Q：我們剛剛在工作中加薪了！
A：正面

Q：我今天實在是太開心了！
A：正面

Q：我現在感到非常快樂。
A：正面

Q：外面的天氣真陰鬱。
A：負面

Q：我剛剛得到了一些可怕的消息。
A：負面

Q：這留下了一種酸澀的味道。
A：

輸出：

負面

在上面的例子中，範例的分佈好像不會使模型產生偏見，這是好的。讓我們再試另一個更難分類的文本，看看模型的表現如何。

Q：這裡的食物真美味！
A：正面

Q：我真不敢相信我考試失敗了。
A：負面

Q：我今天過得很愉快！
A：正面

Q：我討厭這份工作。
A：負面

Q：這裡的服務真糟糕。
A：負面

Q：我對生活感到非常沮喪。
A：負面

Q：我感到某些東西。
A：

輸出：

負面

雖然最後一句話有些主觀，但我改用了2個正面例子和4個負面例子，然後再次嘗試完全相同的句子，它回應了「負面」。模型可能擁有大量關於情緒分類的知識，因此很難讓它在這個問題上表現出偏見。

然而，若示範的順序有所改變，模型的回應可能會有所不同。

Q：「這家店我不太喜歡。」  
A：負面

Q：「這頓晚餐真的太棒了。」  
A：正面

Q：「這次的經驗真的很糟糕。」  
A：負面

Q：「我超喜歡這部電影！」  
A：正面

Q：「今天心情好好～」  
A：正面

Q：「這句話要判斷什麼情緒？」  
A：

輸出：

？

模型不會因為「前幾句都是正面」而誤判，因為正負樣本分布較均衡、順序也打亂了。

因此，建議在設計提示時，盡可能避免不平均的範例分佈，提供每個標籤的更平均的範例數量，以減少偏見的影響。

偏見是語言模型運作中難以完全避免的問題，但透過謹慎設計提示、強化資料多元性、以及主動察覺偏誤，就能有效降低其影響。開發者與使用者共同努力，才能讓 AI 回應更具包容性、公平性與可信度。