Models - GPT-4 介紹

GPT-4:多模態、可控性與進階功能

本篇旨在介紹 OpenAI 的大型多模態模型 GPT-4 ,它能接受圖像和文字輸入並輸出文字,在各種專業和學術基準測試中達到人類水平的表現。


目錄


主要能力與技術亮點

卓越基準表現:在模擬律師資格考試中,GPT-4 的得分可排名前 10%,在 MMLU 和 HellaSwag 等困難基準測試中也表現出色。

改進的真實性與可控性:受益於對抗性測試計畫和 ChatGPT 的經驗,GPT-4 在真實性、可控性和對齊方面有所改善。

GPT-4 Turbo

  • 最新版本,改進了指令遵循、JSON 模式、可重現輸出和並行函數調用等功能。

  • 擁有 128K 的上下文窗口,單個提示可容納超過 300 頁的文本。

  • 訓練數據截止日期為 2023 年 4 月。

視覺能力:API 目前僅支援文本輸入,但未來計畫支援圖像輸入。GPT-4 可以透過少樣本提示和思維鏈提示等技術來提升圖像相關任務的效能。例如,它可以根據圖表中的視覺輸入和文本指令進行多步推理。

指令:

喬治亞和西亞的平均每日肉類消費量總和是多少?請提供逐步的推理,然後給出答案。

圖像輸入:

模型輸出:

為了找到喬治亞和西亞的平均每日肉類消費量總和,我們將遵循以下步驟:
1. 確定喬治亞的平均每日肉類消費量。
2. 確定西亞的平均每日肉類消費量。
3. 將步驟 1 和 2 中的數值相加。
步驟 1:從提供的圖表中,我們看到格魯吉亞的平均每日肉類消費量為每人每天 79.84 克。
步驟 2:從圖表中我們可以看到西亞的平均每日肉類消費量為每人每天69.62克。
步驟 3:將步驟 1 和步驟 2 的數值相加。
79.84 克(喬治亞)+ 69.62 克(西亞)= 149.46 克
因此,喬治亞和西亞的平均每日肉類消費量總和為每人每天149.46克。

可控性(Steering):可以透過「系統 (system)」訊息來引導模型以特定語氣和風格提供答案,實現一致的結果和行為。

系統(system):你是一位 AI 編輯助理,所有回應都必須使用 Markdown 格式來呈現內容,包括標題與段落格式。
使用者(user):請幫我產生一篇關於如何提高工作效率的文章,內含 3 個小技巧,並且有主標題與每個技巧的小標題。

模型輸出:

# 提高工作效率的 3 個實用技巧
## 1. 實施番茄鐘工作法
將工作分成 25 分鐘一段的「專注時間」,中間穿插 5 分鐘休息,有助於提升專注力與效率。
## 2. 每日三件最重要的事
每天早上列出今天必須完成的三件大事,優先處理,避免被瑣事拖累。
## 3. 善用任務管理工具
如 Todoist、Notion 等工具可以幫助你規劃日程,追蹤進度,減少遺漏。

文本生成應用:可用於起草文件、編寫程式碼、回答知識庫問題、分析文本、提供自然語言介面、輔導各學科、翻譯語言、模擬遊戲角色等。


API特性

聊天補全 (Chat Completions):支援多輪和單輪互動,接受一系列角色訊息(系統、使用者、助手)作為輸入。模型不保留記憶,依賴提供的歷史紀錄生成回應。

JSON 模式:為了確保輸出為有效的 JSON,可將 response_format 設置為 { type: “json_object” },並在系統訊息中包含「JSON」字樣。

可重現輸出:透過設定 seed 參數和確保其他參數一致,可實現(大部分)確定性輸出。system_fingerprint 欄位用於追蹤模型配置的變更。

函數調用 (Function Calling):模型可智慧地輸出包含函數參數的 JSON 對象,供外部程式碼調用。支援並行函數調用。

  • 常見用例:透過外部 API 回答問題、將自然語言轉換為 API 調用、從文本中提取結構化數據。

  • 步驟:調用模型、解析 JSON、調用函數、將函數回應作為新訊息再次調用模型。

  • 風險提示:OpenAI 強烈建議在代表用戶執行實際操作(如發送電子郵件、進行購買)之前,建立用戶確認流程。


限制與改進策略

幻覺與推理錯誤:GPT-4 仍可能產生幻覺並犯推理錯誤,不建議用於高風險用途。

數據截止點:模型數據截止點為 2021 年 9 月,缺乏此後發生的事件知識。

改進策略:透過添加「一步步思考 (Think step-by-step)」的指令或設定系統訊息,可以潛在提升某些用例的準確性。

使用者:哪位知名人物曾在 1963 年的華盛頓大遊行中發表了著名的「我有一個夢想」演說?
模型:林肯總統。

這是錯誤答案。正確答案應是馬丁·路德·金博士(Martin Luther King Jr.)。這個例子突顯了語言模型在面對歷史類知識問題時,仍可能出現「幻覺」(hallucination)或推理失誤。

我們修改了提示詞,加上「請逐步思考再作答」以鼓勵模型進行邏輯推理。

使用者:哪位知名人物曾在 1963 年的華盛頓大遊行中發表了著名的「我有一個夢想」演說?請逐步思考後再給出答案。
模型:
1.題目提到 1963 年的華盛頓大遊行。
2.這是美國歷史上著名的民權運動活動。
3.提到的演講是「我有一個夢想」。
4.根據常識,該演講是由馬丁·路德·金博士發表的。

除了「逐步推理(Chain-of-Thought)」外,還可以嘗試以下方法進一步提升準確率:

  • 系統提示控制:使用系統訊息引導模型,例如:
系統提示:你是一位謹慎且重視正確答案的 AI,如果不確定答案,請誠實地回答「我不知道」。
  • 設定溫度值為 0:可以讓模型更確定地生成答案,降低「胡亂猜測」的機率。

這類錯誤案例提醒我們:即使是強大的模型如 GPT-4,在特定任務上仍需輔助策略才能保證可靠性。對於知識密集或高風險領域,應考慮結合檢索系統(如 RAG)或加強資料校驗流程。


結語

GPT-4 是 OpenAI 開發的一款突破性多模態 AI 模型,以其在專業和學術基準上的人類級表現、強大的可控性、以及對 JSON 模式和函數調用等先進 API 功能的支援而聞名。儘管它仍有幻覺和數據截止點的限制,但其在文本生成、視覺理解和複雜任務處理上的能力,使其成為當前最頂尖且應用廣泛的大型語言模型之一。


References

GPT-4


目錄:Models - 模型提示指南

上一篇:Models - Gemma
下一篇:Models - Grok-1