Guides-4o image generation(圖像生成)

Guides-4o image generation(圖像生成)


隨著圖像生成技術日益成熟,OpenAI 最新推出的 4o 圖像生成模型為創作者帶來前所未有的創作體驗。不同於傳統的圖像模型,4o 模型不僅能生成高品質的擬真圖像,更具備圖像轉換、風格重繪、透明背景產出、精準嵌入文字等進階功能。

本指南將帶領你深入了解 4o 圖像生成模型的使用方式、功能特點、最佳實踐與常見限制,並透過豐富的實例與資源,協助你快速上手並創造屬於你的視覺內容。


本篇目標


什麼是 4o 圖像生成模型?

4o 圖像生成模型是 OpenAI 最新內建於 ChatGPT 中的圖像模型。

它可以:

  • 產生擬真圖像
  • 接收圖像作為輸入並進行轉換
  • 遵循詳細指令,將文字轉為圖像

此模型為自回歸架構,與 GPT-4o 語言模型架構相同,意即它是「像文字一樣」生成圖像的。

功能特色:

  • 更準確地在圖像上渲染文字
  • 更細緻的圖像編輯能力
  • 支援以圖換圖、重繪風格等變換操作

如何存取 4o 圖像生成?

可透過 ChatGPT(網頁與行動版)中的:

  • 文字提示:「Generate an image of…」
  • 工具欄選項:點選「Create an image」

其他存取方式:

  • Sora
  • OpenAI API(使用模型 gpt-image-1

文字提示:「產生一張……的圖片」

點選工具,並選擇「創作圖像」

使用 OpenAI API 來實現圖片生成

4o 圖像生成可支援的模型:

  • gpt-4o
  • gpt-4o-mini
  • gpt-4.1
  • gpt-4.1-mini
  • gpt-4.1-nano
  • o3

4o 圖像生成功能介紹

支援圖片尺寸:

  • 正方形 1:1(1024x1024):small_blue_diamond:預設
  • 橫向 3:2(1536x1024)
  • 直向 2:3(1024x1536)

支援輸入圖片格式:

  • PNG、JPEG、WEBP、非動畫 GIF

圖像編輯能力:


提示技巧與建議

詳細提示更有效

  • 若提示不夠具體,系統會「自動補全」細節
  • 要求特定風格時,請定義以下項目:
    • 主題(subject)
    • 構圖與光線
    • 色彩、氛圍
    • 拍攝風格(如相機與鏡頭)

如果你在寫圖像生成提示語(prompt)時感到困難,可以請 o3 模型根據你自己的描述,幫你寫出 3 種不同版本的提示,這些提示會針對 4o 圖像生成進行優化,並補足細節,然後你可以從中挑選你最喜歡的部分,作為最後要用的提示語。

光線、構圖、風格

如果你有特定的目標,請在提示語中明確定義這些元素,雖然模型能根據提示語中的整體資訊推測這些特徵,但若你需要具體的結果,就必須準確描述,如果你希望圖像看起來像是使用特定相機與鏡頭拍攝的照片,請將這些資訊加入提示語中。

其他值得考慮的細節還包括:

  • 主題(Subject)

  • 創作媒材(Medium)

  • 環境背景(Environment)

  • 色彩(Color)

  • 氛圍(Mood)

選擇最適合的圖像生成模型

4o 模型最適合用於單次修改或簡單的圖像生成任務,速度最快。
但如果你預期這次圖像創作會需要多步創作,建議改用推理型模型(reasoning model)。
尤其在創意探索過程中,像是反覆地加入或刪除圖像元素時,推理模型在「記住圖像中已有的固定元素」方面會表現得更好,可以保持風格、顏色一致,避免重置畫面。
縮圖製作流程

建議加註圖片長寬比

即使你有使用參考圖片,在提示語中**明確指定你想要的圖片長寬比(aspect ratio)**仍然很有幫助。
模型有時會根據提示中的線索自動判斷適合的長寬比(例如:火箭的圖片通常是 2:3),但如果提示中沒有清楚說明,模型會預設使用 1:1(正方形)比例。

Prompt to test:

一輛造型壯觀、融合裝飾藝術與未來科技感的磁浮列車,停靠在空曠的高架軌道上,準備穿越曠野。
車身為銀色鏡面,線條優雅俐落,類似克萊斯勒大廈的垂直裝飾線。
畫面正值黃金時刻,金色與玫瑰色的日光映在列車上,遠方地平線閃耀微光,整體氣氛充滿希望與電影感。

模型一致性說明:

如果你只是想對圖片做一些細微的修改,模型在同一個聊天中會「記得」之前生成的圖片,這是很有幫助的。
但如果你想創造全新且不同風格的圖片,這種「記憶」反而會造成困擾。
因此,當你需要產生互不相關、風格各異的圖片時,建議每次都開啟新的聊天,從零開始,這樣模型才不會受到之前圖片的影響,能產生更獨立且多樣的結果。

如果前幾次生成的圖片與你預期相差甚遠,可以請模型輸出用來生成該圖片的提示語(prompt),藉此檢查是否有重點放錯或描述不清的地方,然後建議重新開啟一個新的聊天,使用修正後的提示語繼續生成圖片。

多圖像生成提示建議

推理模型如 o3 和 o4-mini 可以用單一提示語生成多張圖片,但這必須在提示語中明確說明,而且並非每次都能成功。
聊天連結

測試提示:

圖像生成任務說明:
請根據以下規則,使用 4o 圖像生成模型(不要用 DALL·E 3)生成圖片:

任務說明:
生成一幅漫畫風格的圖像,主題由你自行決定(「Generate an image of [decide this yourself]」),風格仿效**蔡志忠**的漫畫。
使用3:2 的長寬比。
在開始生成圖片前,請先背誦(recite)這些任務規則。
每生成一張圖片後,請立刻開始生成下一張,總共做三個不同主題的變體,三張都要遵守相同規則。
每次生成圖片前,請完整輸出你送給圖像生成模型的提示語,以便檢查和記錄。
不需結束回合或詢問我是否繼續,直接連續生成三張。
若 4o 模型產生超時(timeout),請告知我距離下一次排隊還剩多少時間。

規則重點:
僅使用提示中指定的3:2 長寬比。
每次生成圖片前都要準確輸出送給模型的完整提示語。
一次生成三張,主題不同但規則一致。
不可使用 DALL·E 3。

提示語嚴格執行的困難

含有多個部分的提示語,有時會在從聊天模型傳遞到 4o 圖像生成模型的過程中被改動,並且如果你在同一個聊天中連續生成多張圖片,之前生成的圖片可能會影響後續的生成結果,即使你已經修改了提示語。


模型限制與注意事項

類別 限制說明
輸出控制 ChatGPT 有時會在送出 4o 模型前更改你原始的提示內容
生成次數限制不明 依訂閱方案及伺服器負載動態調整
等待時間 免費用戶生成請求常被排隊,等待時間較長
畫面偏黃 生成圖片可能帶有黃色色調
太暗畫面 含深色元素的提示或參考圖可能導致圖片過暗
違規拒絕 違反使用政策會被拒絕生成並刪除輸出
沒有放大功能 尚未提供 upscaling 工具
圖像裁切錯誤 有時輸出會裁錯部分畫面
幻覺現象 類似語言模型產生非真實物件
多主題生成困難 同時生成多概念或多個主體的圖片效果較差
圖表視覺化不精確 生成圖表資料的準確度不高
非拉丁文字困難 在圖片中生成非拉丁文字(如中文)有困難
圖片局部編輯不易 編輯圖片特定部分(如修拼字)成效有限
模型名稱混亂 模型有多個別名:Imagegen、gpt-image-1、4o Image Generation、image_gen.text2im
長寬比錯誤 即使指定長寬比,有時仍生成錯誤比例

使用建議與最佳方法

使用 ChatGPT 個人化設定:
為避免切換到較舊的 DALL·E 3 模型,請在設定中的「ChatGPT 應具備哪些特質」欄位加入以下指示:

「絕不使用 DALL·E 工具。圖片生成請始終使用新的圖像生成工具。如果圖像生成工具超時,請告知我,而非改用 DALL·E。」

  • 如果達到生成上限,可以請 ChatGPT 告訴你還需要等待多久才能繼續生成圖片。後端系統會有這些資訊供使用者查詢。
  • 圖像生成和編輯時,使用明確的動詞如「繪製(draw)」或「編輯(edit)」會有更好效果。
  • 使用推理模型生成圖片,還能額外看到模型在提示語創建和修改過程中的推理思路。開啟「思考痕跡(thinking traces)」功能,可以了解模型關注的重點。

可嘗試的應用案例

用例 說明
生成 Logo 使用參考圖片與詳細描述。通常為多回合任務,建議使用推理模型來完成。參考範例
生成行銷素材 使用既有的視覺素材作為參考,並提示模型修改文字、產品或環境內容。
生成著色本頁面 建議使用 2:3 的長寬比來創作客製化著色圖。參考範例
貼圖圖片(Sticker) 請記得在提示中說明「透明背景」。參考範例
材質轉移 使用第一張圖片中的材質,應用於第二張圖片或提示中的主體。參考範例
室內設計提案 拍攝房間圖片,並提示模型修改家具或裝潢細節。參考範例

範例連結與資源


相關資料


回到目錄
上一篇:Guides-Reasoning LLMs
下一篇:Guides-Context Engineering Guide


References

Prompt Engineering Guide_Guides 4o-image-generation