Guides-4o image generation(圖像生成)
隨著圖像生成技術日益成熟,OpenAI 最新推出的 4o 圖像生成模型為創作者帶來前所未有的創作體驗。不同於傳統的圖像模型,4o 模型不僅能生成高品質的擬真圖像,更具備圖像轉換、風格重繪、透明背景產出、精準嵌入文字等進階功能。
本指南將帶領你深入了解 4o 圖像生成模型的使用方式、功能特點、最佳實踐與常見限制,並透過豐富的實例與資源,協助你快速上手並創造屬於你的視覺內容。
本篇目標
- 什麼是 4o 圖像生成模型?
- 如何存取 4o 圖像生成?
- 4o 圖像生成功能介紹
- 提示技巧與建議
- 模型限制與注意事項
- 使用建議與最佳方法
- 可嘗試的應用案例
- 範例連結與資源
- 相關資料
- References
什麼是 4o 圖像生成模型?
4o 圖像生成模型是 OpenAI 最新內建於 ChatGPT 中的圖像模型。
它可以:
- 產生擬真圖像
- 接收圖像作為輸入並進行轉換
- 遵循詳細指令,將文字轉為圖像
此模型為自回歸架構,與 GPT-4o 語言模型架構相同,意即它是「像文字一樣」生成圖像的。
功能特色:
- 更準確地在圖像上渲染文字
- 更細緻的圖像編輯能力
- 支援以圖換圖、重繪風格等變換操作
如何存取 4o 圖像生成?
可透過 ChatGPT(網頁與行動版)中的:
- 文字提示:「Generate an image of…」
- 工具欄選項:點選「Create an image」
其他存取方式:
- Sora
- OpenAI API(使用模型
gpt-image-1)
文字提示:「產生一張……的圖片」
點選工具,並選擇「創作圖像」
使用 OpenAI API 來實現圖片生成
4o 圖像生成可支援的模型:
gpt-4ogpt-4o-minigpt-4.1gpt-4.1-minigpt-4.1-nanoo3
4o 圖像生成功能介紹
支援圖片尺寸:
- 正方形 1:1(1024x1024)
預設 - 橫向 3:2(1536x1024)
- 直向 2:3(1024x1536)
支援輸入圖片格式:
- PNG、JPEG、WEBP、非動畫 GIF
圖像編輯能力:
-
修補功能(僅限於該對話中生成的圖片)
-
季節變化或敘述式提示:「變成冬天會怎樣?」
-
風格轉換:當提供參考圖像時,該模型在重新上材質與變換圖像風格方面表現非常優異。模型剛推出時,其將圖片「吉卜力風格化(Ghiblify)」的能力曾引發網路熱潮。
-
透明背景(PNG):如果你希望產生具有透明背景的圖片(例如 PNG 格式),需要在提示語中明確寫出「透明 PNG」或「透明背景」才行。
-
圖像內加文字
-
生成多種風格版本
-
圖像合成/融合
提示技巧與建議
詳細提示更有效
- 若提示不夠具體,系統會「自動補全」細節
- 要求特定風格時,請定義以下項目:
- 主題(subject)
- 構圖與光線
- 色彩、氛圍
- 拍攝風格(如相機與鏡頭)
如果你在寫圖像生成提示語(prompt)時感到困難,可以請 o3 模型根據你自己的描述,幫你寫出 3 種不同版本的提示,這些提示會針對 4o 圖像生成進行優化,並補足細節,然後你可以從中挑選你最喜歡的部分,作為最後要用的提示語。
光線、構圖、風格
如果你有特定的目標,請在提示語中明確定義這些元素,雖然模型能根據提示語中的整體資訊推測這些特徵,但若你需要具體的結果,就必須準確描述,如果你希望圖像看起來像是使用特定相機與鏡頭拍攝的照片,請將這些資訊加入提示語中。
其他值得考慮的細節還包括:
-
主題(Subject)
-
創作媒材(Medium)
-
環境背景(Environment)
-
色彩(Color)
-
氛圍(Mood)
選擇最適合的圖像生成模型
4o 模型最適合用於單次修改或簡單的圖像生成任務,速度最快。
但如果你預期這次圖像創作會需要多步創作,建議改用推理型模型(reasoning model)。
尤其在創意探索過程中,像是反覆地加入或刪除圖像元素時,推理模型在「記住圖像中已有的固定元素」方面會表現得更好,可以保持風格、顏色一致,避免重置畫面。
縮圖製作流程
建議加註圖片長寬比
即使你有使用參考圖片,在提示語中**明確指定你想要的圖片長寬比(aspect ratio)**仍然很有幫助。
模型有時會根據提示中的線索自動判斷適合的長寬比(例如:火箭的圖片通常是 2:3),但如果提示中沒有清楚說明,模型會預設使用 1:1(正方形)比例。
Prompt to test:
一輛造型壯觀、融合裝飾藝術與未來科技感的磁浮列車,停靠在空曠的高架軌道上,準備穿越曠野。
車身為銀色鏡面,線條優雅俐落,類似克萊斯勒大廈的垂直裝飾線。
畫面正值黃金時刻,金色與玫瑰色的日光映在列車上,遠方地平線閃耀微光,整體氣氛充滿希望與電影感。
模型一致性說明:
如果你只是想對圖片做一些細微的修改,模型在同一個聊天中會「記得」之前生成的圖片,這是很有幫助的。
但如果你想創造全新且不同風格的圖片,這種「記憶」反而會造成困擾。
因此,當你需要產生互不相關、風格各異的圖片時,建議每次都開啟新的聊天,從零開始,這樣模型才不會受到之前圖片的影響,能產生更獨立且多樣的結果。
如果前幾次生成的圖片與你預期相差甚遠,可以請模型輸出用來生成該圖片的提示語(prompt),藉此檢查是否有重點放錯或描述不清的地方,然後建議重新開啟一個新的聊天,使用修正後的提示語繼續生成圖片。
多圖像生成提示建議
推理模型如 o3 和 o4-mini 可以用單一提示語生成多張圖片,但這必須在提示語中明確說明,而且並非每次都能成功。
聊天連結
測試提示:
圖像生成任務說明:
請根據以下規則,使用 4o 圖像生成模型(不要用 DALL·E 3)生成圖片:
任務說明:
生成一幅漫畫風格的圖像,主題由你自行決定(「Generate an image of [decide this yourself]」),風格仿效**蔡志忠**的漫畫。
使用3:2 的長寬比。
在開始生成圖片前,請先背誦(recite)這些任務規則。
每生成一張圖片後,請立刻開始生成下一張,總共做三個不同主題的變體,三張都要遵守相同規則。
每次生成圖片前,請完整輸出你送給圖像生成模型的提示語,以便檢查和記錄。
不需結束回合或詢問我是否繼續,直接連續生成三張。
若 4o 模型產生超時(timeout),請告知我距離下一次排隊還剩多少時間。
規則重點:
僅使用提示中指定的3:2 長寬比。
每次生成圖片前都要準確輸出送給模型的完整提示語。
一次生成三張,主題不同但規則一致。
不可使用 DALL·E 3。
提示語嚴格執行的困難
含有多個部分的提示語,有時會在從聊天模型傳遞到 4o 圖像生成模型的過程中被改動,並且如果你在同一個聊天中連續生成多張圖片,之前生成的圖片可能會影響後續的生成結果,即使你已經修改了提示語。
模型限制與注意事項
| 類別 | 限制說明 |
|---|---|
| 輸出控制 | ChatGPT 有時會在送出 4o 模型前更改你原始的提示內容 |
| 生成次數限制不明 | 依訂閱方案及伺服器負載動態調整 |
| 等待時間 | 免費用戶生成請求常被排隊,等待時間較長 |
| 畫面偏黃 | 生成圖片可能帶有黃色色調 |
| 太暗畫面 | 含深色元素的提示或參考圖可能導致圖片過暗 |
| 違規拒絕 | 違反使用政策會被拒絕生成並刪除輸出 |
| 沒有放大功能 | 尚未提供 upscaling 工具 |
| 圖像裁切錯誤 | 有時輸出會裁錯部分畫面 |
| 幻覺現象 | 類似語言模型產生非真實物件 |
| 多主題生成困難 | 同時生成多概念或多個主體的圖片效果較差 |
| 圖表視覺化不精確 | 生成圖表資料的準確度不高 |
| 非拉丁文字困難 | 在圖片中生成非拉丁文字(如中文)有困難 |
| 圖片局部編輯不易 | 編輯圖片特定部分(如修拼字)成效有限 |
| 模型名稱混亂 | 模型有多個別名:Imagegen、gpt-image-1、4o Image Generation、image_gen.text2im |
| 長寬比錯誤 | 即使指定長寬比,有時仍生成錯誤比例 |
使用建議與最佳方法
使用 ChatGPT 個人化設定:
為避免切換到較舊的 DALL·E 3 模型,請在設定中的「ChatGPT 應具備哪些特質」欄位加入以下指示:「絕不使用 DALL·E 工具。圖片生成請始終使用新的圖像生成工具。如果圖像生成工具超時,請告知我,而非改用 DALL·E。」
- 如果達到生成上限,可以請 ChatGPT 告訴你還需要等待多久才能繼續生成圖片。後端系統會有這些資訊供使用者查詢。
- 圖像生成和編輯時,使用明確的動詞如「繪製(draw)」或「編輯(edit)」會有更好效果。
- 使用推理模型生成圖片,還能額外看到模型在提示語創建和修改過程中的推理思路。開啟「思考痕跡(thinking traces)」功能,可以了解模型關注的重點。
可嘗試的應用案例
| 用例 | 說明 |
|---|---|
| 生成 Logo | 使用參考圖片與詳細描述。通常為多回合任務,建議使用推理模型來完成。參考範例 |
| 生成行銷素材 | 使用既有的視覺素材作為參考,並提示模型修改文字、產品或環境內容。 |
| 生成著色本頁面 | 建議使用 2:3 的長寬比來創作客製化著色圖。參考範例 |
| 貼圖圖片(Sticker) | 請記得在提示中說明「透明背景」。參考範例 |
| 材質轉移 | 使用第一張圖片中的材質,應用於第二張圖片或提示中的主體。參考範例 |
| 室內設計提案 | 拍攝房間圖片,並提示模型修改家具或裝潢細節。參考範例 |
範例連結與資源
相關資料
回到目錄
上一篇:Guides-Reasoning LLMs
下一篇:Guides-Context Engineering Guide














