Models - Sora 介紹

ben · 2025年07月31日08:39

Sora：OpenAI 的文字轉影片創新模型

OpenAI 推出了 Sora，這是一款全新的文字轉影片 AI 模型。Sora 能夠根據文本指令創建長達一分鐘的逼真且富有想像力的場景影片。

核心目標與能力

願景：OpenAI 的目標是建立能夠理解和模擬物理世界運動的 AI 系統，並訓練模型解決需要真實世界互動的問題。

高視覺品質與忠實度：Sora 生成的影片保持高視覺品質，並能忠實遵循用戶的提示指令。

複雜場景生成：能夠生成包含多個角色、不同運動類型和背景的複雜場景，並理解它們之間的關係。

多鏡頭與風格一致性：具備在單一影片中創建多個鏡頭的能力，並在角色和視覺風格上保持一致性。

從圖像生成影片：Sora 還能從給定的圖像生成影片，使其能夠準確地使圖像動畫化。

Prompt:

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

Prompt:

A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

視訊來源: https://openai.com/sora

技術方法

擴散模型：Sora 是一種擴散模型，可以生成完整的影片或擴展已生成的影片。

Transformer 架構：利用 Transformer 架構實現性能擴展。

統一影片生成系統：影片和圖像被表示為「補丁」(patches)，類似於 GPT 中的 Token，這使得系統能夠處理更長的時長、更高的解析度和多種長寬比。

DALL·E 3 技術應用：採用了 DALL·E 3 中使用的「重描述 (recaptioning)」技術，使 Sora 更緊密地遵循文本指令。

限制與安全考量

物理模擬限制：Sora 的限制包括在模擬物理和因果關係方面的不足。

空間細節理解：Sora 有時會誤解提示中描述的空間細節和事件（例如：攝影機軌跡）。

安全評估：OpenAI 正在向紅隊成員和創作者開放 Sora，以評估其潛在的危害和能力。

結語

Sora 的推出是文字轉影片領域的一項重大突破，展現了 AI 在生成逼真、複雜且符合指令的影片方面的強大潛力。其利用擴散模型和 Transformer 架構，實現了高視覺品質和多樣化的場景創造。儘管仍面臨物理模擬和空間理解的挑戰，但 Sora 為未來創造性內容生成和虛擬世界模擬開闢了廣闊的前景。

References

Sora

目錄：Models - 模型提示指南

上一篇：Models - Phi-2
下一篇：Models - LLM Collection