Sora:OpenAI 的文字轉影片創新模型
OpenAI 推出了 Sora,這是一款全新的文字轉影片 AI 模型。Sora 能夠根據文本指令創建長達一分鐘的逼真且富有想像力的場景影片。
目錄
核心目標與能力
願景:OpenAI 的目標是建立能夠理解和模擬物理世界運動的 AI 系統,並訓練模型解決需要真實世界互動的問題。
高視覺品質與忠實度:Sora 生成的影片保持高視覺品質,並能忠實遵循用戶的提示指令。
複雜場景生成:能夠生成包含多個角色、不同運動類型和背景的複雜場景,並理解它們之間的關係。
多鏡頭與風格一致性:具備在單一影片中創建多個鏡頭的能力,並在角色和視覺風格上保持一致性。
從圖像生成影片:Sora 還能從給定的圖像生成影片,使其能夠準確地使圖像動畫化。
Prompt:
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
Prompt:
A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.
視訊來源: https://openai.com/sora
技術方法
擴散模型:Sora 是一種擴散模型,可以生成完整的影片或擴展已生成的影片。
Transformer 架構:利用 Transformer 架構實現性能擴展。
統一影片生成系統:影片和圖像被表示為「補丁」(patches),類似於 GPT 中的 Token,這使得系統能夠處理更長的時長、更高的解析度和多種長寬比。
DALL·E 3 技術應用:採用了 DALL·E 3 中使用的「重描述 (recaptioning)」技術,使 Sora 更緊密地遵循文本指令。
限制與安全考量
物理模擬限制:Sora 的限制包括在模擬物理和因果關係方面的不足。
空間細節理解:Sora 有時會誤解提示中描述的空間細節和事件(例如:攝影機軌跡)。
安全評估:OpenAI 正在向紅隊成員和創作者開放 Sora,以評估其潛在的危害和能力。
結語
Sora 的推出是文字轉影片領域的一項重大突破,展現了 AI 在生成逼真、複雜且符合指令的影片方面的強大潛力。其利用擴散模型和 Transformer 架構,實現了高視覺品質和多樣化的場景創造。儘管仍面臨物理模擬和空間理解的挑戰,但 Sora 為未來創造性內容生成和虛擬世界模擬開闢了廣闊的前景。