Models - Sora 介紹

Sora:OpenAI 的文字轉影片創新模型

OpenAI 推出了 Sora,這是一款全新的文字轉影片 AI 模型。Sora 能夠根據文本指令創建長達一分鐘的逼真且富有想像力的場景影片


目錄


核心目標與能力

願景:OpenAI 的目標是建立能夠理解和模擬物理世界運動的 AI 系統,並訓練模型解決需要真實世界互動的問題。

高視覺品質與忠實度:Sora 生成的影片保持高視覺品質,並能忠實遵循用戶的提示指令。

複雜場景生成:能夠生成包含多個角色、不同運動類型和背景的複雜場景,並理解它們之間的關係。

多鏡頭與風格一致性:具備在單一影片中創建多個鏡頭的能力,並在角色和視覺風格上保持一致性。

從圖像生成影片:Sora 還能從給定的圖像生成影片,使其能夠準確地使圖像動畫化。

Prompt:

A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.

Prompt:

A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.

視訊來源: https://openai.com/sora


技術方法

擴散模型:Sora 是一種擴散模型,可以生成完整的影片或擴展已生成的影片。

Transformer 架構:利用 Transformer 架構實現性能擴展。

統一影片生成系統:影片和圖像被表示為「補丁」(patches),類似於 GPT 中的 Token,這使得系統能夠處理更長的時長、更高的解析度和多種長寬比。

DALL·E 3 技術應用:採用了 DALL·E 3 中使用的「重描述 (recaptioning)」技術,使 Sora 更緊密地遵循文本指令。


限制與安全考量

物理模擬限制:Sora 的限制包括在模擬物理和因果關係方面的不足。

空間細節理解:Sora 有時會誤解提示中描述的空間細節和事件(例如:攝影機軌跡)。

安全評估:OpenAI 正在向紅隊成員和創作者開放 Sora,以評估其潛在的危害和能力。


結語

Sora 的推出是文字轉影片領域的一項重大突破,展現了 AI 在生成逼真、複雜且符合指令的影片方面的強大潛力。其利用擴散模型和 Transformer 架構,實現了高視覺品質和多樣化的場景創造。儘管仍面臨物理模擬和空間理解的挑戰,但 Sora 為未來創造性內容生成和虛擬世界模擬開闢了廣闊的前景。


References

Sora


目錄:Models - 模型提示指南

上一篇:Models - Phi-2
下一篇:Models - LLM Collection