Models - Gemini 1.5 Pro 介紹

ben · 2025年07月31日07:07

Gemini 1.5 Pro：超長上下文與多模態深度理解

此指南介紹了 Google 的 Gemini 1.5 Pro ，這是一個計算效率高的多模態專家混合模型 (MoE)，專注於對長篇內容進行召回和推理的能力。

介紹

Google 推出了 Gemini 1.5 Pro，這是一款高效能的多模態「專家混合模型」（MoE），其核心能力在於對超長內容的召回和推理。該模型能夠處理潛在數百萬個 Token 的長文件，包括數小時的影片和音頻。

核心技術

長上下文窗口：支援20萬個 Token的上下文窗口，並可為部分客戶擴展至100萬個 Token，這是目前任何可用大型語言模型中最大的上下文窗口。它甚至能實現高達1000萬個 Token的近乎完美（>99%）的檢索。

多模態處理：支援音頻、圖像、文本和程式碼在同一輸入序列中混合輸入。

稀疏專家混合架構(Sparse Mixture-of-Experts)：基於 Gemini 1.0 的多模態能力構建，MoE 的好處在於模型總參數可以增加，而活化參數的數量保持不變，使其在推理時更高效。

卓越性能：在長文件問答 (long-document QA)、長影片問答 (long-video QA) 和長上下文語音辨識 (long-context ASR) 方面提升了最先進的性能。它在標準基準測試中匹配或超越了 Gemini 1.0 Ultra。

「大海撈針」召回：在所有模態（文本、影片、音頻）下，實現了高達100萬個 Token 的近乎完美「大海撈針」召回率。這意味著它能處理約 22 小時的錄音、10 本 1440 頁的書籍、整個程式碼庫或 3 小時每秒 1 幀的影片。

主要能力

長文件分析：能夠上傳和分析整個 PDF 文件，並從中回答問題，甚至跨多個 PDF 文件提取信息。

影片理解：具備影片理解能力，例如總結演講、提供簡明大綱、從影片中提取表格信息、以及根據特定場景或時間戳檢索詳細信息。但需注意，在處理特定細節時，模型有時仍可能產生「幻覺」或檢索到錯誤資訊。

程式碼推理：憑藉其長上下文推理能力，Gemini 1.5 Pro可以回答有關程式碼庫的問題，例如在整個 JAX 程式碼庫中識別核心自動微分方法的位置。

小語種翻譯：可透過提供語法手冊（包含語言文檔、字典和平行句子）來學習翻譯小語種，例如從英語翻譯成 Kalamang 語，展現了其語境學習能力。

image692×248 34.3 KB

圖片來源 : Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context

結語

Gemini 1.5 Pro 以其領先業界的超長上下文窗口和強大的多模態推理能力脫穎而出。它不僅能高效處理巨量文本和音視頻數據，還能進行跨模態的深度分析和推理，為文件問答、程式碼理解和影片分析等應用開啟了前所未有的可能性。儘管在處理特定細節時仍需注意潛在的幻覺，Gemini 1.5 Pro 無疑是推動 AI 應用邊界的重要里程碑。

References

Gemini 1.5 Pro

目錄：Models - 模型提示指南

上一篇：Models - Gemini Advanced
下一篇：Models - Gemma