Applications - Context Caching with LLMs

Bob · 2025年07月31日07:07

使用 Gemini 1.5 Flash 進行上下文緩存

Google最近發布了一項名為內容快取可透過 Gemini API 透過 Gemini 1.5 Pro 和 Gemini 1.5 Flash 型號取得。本指南提供如何搭配 Gemini 1.5 Flash 使用內容快取的基本範例。

資料準備：將所有摘要資料整合成純文字檔
上傳與建立快取：使用 generativeai 套件的 caching.CachedContent.create() 方法，可以指定模型、命名快取內容、加入指令

這份指南說明了如何運用上下文快取來分析我們在過去一年中記錄的所有機器學習(ML)論文摘要。這些摘要儲存在一個文字檔中，現在可以饋送給 Gemini 1.5 Flash 模型，並進行高效查詢。

資料準備：首先將自述檔案（包含摘要）轉換為純文字檔案。
使用 Gemini API：您可以使用Google generativeai庫上傳文字檔案。
實現上下文快取：使用caching.CachedContent.create()函式建立快取。這涉及到：
- 指定 Gemini Flash 1.5 模型。
- 為快取提供一個名稱。
- 定義模型的指令（例如，「您是一位人工智慧研究人員專家…」）。
- 為快取設定生存時間（TTL）（例如，15分鐘）。
建立模型：然後我們使用快取的內容建立一個生成模型例項。
查詢：我們可以開始用自然語言問題查詢模型，例如：
- 「你能告訴我本週最新的人工智慧論文嗎？」
- 「你能列出提到曼巴的論文嗎？列出論文的標題和摘要。」
- 「關於長上下文LLM有哪些創新？列出論文的標題和摘要。」

結果很有希望。該模型準確地從文字檔案中檢索並總結了資訊。事實證明，上下文快取非常高效，消除了在每次查詢中反覆傳送整個文字檔案的需要。

這個工作流程有可能成為研究人員的寶貴工具，允許他們：

我們很高興探索上下文快取的進一步應用，特別是在代理工作流程等更復雜的場景中。