Applications - Context Caching with LLMs

使用 Gemini 1.5 Flash 進行上下文緩存

前言

Google最近發布了一項名為內容快取可透過 Gemini API 透過 Gemini 1.5 Pro 和 Gemini 1.5 Flash 型號取得。本指南提供如何搭配 Gemini 1.5 Flash 使用內容快取的基本範例。


本篇目標


影片內容:

CONTEXT CATCHING with LLMs


https://youtu.be/987Pd89EDPs?si=j43isgNb0uwH5AeI


影片內容整理:


應用場景:分析大規模文本資料

  1. 示範將一整年 ML ( Machine Learning) 論文的摘要轉換為純文字上傳

  2. 藉此建立快取,再進行自然語言查詢

  • 操作流程:兩步驟搞定:
  1. 資料準備:將所有摘要資料整合成純文字檔

  2. 上傳與建立快取:使用 generativeai 套件的 caching.CachedContent.create() 方法,可以指定模型、命名快取內容、加入指令


使用範例 : 分析一年的機器學習論文

這份指南說明了如何運用上下文快取來分析我們在過去一年中記錄的所有機器學習(ML)論文摘要。這些摘要儲存在一個文字檔中,現在可以饋送給 Gemini 1.5 Flash 模型,並進行高效查詢。


處理流程:上傳、快取與查詢

  1. 資料準備:首先將自述檔案(包含摘要)轉換為純文字檔案。

  2. 使用 Gemini API:您可以使用Google generativeai庫上傳文字檔案。

  3. 實現上下文快取:使用caching.CachedContent.create()函式建立快取。 這涉及到:

    • 指定 Gemini Flash 1.5 模型。

    • 為快取提供一個名稱。

    • 定義模型的指令(例如,「您是一位人工智慧研究人員專家…」)。

    • 為快取設定生存時間(TTL)(例如,15分鐘)。

  4. 建立模型:然後我們使用快取的內容建立一個生成模型例項。

  5. 查詢:我們可以開始用自然語言問題查詢模型,例如:

    • 「你能告訴我本週最新的人工智慧論文嗎?」

    • 「你能列出提到曼巴的論文嗎? 列出論文的標題和摘要。」

    • 「關於長上下文LLM有哪些創新? 列出論文的標題和摘要。」

結果很有希望。 該模型準確地從文字檔案中檢索並總結了資訊。 事實證明,上下文快取非常高效,消除了在每次查詢中反覆傳送整個文字檔案的需要。

這個工作流程有可能成為研究人員的寶貴工具,允許他們:

  • 快速分析和查詢大量研究資料。

  • 無需手動搜尋文件即可檢索特定結果。

  • 在不浪費提示令牌的情況下進行互動式研究會議。

我們很高興探索上下文快取的進一步應用,特別是在代理工作流程等更復雜的場景中。


References

Context Caching with Gemini 1.5 Flash


目錄 : Applications - 大型語言模型應用和指南

上一篇 : Applications - 函數呼叫
下一篇 : Applications - 生成數據