LLM Research Findings - Infini-Attention

無限上下文的高效處理:Infini-Transformer 簡介

影片介紹:Efficient Infinite Context Transformers

由 Google Research 團隊提出的新研究,探索如何讓大型語言模型(LLMs)處理「無限長度的輸入」,同時保持計算與記憶的效率。


為什麼需要 Infini-Transformer?

隨著 LLM 應用於長對話、文件摘要、持續學習等場景,模型需要能夠:

  • 處理極長的輸入(數十萬字以上)
  • 記得先前的重要資訊
  • 不讓記憶空間與計算成本爆炸

解決方案:Infini-attention 機制

研究提出了一個新技術 Infini-attention,結合兩種注意力機制:

  1. 短期注意力(Causal Scaled Dot-Product Attention)

    • 處理當下區塊的上下文(局部依賴)
    • 保留精細細節
  2. 長期壓縮記憶(Compressive Memory + 線性注意力)

    • 將過往資訊壓縮儲存
    • 以線性方式檢索重要記憶(避免隨長度線性成長)

:bar_chart: 如圖所示:


:rocket: 實驗成果與亮點

  • 記憶壓縮比可達 114 倍,極大節省記憶空間。
  • 1B 參數模型 可處理長達 100 萬 token 的輸入。
  • 8B 模型50 萬字的書籍摘要任務中創下新 SOTA(最佳表現)
  • 單一 Transformer Block 同時處理短期與長期記憶,提升推理能力與上下文連貫性。

:light_bulb: 初學者可以怎麼理解這項技術?

類比 傳統 Transformer Infini-Transformer
人類記憶 只能記住眼前幾句話 擁有短期記憶 + 長期記憶
注意力操作 記得所有過往資料,成本高 精選重要資訊壓縮儲存,記憶成本低
應用場景 對話可能斷線、記憶破碎 長篇對話、文件摘要、計畫推理更穩定

小結

Infini-Transformer 是邁向 高效長上下文 LLM 的關鍵一步。
它的壓縮記憶機制讓模型能記得更多、理解更深,為推理、規劃、持續學習開啟新可能。


References

Efficient Infinite Context Transformers


目錄:LLM Research Findings - 簡介

上一篇:LLM Research Findings - ThoughtSculpt (思維雕刻)
下一篇:LLM Research Findings - LM-Guided CoT(小模型引導的大模型推理)