LLM Research Findings - 什麼是 Groq?

vincent · 2025年08月01日00:55

什麼是 Groq

Groq 是目前在 LLM（大型語言模型）推理 領域中最受關注的公司之一，因為它提供了 極快的推理速度。在 AI 應用中，降低延遲（Latency） 是非常關鍵的，這能讓 AI 反應更即時、體驗更流暢。因此，許多公司正在競爭誰能在推理（Inference）上做到更快、更高

超快的推理速度
根據 Anyscale 的 LLMPerf Leaderboard，Groq 的推理效能可比其他頂級雲端服務商 快 18 倍。
支援主流開源模型
Groq 提供 Meta AI 的 Llama 2 70B 和 Mixtral 8x7B 模型，並透過 API 供開發者使用。
專屬硬體：LPU™
Groq 的高速性能來自於它自行研發的 LPU (Language Processing Unit) —— 一種專為運行 LLM 而設計的定制硬體推理引擎。

可以把 Groq 的 LPU 想像成是「專為 LLM 計算優化的 AI 加速晶片」，就像 GPU 專為圖形處理而生。
它的特點是：

以下是各模型的速度和價格圖表：

這張圖展示了各大 大型語言模型推理服務商 在執行 Llama 2 70B 模型 時的 輸出速度（每秒回傳 token 數量，tokens/s），藉此比較它們的效能。

排名	推理服務商	平均速度（tokens/s）	說明
1	Groq	185	遠高於所有其他對手，展現 LPU 硬體優勢
2	Replicate	65	表現穩定但仍遠低於 Groq
3	Anyscale	66	中等偏上表現，屬主流雲服務
4	Bedrock (AWS)	21	AWS 雲端服務，速度較慢
5	Fireworks.ai	40	略優於 Bedrock，但仍不及 Groq/Anyscale
6	Lepton.ai	33	中等水準
7	Perplexity.ai	30	與 Lepton 相近
8	Together.ai	10	明顯速度偏慢

這張圖展示的是不同 LLM 推理服務商在 「首次 Token 回應時間（TTFT, Time To First Token）」 的表現。這個指標非常關鍵，尤其對於 即時串流應用（如語音助理、即時問答），決定了使用者「多久開始看到第一個字」。

排名	推理服務商	平均 TTFT	速度評價
1	Anyscale	0.21s	極快
2	Groq	0.22s	極快，緊追 Anyscale
3	Bedrock (AWS)	0.39s	快速
4	Perplexity.ai	0.37s	中等偏快
5	Fireworks.ai	0.51s	中等
6	Together.ai	0.63s	稍慢
7	Lepton.ai	0.93s	慢
8	Replicate	1.19s	非常慢

TTFT 是 LLM 推理中的「第一印象」：

您可以在此處閱讀更多有關 Groq 在 Anyscale 的 LLMPerf 排行榜上的 LLM 推理性能的訊息。