KV 快取相關文章列表

隨著 LLM 生成的文字越來越多，GPU 記憶體消耗也會越來越高。當達到一定程度時，GPU 會出現記憶體溢位（Out of Memory）問題，導致整個程式崩潰，LLM 也無法繼續生成文字。鍵值快取（Key-Value Cacheing）是一種可以緩解這個問題的技術。它本質上是記住之前步驟中的重要資訊。模型無需從頭開始重新計算所有內容，而是重用已計算的內容，從而大大提高文字生成速度和效率。這項技術已被應用於多個模型，例如 Mistral、Llama 2 和 Llama 3 模型。

12 月 05, 2025 465 0