KV 快取

共有1項相關記錄
如何在LLM中使用KV快取?精選圖片
如何在LLM中使用KV快取?
隨著 LLM 生成的文字越來越多,GPU 記憶體消耗也會越來越高。當達到一定程度時,GPU 會出現記憶體溢位(Out of Memory)問題,導致整個程式崩潰,LLM 也無法繼續生成文字。鍵值快取(Key-Value Cacheing)是一種可以緩解這個問題的技術。它本質上是記住之前步驟中的重要資訊。模型無需從頭開始重新計算所有內容,而是重用已計算的內容,從而大大提高文字生成速度和效率。這項技術已被應用於多個模型,例如 Mistral、Llama 2 和 Llama 3 模型。