好文分享 — Semantic Cache: Accelerating AI with Lightning-Fast Data Retrieval

覺得我們的內容實用嗎？ MyApollo 電子報讀者募集中！歡迎訂閱電子報!

本來以為 LLM 應用很難做快取(cache)，畢竟每個人用字遣詞都不一樣，而且相同問題也會有不同問法，對於以往快取採取精準匹配(exact match)的作法來說，顯然很難行得通⋯⋯。

想不到！

還是有相關的快取技術，稱為 “Semantic Cache” 。

簡單解釋它的做法：

是把 prompt 的 vector 變成 key, 把 LLM 生成的答案變成 value
把第 1 步的 key 與 value 映對存進向量資料庫
下次收到 prompt 時，先到向量資料庫搜尋相似度高的 vector, 然後取出它的 value 直接回應給使用者；如果沒有相似的 vector 就按照既有流程交給 LLM 生成答案，再回到第 1, 2 步做成 semantic cache

Semantic cache 的好處是以加速 RAG 應用的回應速度（因為生成答案這件事會降低服務回應速度），也「可能可以」節省使用 LLM 的費用支出。

不過 semantic cache 只適合應用在 question-answering 系統，這種系統特性是問題會有標準答案，例如「美國首都是哪裡？」、「告訴我哪裏是美國的首都？」之類的問題，都指向同一個答案之外，這些問題也是相似度高的 vectors, 所以適合做 semantic cache 。

但如果是那種生成式的 LLM 應用，包含生成式圖片、生成式程式碼等應用，就不適合使用 semantic cache, 這些不僅沒有標準答案，還容易因為 context 變化而需要生成截然不同的答案，使用 semantic cache 就沒有意義。

更多關於 Semantic Cache 的介紹可以閱讀 “Semantic Cache: Accelerating AI with Lightning-Fast Data Retrieval” 。

好文分享 — Semantic Cache: Accelerating AI with Lightning-Fast Data Retrieval

對抗久坐職業傷害

贊助我們的創作