好文分享 — Build an AI Tool to Summarize Books Instantly

覺得我們的內容實用嗎？ MyApollo 電子報讀者募集中！歡迎訂閱電子報!

我們都知道大語言模型(LLM)對於摘要(summarize)相當在行，你可以給它一大串的文字讓它摘要重點，不過大語言模型受限於上下文的長度限制(或稱 context window)，要讓它為 1 本書進行摘要是有點難度的，不過這個難度正在降低，最新的 GPT-4 Turbo 已經支援 128k tokens 的長度，大概可以支援 240 頁每頁 400 字的書。

不過如果超過 128k tokens 長度怎麼辦？

可以借鑑 ”Build an AI Tool to Summarize Books Instantly” 的作法，該文作者分享如何用更便宜的方式為 1 本書摘要，主要思路如下：

將書本內容分為多個區塊，並作成 embedding ，相當於把大問題拆解為小問題
把第 1 步的 embedding 用 K-means 做分群，讓相似的 embeddings 聚合成一群，找出其中最大的群，這代表這個部分的內容不斷被提及或重複出現，可能會是具代表性的內容，從這個群找出相關章節
把第 2 步找到的相關章節用 GPT-3.5 做摘要（省錢）
用 GPT-4 將第 3 步產生的摘要集合起來，再做 1 次最後的摘要作為書本的摘要

Build an AI Tool to Summarize Books Instantly

好文分享 — Build an AI Tool to Summarize Books Instantly

對抗久坐職業傷害

贊助我們的創作