好文分享 — 不用懂數學也能理解 LLM 原理 / How LLMs Work, Explained Without Math

個人蠻喜歡這種不用扯到太多數學,但又能夠把深奧的事物講得夠淺顯明白的文章,畢竟不是每個人都能像海豚一樣在數學公式的大海之中恣意遨遊,所以如何讓感興趣的讀者可以清楚從大方向理解來龍去脈就很重要。

現代許多開發框架都會透過抽象化、封裝等手段,不斷地將入門門檻降低,因此你不懂實作細節沒關係,但是你不能對某技術缺乏大方向的理解。

舉 “How LLMs Work, Explained Without Math” 1 文為例,作者先介紹 LLM 實際上是做了什麼事,接著介紹 token, 如何把文字變成 token 的編碼技術、如何預測 token 的下 1 個 token 、 如何生成文本(text)、語言模型是怎麼訓練、演化等過程都用淺顯的說明告訴你,相當值得閱讀。

個人摘要如下:

  • 大語言模型在做事情是給定 1 個輸入文字,然後預測這個輸入文字的下 1 個 token 或文字會是什麼,預測的手段不外乎是靠機率。
  • 所有的輸入文字在進到大語言模型之前,都會有 tokenization 與 encoding 的過程,簡單來講是把輸入文字拆成含有多個數字的向量,每 1 個數字都代表 1 個 token, 同樣的 LLM 預測結束,也是回給我們多個數字的向量,我們必須透過 decoding 的過程,再把數字向量轉回文字,最終變成我們所熟知的生成式內容。
  • 多數語言模型都會使用 Byte Pair Encoding (BPE) 技術,如果有興趣的話可以從已經開源的 GPT-2 開始研究。
  • 生成內容的過程是 1 個迭代的過程,從輸入文字開始不斷地預測下 1 個 token 是什麼,然後附加新的 token 到輸入文字之後,變成新的輸入文字,再預測下 1 個文字的迭代過程。
  • Context window 其實是為了解決預測出來的 token 失去一致性的問題,譬如前面的 token 都代表軟體相關的文字,突然預測出來的 token 變成醫學相關的文字。
  • 現在針對文字生成的語言模型中,最流行的是採用神經網路架構(neural network)的 Transformer, 而 GPT 就是 Generative Pre-Trained Transformers 的縮寫。
  • Transformer 的特點是它會進行稱為 Attention 的計算,這能夠讓模型考慮整個 context window, 並影響接下來 token 的預測結果(詳見 Attention is all you need 論文)。
FOLLOW US

對抗久坐職業傷害

研究指出每天增加 2 小時坐著的時間,會增加大腸癌、心臟疾病、肺癌的風險,也造成肩頸、腰背疼痛等常見問題。

然而對抗這些問題,卻只需要工作時定期休息跟伸展身體即可!

你想輕鬆改變現狀嗎?試試看我們的 PomodoRoll 番茄鐘吧! PomodoRoll 番茄鐘會根據你所設定的專注時間,定期建議你 1 項辦公族適用的伸展運動,幫助你打敗久坐所帶來的傷害!

贊助我們的創作

看完這篇文章了嗎? 休息一下,喝杯咖啡吧!

如果你覺得 MyApollo 有讓你獲得實用的資訊,希望能看到更多的技術分享,邀請你贊助我們一杯咖啡,讓我們有更多的動力與精力繼續提供高品質的文章,感謝你的支持!