在 local 執行的 LLM 服務 — Ollama
現在其實有很多開源的大語言模型,雖然大家比較廣為熟知的還是 ChatGPT-3.5, ChatGPT-4 等 LLM, 不過 Meta 也有開源幾套 LLM, 例如 Code Llama 與 Llama 2, 再加上 Hugging Face 上面也有非常多開源的模型可以使用,可以說選擇非常之多,不一定要付錢給 OpenAI 才能做 LLM 相關的服務。
Ollama 是 1 套專門在 local 執行 LLM 的開源專案,讓我們可以在自己的機器上執行 Llama 2, Code Llama 等模型,不過每個模型的參數(parameters)不同,所以要注意記憶體要求,例如參數達 3 百萬個的模型最好記憶體要有 8GB, 參數達 7 百萬個的模型最好記憶體要有 16GB, 這樣才可以在 local 玩這些模型。
Ollama 把下載、安裝、執行的過程變得相當簡單,例如只要執行以下指令,就可以開始玩 Llama 2:
$ ollama run llama2
你也可以在 Ollama 微調模型以及系統提示詞(system prompts),等於是擁有客製化模型的能力,過程也相當簡單;而且 Ollama 也有提供 REST API 可以使用,因此可以跟一些 ChatBot UI 開源專案整合,例如 chatbot-ollama 等等,讓使用體驗接近 ChatGPT 一些。
有興趣的話,可以花點時間玩看看 Ollama, 順便體驗不同 LLM 的差異!
Ollama - Get up and running with large language models, locally