數學概念

用白話文談數學公式 - BM25 (Best Matching 25)

BM25 是一個經典的數學公式,廣泛應用於評估文件與查詢字串之間的相關性,因此在某些搜索引擎的搜索結果排序中扮演重要角色。例如,Elasticsearch 就內建了使用 BM25 進行結果排序的功能。

此外,在 AI 領域,像是 RAG (Retrieval-Augmented Generation) 等應用,也實作使用 BM25 來檢索(retrieve)相關文件。

對 BM25 有所理解的話,將會對從事搜索相關工作的人有所裨益。

本文將以白話文說明搭配範例的方式,介紹 BM25 公式以及如何計算。

Posted on  Apr 29, 2024  in  數學概念  by  Amo Chen  ‐ 5 min read

用白話文談數學公式 - 期望值(Expected value)

一直以來都覺得「期望值」這個詞很困惑,期望值到底是誰的期望?為什麼期望會有值?相當謎啊⋯⋯。

後來讀了一些文件之後,就比較了解期望值的意義是什麼,所以特別用比較白話的方式寫成一篇文章。

Posted on  Mar 25, 2023  in  數學概念  by  Amo Chen  ‐ 3 min read

用白話文談數學公式 - Jaccard Index (雅卡爾指數)

假設給定 2 段句子,我們有沒有辦法能夠用數學衡量這 2 段句子之間的相似程度呢?譬如我們怎麼衡量 2 篇論文是否抄襲?抄襲的程度怎麼數值化?要回答這些問題,其實不會很難。

數學上有個最簡單的公式,可以幫助我們衡量相似度:

“Jaccard Index"

Jaccard 是一個非常簡單的公式,容易理解之外,在程式的實作上一點也不困難,是做自然語言處理(Natural language processing)相似度或樣本距離相關問題時,非常基本實用的選項之一。

Posted on  Jan 7, 2023  in  數學概念  by  Amo Chen  ‐ 3 min read

用白話文談數學公式 - 熵(entropy)

Claude Shannon 於 Information Theory 研究中提出熵(entropy)的概念,可以說是影響後續機器學習(machine learning)發展相當重要的概念。

熵看似難以理解,但其實是 1 個很簡單的概念,只要了解其背後的意義就能夠輕鬆上手。

Posted on  Jun 12, 2021  in  數學概念  by  Amo Chen  ‐ 3 min read