白話文解說 ETL vs. ELT
如果做過 Data Engineer 應該都對這 2 個縮寫不陌生,畢竟每天的工作總結起來就是這 3 個英文字母:
E: Extraction (擷取)
T: Transformation (轉換)
L: Load (載入)
先來談談 ETL 。
ETL 的起源比較早,它代表資料處理的 3 個步驟:
從各個資料來源擷取所需要的資料,舉台股分析為例,可能就需要從 Yahoo finance, 公開資訊觀測站、新聞網站等地方擷取各種所需資料,過程需要仰賴網路爬蟲、API 等進行資料擷取
將各個擷取到的 raw data 轉換成你所需要的資料結構、格式等等,這過程可能包含轉換資料型態、格式、資料清理、資料合併、去除重複資料等等
將第 2 步驟的資料載入到資料庫,例如關聯式資料庫、時序資料庫(time series database)、資料倉儲(data warehouse)等等,如此一來大家都可以使用這份資料做後續應用 這就是 ETL 的步驟, ETL 很適合格式較固定、常態性的數據或報表,例如每日流量報表、商業日報、週報、季報或是房屋比價、商品比價等相關應用。
ETL 的缺點則是一旦需要增加新的資料欄位(或指標), ETL 三個步驟不外乎都要動到,包含爬蟲要加新的程式碼、 Transformation 步驟也要加入新欄位的處理規則、目標資料庫也要新增新的欄位定義等。 後來隨著儲存成本的下降、運算能力的提升以及數據分析工具的進化, ELT 的做法也就跟著誕生,同樣 3 個步驟只是 TL 順序換成 LT:
從各個資料來源擷取所需要的資料
第 1 步驟的資料不做處理或只做必要處理後,盡量保留資料原始樣貌,直接 load 進資料庫、資料倉儲(data warehouse)或 data lake (譬如 AWS 的 S3 就是 1 個可以當 data lake 的地方)
需要資料的團隊/部門/系統自己做 transformation, 根據需求對資料進行清理,並轉換成所需要的格式 ELT 更適合做即興、即時性的分析應用,可以根據需要直接從資料庫/資料倉儲/ data lake 拉資料出來進行分析,而且 ELT 還可以支援非結構化的資料(例如圖片),相較於 ETL 來說更加彈性靈活。
不過 ETL 與 ELT 其實沒有真的誰勝誰劣,根據需求選擇適合自己的做法就好,當然 2 種做法搭配使用也絕對沒問題。