白話文解說 ETL vs. ELT

如果做過 Data Engineer 應該都對這 2 個縮寫不陌生,畢竟每天的工作總結起來就是這 3 個英文字母:

E: Extraction (擷取)

T: Transformation (轉換)

L: Load (載入)

先來談談 ETL 。

ETL 的起源比較早,它代表資料處理的 3 個步驟:

  1. 從各個資料來源擷取所需要的資料,舉台股分析為例,可能就需要從 Yahoo finance, 公開資訊觀測站、新聞網站等地方擷取各種所需資料,過程需要仰賴網路爬蟲、API 等進行資料擷取

  2. 將各個擷取到的 raw data 轉換成你所需要的資料結構、格式等等,這過程可能包含轉換資料型態、格式、資料清理、資料合併、去除重複資料等等

  3. 將第 2 步驟的資料載入到資料庫,例如關聯式資料庫、時序資料庫(time series database)、資料倉儲(data warehouse)等等,如此一來大家都可以使用這份資料做後續應用 這就是 ETL 的步驟, ETL 很適合格式較固定、常態性的數據或報表,例如每日流量報表、商業日報、週報、季報或是房屋比價、商品比價等相關應用。

ETL 的缺點則是一旦需要增加新的資料欄位(或指標), ETL 三個步驟不外乎都要動到,包含爬蟲要加新的程式碼、 Transformation 步驟也要加入新欄位的處理規則、目標資料庫也要新增新的欄位定義等。 後來隨著儲存成本的下降、運算能力的提升以及數據分析工具的進化, ELT 的做法也就跟著誕生,同樣 3 個步驟只是 TL 順序換成 LT:

  1. 從各個資料來源擷取所需要的資料

  2. 第 1 步驟的資料不做處理或只做必要處理後,盡量保留資料原始樣貌,直接 load 進資料庫、資料倉儲(data warehouse)或 data lake (譬如 AWS 的 S3 就是 1 個可以當 data lake 的地方)

  3. 需要資料的團隊/部門/系統自己做 transformation, 根據需求對資料進行清理,並轉換成所需要的格式 ELT 更適合做即興、即時性的分析應用,可以根據需要直接從資料庫/資料倉儲/ data lake 拉資料出來進行分析,而且 ELT 還可以支援非結構化的資料(例如圖片),相較於 ETL 來說更加彈性靈活。

不過 ETL 與 ELT 其實沒有真的誰勝誰劣,根據需求選擇適合自己的做法就好,當然 2 種做法搭配使用也絕對沒問題。

追蹤新知

看完這篇文章了嗎?還意猶未盡的話,追蹤粉絲專頁吧!

我們每天至少分享 1 篇文章/新聞或者實用的軟體/工具,讓你輕鬆增廣見聞提升專業能力!如果你喜歡我們的文章,或是想了解更多特定主題的教學,歡迎到我們的粉絲專頁按讚、留言讓我們知道。你的鼓勵,是我們的原力!

贊助我們的創作

看完這篇文章了嗎? 休息一下,喝杯咖啡吧!

如果你覺得 MyApollo 有讓你獲得實用的資訊,希望能看到更多的技術分享,邀請你贊助我們一杯咖啡,讓我們有更多的動力與精力繼續提供高品質的文章,感謝你的支持!