白話文解說 ETL vs. ELT

如果做過 Data Engineer 應該都對這 2 個縮寫不陌生,畢竟每天的工作總結起來就是這 3 個英文字母:

E: Extraction (擷取)

T: Transformation (轉換)

L: Load (載入)

先來談談 ETL 。

ETL 的起源比較早,它代表資料處理的 3 個步驟:

  1. 從各個資料來源擷取所需要的資料,舉台股分析為例,可能就需要從 Yahoo finance, 公開資訊觀測站、新聞網站等地方擷取各種所需資料,過程需要仰賴網路爬蟲、API 等進行資料擷取

  2. 將各個擷取到的 raw data 轉換成你所需要的資料結構、格式等等,這過程可能包含轉換資料型態、格式、資料清理、資料合併、去除重複資料等等

  3. 將第 2 步驟的資料載入到資料庫,例如關聯式資料庫、時序資料庫(time series database)、資料倉儲(data warehouse)等等,如此一來大家都可以使用這份資料做後續應用 這就是 ETL 的步驟, ETL 很適合格式較固定、常態性的數據或報表,例如每日流量報表、商業日報、週報、季報或是房屋比價、商品比價等相關應用。

ETL 的缺點則是一旦需要增加新的資料欄位(或指標), ETL 三個步驟不外乎都要動到,包含爬蟲要加新的程式碼、 Transformation 步驟也要加入新欄位的處理規則、目標資料庫也要新增新的欄位定義等。 後來隨著儲存成本的下降、運算能力的提升以及數據分析工具的進化, ELT 的做法也就跟著誕生,同樣 3 個步驟只是 TL 順序換成 LT:

  1. 從各個資料來源擷取所需要的資料

  2. 第 1 步驟的資料不做處理或只做必要處理後,盡量保留資料原始樣貌,直接 load 進資料庫、資料倉儲(data warehouse)或 data lake (譬如 AWS 的 S3 就是 1 個可以當 data lake 的地方)

  3. 需要資料的團隊/部門/系統自己做 transformation, 根據需求對資料進行清理,並轉換成所需要的格式 ELT 更適合做即興、即時性的分析應用,可以根據需要直接從資料庫/資料倉儲/ data lake 拉資料出來進行分析,而且 ELT 還可以支援非結構化的資料(例如圖片),相較於 ETL 來說更加彈性靈活。

不過 ETL 與 ELT 其實沒有真的誰勝誰劣,根據需求選擇適合自己的做法就好,當然 2 種做法搭配使用也絕對沒問題。

Facebook Threads X

對抗久坐職業傷害

研究指出每天增加 2 小時坐著的時間,會增加大腸癌、心臟疾病、肺癌的風險,也造成肩頸、腰背疼痛等常見問題。

然而對抗這些問題,卻只需要工作時定期休息跟伸展身體即可!

你想輕鬆改變現狀嗎?試試看我們的 PomodoRoll 番茄鐘吧! PomodoRoll 番茄鐘會根據你所設定的專注時間,定期建議你 1 項辦公族適用的伸展運動,幫助你打敗久坐所帶來的傷害!

贊助我們的創作

看完這篇文章了嗎? 休息一下,喝杯咖啡吧!

如果你覺得 MyApollo 有讓你獲得實用的資訊,希望能看到更多的技術分享,邀請你贊助我們一杯咖啡,讓我們有更多的動力與精力繼續提供高品質的文章,感謝你的支持!