pyspark

零經驗也可的 PySpark 教學 - 資料輸出 (DataFrame writer)

通常操作 dataframe 完之後，都會需要將結果輸出到資料庫/檔案甚至是雲端服務。 PySpark 已經將相關的輸出都整合到 pyspark.sql.DataFrameWriter 類別，只要理解該類別，基本上就能夠輕鬆將 DataFrame 輸出。

本文將介紹 pyspark.sql.DataFrameWriter 以及幾個使用上值得注意的點。

Posted on Feb 6, 2023 in Python 模組/套件推薦 , Python 程式設計 - 高階 by Amo Chen ‐ 4 min read

零經驗也可的 PySpark 教學 - RDD 初體驗

先前的教學文中，我們已經理解 DataFrame 是基於 RDD(Resilient Distributed Dataset) 所演化出的資料結構，因此也有必要稍微理解 RDD 相關的操作，以自由地在 DataFrame 與 RDD 之間遊走。

本文透過實際範例操作 RDD 以使大家都能夠對 RDD 初步上手。

Posted on Jan 25, 2023 in Python 模組/套件推薦 , Python 程式設計 - 高階 by Amo Chen ‐ 3 min read

零經驗也可的 PySpark 教學 - UDF (User Defined Function)

Spark SQL 提供許多好用的函式(functions)，例如 concat() , count() , date_format() 等等，但這些內建函式不一定能夠滿足一切的需求，所以有時候需要做一些擴充以達到目的，此種讓使用者能夠進行擴充的功能就被稱為 UDF (User Defined Function), RDBMS 諸如 MySQL 與 PostgreSQL 等也都支援 UDF, 詳見：

Spark 也同樣支援 UDF, 讓使用者能夠擴充函式。

Posted on Dec 28, 2022 in Python 模組/套件推薦 , Python 程式設計 - 高階 by Amo Chen ‐ 4 min read

零經驗也可的 PySpark 教學 - DataFrame part 2

繼上一篇零經驗也可的 PySpark 教學 - DataFrame part 1 之後，本篇將介紹更多關於 DataFrame 的相關操作，包含 JOIN, GROUP BY 等常用的功能。

Posted on Dec 16, 2022 in Python 模組/套件推薦 , Python 程式設計 - 高階 by Amo Chen ‐ 8 min read

零經驗也可的 PySpark 教學 - DataFrame part 1

上一篇零經驗也可的 PySpark 教學 - 初體驗，我們透過 Docker 輕易地體驗到 PySpark 的功能，利用 PySpark 將 CSV 資料載入 DataFrame ，再將 DataFrame 轉成 temporary view 後，我們就能夠使用 SQL 對資料進行操作，過程相當輕鬆寫意。

不過 DataFrame 提供相當多的 API, 讓開發者能夠像操作 ORM(Object Relational Mapping) 一樣進行開發，可說是 PySpark 學習過程必須學會的一環，本篇將介紹更多關於 DataFrame 的相關操作，包含 SELECT, FILTER, JOIN, UNION 等常用的功能。

Last updated on Dec 16, 2022 in Python 模組/套件推薦 , Python 程式設計 - 高階 by Amo Chen ‐ 6 min read

零經驗也可的 PySpark 教學 - 初體驗

Apache Spark 是現今處理巨量資料(large-scale data)分析、資料處理、機器學習(machine learning)的主流叢集運算框架之一，其主打簡單、快速、可擴充(scalable)、統一介面(unified) 4 大特點，更支援多種語言(Python, Java, R, SQL)可供靈活選擇運用。

Spark 採用的是 In-memory 運算技術，運算的資料存在於記憶體之中，相對於使用硬碟等儲存媒介的運算框架（例如 Apache Hadoop）而言， Spark 具有運算速度的優勢。

此外，除了提供核心運算功能的 Spark Core, Apache Spark 更在其基礎上衍生 Spark SQL, Spark Streaming, MLlib, GraphX 四大功能：

Spark SQL - 支援以 SQL 對資料進行操作、運算
Spark Streaming - 讓 Spark 能夠處理串流(streaming)形式的資料
MLlib - 增加機器學習(machine learning)的相關函式庫(library)，讓開發者得以利用 Apache Spark 進行機器學習相關的運算
GraphX - 支援圖論(graph theory)相關的運算，像社群網絡(social network)相關數據分析就適合使用 GraphX 進行運算

引用自 https://databricks.com

綜觀來說，Apache Spark 是相當值得投資學習的一套運算框架。

本文將透過 Docker 以及 PySpark 為初學者提供接觸 Apache Spark 的一條捷徑。

Last updated on Dec 16, 2022 in Python 模組/套件推薦 , Python 程式設計 - 高階 by Amo Chen ‐ 5 min read