Python 利用 HTMLParser 清理 HTML 標籤
清理網頁資料時,最常見的需求就是將網頁中的 HTML 標籤去除。
通常我們會直覺想到用正規表示式(regular expression)直接將 HTML 的標籤取代為空字串。
不過 Python 還提供另一種方便的方式可以透過內建模組 HTMLParser 達成。
Posted on Apr 25, 2020 in Python 程式設計 - 中階 by Amo Chen ‐ 2 min read
清理網頁資料時,最常見的需求就是將網頁中的 HTML 標籤去除。
通常我們會直覺想到用正規表示式(regular expression)直接將 HTML 的標籤取代為空字串。
不過 Python 還提供另一種方便的方式可以透過內建模組 HTMLParser 達成。
Posted on Apr 25, 2020 in Python 程式設計 - 中階 by Amo Chen ‐ 2 min read