跳到主要內容

[2021 IT鐵人賽] Day 15:專案02 - PTT C_chat版爬蟲02 | BeautifulSoup

圖源:https://sixfeetup.com/blog/an-introduction-to-beautifulsoup

大家安安,歡迎來到鐵人賽的第15天! 不知不覺已經過完一半了,再努力堅持下去吧!

昨天已經將網站的原始碼抓下來了,然而我們只需要原始碼中特定的幾筆資料而已,所以今天就來講如何解析原始碼,篩選出我們要的資料。

BeautifulSoup

BeautifulSoup是Python的套件之一,Anaconda預設也已經載好了,如果不是Anaconda環境的人,一樣使用pip安裝下來。

// CMD
pip install beautifulsoup4

安裝完後就可以在程式碼中引用了。

from bs4 import BeautifulSoup

接下來要使用BeautifulSoup解析原始碼,但因為PTT C_Chat版內容太多了,比較不好講解,所以我這邊用crawl_me.html作為示範,也可以複製到你的電腦跟著一起做。

<!-- crawl_me.html -->
<!DOCTYPE html>
<html>
<body>
    <div class="main">
        <img src="source.jpg" alt="">
        <h1 class="heading">Heading 1</h1>
        <h2 id="this" class="heading">Heading 2-1</h2>
        <h2 class="heading">Heading 2-2</h2>
        <h2 class="heading">Heading 2-3</h2>
        <div class="container">
            <p>This is a paragraph</p>
        </div>
    </div>
</body>
</html>

解析原始碼

BeautifulSoup有提供兩種解析器,一種是html.parser,另一種是xml,因為現在抓到的是HTML,所以選html.parser

解析原始碼後,會返回一個DOM tree的物件,初始位置在文件的root,之後就是對這個物件去操作。

prettify()這個函數可以將DOM tree以比較美觀的方式印出。

# 讀檔
response = ""
with open("crawl_me.html", "r", encoding="utf8") as file:
    response = file.read()

# BeautifulSoup解析原始碼
soup = BeautifulSoup(response, "html.parser")
print(soup.prettify())

部分執行結果:

定位節點

原始碼解析完後是一個樹狀的結構,每一個標籤都代表了一個節點,我們要先定位到想要的節點後,才能取得他的文字或屬性。以下提供四種定位方法

find()

find()函數可以定位符合標籤的第一個節點。

h1 = soup.find("h1")
print(h1)
<h1 class="heading">Heading 1</h1>

也可以定位指定的屬性值。

使用class屬性定位,但因為在Python中已經有class保留字了,所以改用class_

container = soup.find("div", class_="container")
print(container)
<div class="container">
<p>This is a paragraph</p>
</div>

用id屬性定位。

this = soup.find("h2", id="this")
print(this)
<h2 class="heading" id="this">Heading 2-1</h2>

find_all()

find_all()定位符合標籤的所有節點,回傳的是一個列表。

h2s = soup.find_all("h2")
print(h2s)
print(h2s[1])   # 使用索引值
[<h2 class="heading" id="this">Heading 2-1</h2>, <h2 class="heading">Heading 2-2</h2>, <h2 class="heading">Heading 2-3</h2>]
<h2 class="heading">Heading 2-2</h2>

如果想定位多個標籤,則將標籤打包成一個列表就好了。limit屬性則可以限制數量。

h1_h2s = soup.find_all(["h1", "h2"], limit=3)
print(h1_h2s)
print(len(h1_h2s))
[<h1 class="heading">Heading 1</h1>, <h2 class="heading" id="this">Heading 2-1</h2>, <h2 class="heading">Heading 2-2</h2>]
3

select_one()

select_one()使用CSS選擇器的語法來定位節點,忘記CSS選擇器的人可以到 Day 04 複習一下。

h1 = soup.select_one("h1")
print(h1)

p = soup.select_one("div.container") # class定位
print(p)

this = soup.select_one("h2#this") # id定位
print(this)
<h1 class="heading">Heading 1</h1>

<div class="container">
<p>This is a paragraph</p>
</div>

<h2 class="heading" id="this">Heading 2-1</h2>

結果和find()是一樣的。

select()

select()其實就是使用CSS選擇器語法的find_all()啦。回傳是一個列表。

h2s = soup.select("h2")
print(h2s)
print(h2s[1])
[<h2 class="heading" id="this">Heading 2-1</h2>, <h2 class="heading">Heading 2-2</h2>, <h2 class="heading">Heading 2-3</h2>]
<h2 class="heading">Heading 2-2</h2>

取得文字

定位到指定的節點後,可以使用textstring取得文字,或者也可以用getText()

h1 = soup.find("h1")
print(h1.getText())
print(h1.text)
print(h1.string)
Heading 1
Heading 1
Heading 1

取得屬性值

對於有屬性值的節點,就用get("屬性")或類似字典的方式["屬性"]取得屬性值。

我要<img>標籤中的src屬性值:

img = soup.find("img")
print(img["src"])
print(img.get("src"))
source.jpg
source.jpg

PTT C_Chat板爬蟲

知道BeautifulSoup如何定位節點和取得文字後,我們就實際來爬爬看PTT C_Chat板每篇文章的標題吧!

目標:PTT C_Chat板的文章標題(紅框圈起來的部分)。

首先,我們對文章標題 右鍵>>檢查,右邊會跳出開發人員介面顯示文章標題在原始碼中的位置。

稍微觀察一下,我們會發現所有的文章標題都在class="title"的div中。

所以很簡單,程式碼就這樣寫:

import requests
from bs4 import BeautifulSoup

response = requests.get("https://www.ptt.cc/bbs/C_Chat/index.html") # 取得C_Chat的HTML原始碼
root = BeautifulSoup(response.text, "html.parser")  # 解析原始碼

links = root.find_all("div", class_="title")    # 文章標題
for link in links:
    print(link.text.strip()) # strip()用來刪除文字前面和後面多餘的空白

結果:

第一次爬蟲就完成啦~ 是不是很簡單呢(≧▽≦)

小結

今天介紹Python解析HTML原始碼的套件 – BeautifulSoup,學了幾個定位節點和取得文字的方法,最後現學現賣,爬取PTT C_Chat板的文章標題!

明天我們改成爬PTT八卦板,是不是跟C_Chat板一樣簡單呢? 嘿嘿…明天就知道囉 ψ(`∇´)ψ


如果喜歡這系列文章麻煩幫我按Like加訂閱,你的支持是我創作最大的動力~

本系列文章以及範例程式碼都同步更新在GitHub上,後續會持續的更新,如果喜歡也麻煩幫我按個星星吧~

有任何問題或建議,都歡迎在底下留言區提出,還請大家多多指教。


如果喜歡這篇文章,請訂閱我並且拍五下手給予回饋(使用Google或Facebook帳號免費登入,只需要30秒),資金由LikeCoin提供,完全不會花到各位半毛錢!

因為您的支持,我才更有動力創作出更優質的文章~

留言

這個網誌中的熱門文章

[遊記] 2022/07/22 南寮漁港、香山濕地

前言: 2022年的暑假,我來到新竹的工研院實習,因此有了兩個月好好探索這座陌生城市的機會。我在來之前就計畫好了,每周五要選一個地方去旅行,目標是在兩個月內把整個新竹玩透透! 來到了第三個禮拜,今天我約了新竹在地人的大學朋友,請他騎機車載我到處逛逛😆 不過因為他早上有事情,所以我們就約中午吃飯。中午我們去吃城隍廟附近的 阿桂羊牛雜 ,我點了朋友很推的 羊肉炒麵 ,這家的炒麵很特別,醬汁很濃稠,沙茶味很香~ 我點加辣但有點太辣了,下次可能點小辣就好。另外有附飲料和冷氣這點很加分。 (只顧跟朋友聊天,就忘記拍照了😂) 阿桂羊牛雜 羊肉炒麵 $100 推薦指數:4⭐ 吃完飯後,本來想去南寮漁港,但因為今天的太陽真的太大了! 所以朋友就提議先去 新竹巨城 吹冷氣,晚點再去南寮漁港。雖然已經來過巨城一次,但跟別人一起逛就是不太一樣。我們去逛了服飾店、書局和湯姆熊,不知不覺就三點了。於是就離開巨城前往南寮漁港囉~ 本來以為 南寮漁港 很遠,但騎機車一下子就到了,果然在新竹還是要有機車比較方便阿! 我們先去南寮漁港的遊客中心,展望台的景色很不錯,室內還有溜滑梯可以玩呢! 接著我們在附近的魚市場、國際風箏場等地方邊聊邊走,最後走到 魚鱗天梯 。 魚鱗天梯看起來的確很像魚鱗,但聽說他的功能其實是消波塊,還真酷! 底下就有一小片沙灘,因為我今天穿拖鞋,就有下去踩一下海水。不過這裡的海水沒很乾淨,上來後腳上全都是沙子,幸好旁邊就有可以洗腳的地方。 其實旁邊有個滿有名的 17公里海岸自行車道 ,不過我們比較晚才到,所以就沒租腳踏車去騎了。 接著就往南到 香山濕地 ,騎機車也是一下就到了。 香山濕地就像小型的高美濕地,一旁的 賞蟹步道 可以直接走在溼地上方。 賞蟹步道兩旁真的很多螃蟹,照片裡的白點都是螃蟹哦! 當時剛好碰上漲潮,於是我們就在步道上拍起縮時攝影,從影片中可見漲潮的速度有多快! 香山濕地也是看夕陽的好景點,只是有點太早來了,於是我們走去旁邊的 綠色隧道 ,等待夕陽下山。 最後終於等到夕陽了! 加上倒影還滿漂亮的,只可惜今天海面有點雲,無緣看到夕陽落到海平面之下的景色。 最後順路繞去附近的 青青草原 ,雖然天色已經暗了下來,不過因此溜滑梯都不用排隊,可以多溜了幾趟😁 我們也去看了一眼大草原,但因為傍晚有一堆蚊蟲,所以就趕緊撤退了! 最後晚餐去吃 蛋包飯 ,這家也是朋友推薦的...

[Python] async def & await 重點整理

最近實習要用到 FastAPI ,我發現 FastAPI 的 path operation function 會使用 async def ,還會搭配使用 await ,因為對這兩個關鍵字沒很熟,所以就藉機紀錄一下,也避免之後忘記。 async def & await 使用情境 我直接利用下面這個例子來展示什麼情況下可以使用 async 和 await 。 import time def dosomething ( i ): print ( f"第 {i} 次開始" ) time.sleep( 2 ) print ( f"第 {i} 次結束" ) if __name__ == "__main__" : start = time.time() for i in range ( 5 ): dosomething(i+ 1 ) print ( f"time: {time.time() - start} (s)" ) 執行後應該會像這樣。 第 1 次開始 第 1 次結束 第 2 次開始 第 2 次結束 第 3 次開始 第 3 次結束 第 4 次開始 第 4 次結束 第 5 次開始 第 5 次結束 time: 10.048049688339233 (s) 這非常直覺,因為每次呼叫 dosomething() 時都會等待2秒,等完才會執行下一輪,所以最後執行總時間是10秒相當合理。 但仔細想想,如果那2秒是做網路請求或檔案讀寫(IO),這2秒是不需要CPU的,但CPU就只能發呆2秒,痴痴地等待回傳結果,其他什麼事都不能做,豈不是太浪費了嗎!? (學過作業系統的人就知道,絕對不能讓CPU發呆XD) 因此 Python 就有了 asyncio 這個工具,來徹底的利用(X) 榨乾(O) CPU的效能。 我把剛才的例子改成 asyncio 的版本。 import time import asy...

[2021 IT鐵人賽] Day 23:專案05 - KKBOX風雲榜02 | AJAX

昨天已經找到的KKBOX用來傳資料的API,也知道各個參數的意義了,今天就實際將資料抓下來吧! 歌曲資訊 回到昨天那個API,是用JSON格式傳遞資料,資料的格式大致如下: 我們可以發現新歌的資料都放在 “newrelease” 之下,一個element就是一首歌的資訊,另外,每首歌的資訊也以key:value的形式整理的很清楚。 接著,就用之前教過的 requests.get(url) 直接取得API回傳的資料,但回傳的型態是json字串,所以再用Python本身內建的 json.loads() 函數轉成Python的list和dict資料型態。 # KKBOX華語新歌日榜 url = "https://kma.kkbox.com/charts/api/v1/daily?category=297&lang=tc&limit=50&terr=tw&type=newrelease" # 取得歌曲資訊json檔 response = requests.get(url) # 將json字串轉為Python的字典型態 data = json.loads(response.text) 既然已經轉成list和dict的型態了,再根據剛才觀察API得知的架構,要篩選資料就非常簡單,直接來看程式碼: song_list = data[ "data" ][ "charts" ][ "newrelease" ] # 取得每首歌的排名、曲名、連結、作者、時間 for song in song_list: song_rank = song[ "rankings" ][ "this_period" ] song_name = song[ "song_name" ] song_url = song[ "song_url" ] song_artist = song[ "artist_name"...