跳到主要內容

[2021 IT鐵人賽] Day 14:專案02 - PTT C_chat版爬蟲01 | 爬蟲簡介、request和response、Requests

⚠行前通知

先前已經學過Python但想學爬蟲的人可以回來囉~ 從今天起就開始大家最期待的網頁爬蟲的單元了! 雖然比原本預計的晚了2天,但該講的依舊不會少,那麼就開始吧!

\( ^▽^ )/\( ^▽^ )/\( ^▽^ )/

What is 爬蟲?

我們一直講爬蟲爬蟲,但爬蟲到底是什麼? 我們上Google搜尋一下"爬蟲"…

恩…好像跟我想的不太一樣對吧(´・ω・`)?

我們這邊的爬蟲不是指爬蟲類,而是網頁爬蟲啦! 那什麼是網頁爬蟲呢?

網頁爬蟲(英語:web crawler),也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。其目的一般為編纂網路索引。
網路搜尋引擎等站點通過爬蟲軟體更新自身的網站內容或其對其他網站的索引。網路爬蟲可以將自己所存取的頁面儲存下來,以便搜尋引擎事後生成索引供使用者搜尋。
維基百科

簡單的來說,網頁爬蟲是一個機器人,可以自動化瀏覽網頁並擷取我們想要的資料。

Why 爬蟲?

可能有人會想:瀏覽網頁我也會阿,抓資料不就複製貼上就好了嗎? 幹嘛需要爬蟲呢?

少少的資料的確可以手動抓,但實務上的例子經常是非常大量的資料,我舉之後要做的專案為例:爬取PTT八卦版前10頁的作者、標題、時間、所有留言…,你想想如果要手動完成這件事是要花費多大的時間和力氣。然而爬蟲只要讓程式開始執行,你就可以去喝杯下午茶等程式自動幫你完成了! 如此比較就可以知道爬蟲真的很方便。

Who 爬蟲?

其實只要你有想要從網路上取得大量資料的需求,就可以學習爬蟲,舉幾個比較常用的領域為例:

  • 訓練機器學習模型
  • 股票分析
  • 市場分析

說了這麼多,但你還沒告訴我到底要怎麼爬蟲阿?

先別急,我們先來了解網頁到底是怎麼運作的。

網頁的運作方式

不管你是用手機還是電腦,當我們在網路上瀏覽網站時,我們就是用戶端(Client),當我們點一個網頁時,就是向存放該網頁的伺服器(Server)送出請求(Request),當伺服器接收到我們的請求後,就會回傳網頁的內容回來,這就是回應(Response)。

回應的內容就是前面學過的HTML原始碼,瀏覽器(Chrome、Edge、Firefox、IE…)取得這些原始碼後,依照HTML的標籤和CSS的屬性,渲染成我們眼前所看到的畫面。

而網頁的網址(URL)就像網路世界中的地址,告訴網路這個網頁該找哪個伺服器拿取。

所有的網頁都是這樣運作的,包括你現在正在看的IT鐵人賽!

常見的瀏覽器們:

哦! 抱歉,我放錯圖了w

聽完後還是覺得霧煞煞嗎? 其實網路運作方式就跟去餐廳點餐的流程很相似,客人當作用戶端(Client),餐廳老闆當作伺服器(Server)。

  • 當我們進到一間餐廳看著菜單,就像在瀏覽器上瀏覽眾多的網頁。
  • 接著,到櫃檯向老闆點餐,就像是看到喜歡的網頁,發出請求(Request)給伺服端(Server)想看的網頁。
  • 最後,等待老闆烹飪完成送到餐桌上,像是伺服端(Server)端將回應(Response)回傳給用戶端(Client)。

跟上面的圖還滿像的,對吧?

Requests套件

看懂上面網頁request和response的流程之後,再來就要講怎麼在程式上實作。

其實也滿簡單的,因為Python提供了很多好用的爬蟲套件,這就是我們為什麼要學Python。今天用到的是Requests套件。

Anaconda預先就載好了Requests套件,可以到這裡查詢。但如果你不是用Anaconda環境的話,就要到你的cmd上,使用pip(Python套件管理工具)把套件安裝下來。

// cmd
pip install requests

安裝完後就可以在你的程式碼中引用Requests套件了。

import requests

Requests使用get()函數取得網頁的原始碼,輸入為網頁的URL。

response = requests.get("https://www.ptt.cc/bbs/C_Chat/index.html")    # 以ptt C_Chat版為例
print(response.text)
print(response.status_code)

回傳的是一個response的物件,物件中的text就是網頁的原始碼了!

擷取結果的一小部分:

另外,status_code表示網頁的回應狀態,幾種常見的狀態碼:

  • 200:一切順利,結果已經回傳。
  • 301:伺服器將使用者重新定向(re-direct)到另一個位址,當網站更換網域名稱或更改 Routes 時可能會發生。
  • 400:錯誤的語法請求。
  • 401:未通過伺服器的身份驗證,當請求沒有一併發送正確憑證時會發生。
  • 403:伺服器已經理解請求,但是拒絕執行它,意即與請求一併發送的憑證無效。
  • 404:找不到目標。

更多狀態碼:MDN - HTTP 狀態碼

建議在爬蟲時都把status_code印出來看一下,在出錯時比較容易Debug。

小結

今天是爬蟲單元的第一天,首先對爬蟲有個基本的認識,然後釐清了網頁request和response的運作方式,最後使用Python的Requests套件抓取網頁的原始碼下來。

聽完後有沒有對網路的世界大大改觀了呢XD,我當初知道網路的運作方式後,也是非常的驚訝,原來我們平常在瀏覽網頁時,電腦背後都在幫我們做這些事! 以後在逛網站的時候,不妨也觀察一下電腦到底做了哪些事哦~

明天要來講Python的網頁解析套件 – BeautifulSoup,敬請期待~


如果喜歡這系列文章麻煩幫我按Like加訂閱,你的支持是我創作最大的動力~

本系列文章以及範例程式碼都同步更新在GitHub上,後續會持續的更新,如果喜歡也麻煩幫我按個星星吧~

有任何問題或建議,都歡迎在底下留言區提出,還請大家多多指教。


如果喜歡這篇文章,請訂閱我並且拍五下手給予回饋(使用Google或Facebook帳號免費登入,只需要30秒),資金由LikeCoin提供,完全不會花到各位半毛錢!

因為您的支持,我才更有動力創作出更優質的文章~

留言

這個網誌中的熱門文章

[遊記] 2022/07/22 南寮漁港、香山濕地

前言: 2022年的暑假,我來到新竹的工研院實習,因此有了兩個月好好探索這座陌生城市的機會。我在來之前就計畫好了,每周五要選一個地方去旅行,目標是在兩個月內把整個新竹玩透透! 來到了第三個禮拜,今天我約了新竹在地人的大學朋友,請他騎機車載我到處逛逛😆 不過因為他早上有事情,所以我們就約中午吃飯。中午我們去吃城隍廟附近的 阿桂羊牛雜 ,我點了朋友很推的 羊肉炒麵 ,這家的炒麵很特別,醬汁很濃稠,沙茶味很香~ 我點加辣但有點太辣了,下次可能點小辣就好。另外有附飲料和冷氣這點很加分。 (只顧跟朋友聊天,就忘記拍照了😂) 阿桂羊牛雜 羊肉炒麵 $100 推薦指數:4⭐ 吃完飯後,本來想去南寮漁港,但因為今天的太陽真的太大了! 所以朋友就提議先去 新竹巨城 吹冷氣,晚點再去南寮漁港。雖然已經來過巨城一次,但跟別人一起逛就是不太一樣。我們去逛了服飾店、書局和湯姆熊,不知不覺就三點了。於是就離開巨城前往南寮漁港囉~ 本來以為 南寮漁港 很遠,但騎機車一下子就到了,果然在新竹還是要有機車比較方便阿! 我們先去南寮漁港的遊客中心,展望台的景色很不錯,室內還有溜滑梯可以玩呢! 接著我們在附近的魚市場、國際風箏場等地方邊聊邊走,最後走到 魚鱗天梯 。 魚鱗天梯看起來的確很像魚鱗,但聽說他的功能其實是消波塊,還真酷! 底下就有一小片沙灘,因為我今天穿拖鞋,就有下去踩一下海水。不過這裡的海水沒很乾淨,上來後腳上全都是沙子,幸好旁邊就有可以洗腳的地方。 其實旁邊有個滿有名的 17公里海岸自行車道 ,不過我們比較晚才到,所以就沒租腳踏車去騎了。 接著就往南到 香山濕地 ,騎機車也是一下就到了。 香山濕地就像小型的高美濕地,一旁的 賞蟹步道 可以直接走在溼地上方。 賞蟹步道兩旁真的很多螃蟹,照片裡的白點都是螃蟹哦! 當時剛好碰上漲潮,於是我們就在步道上拍起縮時攝影,從影片中可見漲潮的速度有多快! 香山濕地也是看夕陽的好景點,只是有點太早來了,於是我們走去旁邊的 綠色隧道 ,等待夕陽下山。 最後終於等到夕陽了! 加上倒影還滿漂亮的,只可惜今天海面有點雲,無緣看到夕陽落到海平面之下的景色。 最後順路繞去附近的 青青草原 ,雖然天色已經暗了下來,不過因此溜滑梯都不用排隊,可以多溜了幾趟😁 我們也去看了一眼大草原,但因為傍晚有一堆蚊蟲,所以就趕緊撤退了! 最後晚餐去吃 蛋包飯 ,這家也是朋友推薦的...

[Python] async def & await 重點整理

最近實習要用到 FastAPI ,我發現 FastAPI 的 path operation function 會使用 async def ,還會搭配使用 await ,因為對這兩個關鍵字沒很熟,所以就藉機紀錄一下,也避免之後忘記。 async def & await 使用情境 我直接利用下面這個例子來展示什麼情況下可以使用 async 和 await 。 import time def dosomething ( i ): print ( f"第 {i} 次開始" ) time.sleep( 2 ) print ( f"第 {i} 次結束" ) if __name__ == "__main__" : start = time.time() for i in range ( 5 ): dosomething(i+ 1 ) print ( f"time: {time.time() - start} (s)" ) 執行後應該會像這樣。 第 1 次開始 第 1 次結束 第 2 次開始 第 2 次結束 第 3 次開始 第 3 次結束 第 4 次開始 第 4 次結束 第 5 次開始 第 5 次結束 time: 10.048049688339233 (s) 這非常直覺,因為每次呼叫 dosomething() 時都會等待2秒,等完才會執行下一輪,所以最後執行總時間是10秒相當合理。 但仔細想想,如果那2秒是做網路請求或檔案讀寫(IO),這2秒是不需要CPU的,但CPU就只能發呆2秒,痴痴地等待回傳結果,其他什麼事都不能做,豈不是太浪費了嗎!? (學過作業系統的人就知道,絕對不能讓CPU發呆XD) 因此 Python 就有了 asyncio 這個工具,來徹底的利用(X) 榨乾(O) CPU的效能。 我把剛才的例子改成 asyncio 的版本。 import time import asy...

[2021 IT鐵人賽] Day 23:專案05 - KKBOX風雲榜02 | AJAX

昨天已經找到的KKBOX用來傳資料的API,也知道各個參數的意義了,今天就實際將資料抓下來吧! 歌曲資訊 回到昨天那個API,是用JSON格式傳遞資料,資料的格式大致如下: 我們可以發現新歌的資料都放在 “newrelease” 之下,一個element就是一首歌的資訊,另外,每首歌的資訊也以key:value的形式整理的很清楚。 接著,就用之前教過的 requests.get(url) 直接取得API回傳的資料,但回傳的型態是json字串,所以再用Python本身內建的 json.loads() 函數轉成Python的list和dict資料型態。 # KKBOX華語新歌日榜 url = "https://kma.kkbox.com/charts/api/v1/daily?category=297&lang=tc&limit=50&terr=tw&type=newrelease" # 取得歌曲資訊json檔 response = requests.get(url) # 將json字串轉為Python的字典型態 data = json.loads(response.text) 既然已經轉成list和dict的型態了,再根據剛才觀察API得知的架構,要篩選資料就非常簡單,直接來看程式碼: song_list = data[ "data" ][ "charts" ][ "newrelease" ] # 取得每首歌的排名、曲名、連結、作者、時間 for song in song_list: song_rank = song[ "rankings" ][ "this_period" ] song_name = song[ "song_name" ] song_url = song[ "song_url" ] song_artist = song[ "artist_name"...