跳到主要內容

[2021 IT鐵人賽] Day 17:專案03 - PTT 八卦版爬蟲02 | session、post


圖源:https://www.wisecleaner.com/think-tank/292-What-are-Cookie--Session.html

昨天教到使用cookie讓伺服器記得我們曾經做過哪些事,但缺點就是每次Request都要加上cookie才行,非常麻煩。今天就來講怎麼使用session解決這個問題吧~

但在講session之前,我們要先知道為什麼每次Request都要加上cookie?

網路的世界

現在網路通訊大多採用HTTP協定,而HTTP是一個「無狀態」的協定。什麼意思呢?就是每一次 request 都是一個「獨立的」request,彼此之間不會有任何紀錄和關聯。所以 Server 那邊也不會保存任何狀態,每一次 request 都視為一個新的 request。

換句話說,你可以把伺服器想成是一個喪失記憶能力的人,每一次你去找他的時候,他都當作是第一次見到你,完全不記得你以前曾經找過他。

就會發生這種事…

這就是每次Request都要加上cookie的原因,解決方法就是用剛才提到的session~

什麼是session?

session的英文意思是 持續一段時間的狀態,是一個讓HTTP協定的request變成「有狀態」的機制,有狀態之後才能完成很多功能,像是:登入系統、購物車等等。

要實現session機制可以利用許多方法,其中一種就是用cookie。

還記得昨天這張圖嗎? 利用cookie讓使用者和伺服器間保有狀態的這個機制(或流程)就叫做session。

想更進一步了解cookie和session的觀念,可以參考這篇文章:
白話 Session 與 Cookie:從經營雜貨店開始

如何使用session?

Requests內建session物件,使用session()函數開啟一段session,便會自動記錄session期間所存的cookie,讓伺服器保留這段session的狀態。

rs = requests.session()

剛才我們每次request都要送cookie過去,非常的麻煩,所以才改成用session。但這邊出現一個問題,我們該怎麼讓伺服器對使用者設定cookie呢? 這就要回頭複習剛剛進八卦板的流程了。

  1. 先進入 “詢問你是否滿18歲” 的畫面
  2. 然後你按了 “我同意”
  3. 瀏覽器存下 “over18的cookie”
  4. 進入文章列表

先打開 F12>>Network,接著完成上述的流程後,應該會看到一個名稱叫over18的request,點開來後可以觀察到request的網址和方法,滑到最下面可以看到他傳了什麼資料。

可以看到request方法不是剛才用的GET而是POST,所以接下來就要講GET跟POST到底有什麼不同?

GET vs. POST

GET和POST都是http協定下所規範的請求方法(request methods),兩者經常用於向伺服器請求資源,不過兩者在參數(資料)的傳送上採用不同的方法。

GET

將資料全部寫在URL中,就像你寫明信片一樣,傳遞上較不安全。

GET加上參數的格式:https://www.example.com/index.html?key1=value1&key2=value2

POST

將資料寫在內部,就像你寫信然後裝進信封袋一樣,傳遞上比較安全且傳遞的資訊可以比較多。

所以在點下 “我同意” 按鈕的時候,事實上就是向PTT的伺服器發出一個POST的請求,並帶上fromyes這兩個資料,伺服器接收到這個POST請求後,就會回應要求瀏覽器設定over18=1的cookie了!

仔細看剛才over18的request,在Response Headers有一個欄位是set-cookie,就是在設定cookie。

程式實作

既然原理都知道了,接下來就讓程式模仿使用者做一模一樣的事情就好啦!

import requests
from bs4 import BeautifulSoup

# post要傳的資料
payload = {
    'from': '/bbs/Gossiping/index.html',
    'yes': 'yes'
}

# 用session紀錄此次使用的cookie
rs = requests.session()
# post傳遞資料
response = rs.post("https://www.ptt.cc/ask/over18", data=payload)
# 再get一次PTT八卦板首頁
response = rs.get("https://www.ptt.cc/bbs/Gossiping/index.html")
print(response.status_code)

root = BeautifulSoup(response.text, "html.parser")
links = root.find_all("div", class_="title")    # 文章標題
for link in links:
    print(link.text.strip())  # strip()用來刪除文字前面和後面多餘的空白

執行結果:

結果跟昨天一樣,但會發現這次在GET的時候就不需要帶上cookie了,因為session會自動幫你帶上。

所以,好session,不用嗎?

最後再提一下寫爬蟲時應該具備的觀念。

爬蟲重要觀念

>> 讓程式模擬真人的行為

因為爬蟲會造成伺服器的負擔,所以大部分網站都不歡迎別人來爬他們的網站,因此多數網站都會設下許多障礙阻止爬蟲。

想當然,魔高一尺道高一丈,身為一個工程師,就要想盡辦法讓你的程式看起來像是真人,以騙過伺服器的眼睛。

小結

今天提到了利用session的機制,讓http協定下的request保有狀態,以及使用POST方法讓伺服器對瀏覽器設定cookie,最後提到爬蟲的重要觀念。今天多數的內容都滿抽象的,但對爬蟲來說都是非常重要的觀念,希望大家看完今天的文章後可以好好吸收,之後在爬蟲會幫助你更加順利。

我原本以為我已經很懂cookie和session的概念,但為了寫這篇文章去查一下資料才發現原來有部分的觀念搞錯了! 後來把這些資料全部讀完吸收後才來寫文章,所以這篇文章的觀念應該都是正確的,不用擔心啦~

這也是為什麼我常常鼓勵人要寫文章的原因,因為有時候自以為正確的觀念,在教人時才發現自己根本就沒有搞清楚。透過寫文章的方式,便能夠更清楚顯示出自己的弱點在哪裡

好啦,題外話就講到這,現在已經可以抓到文章列表了,所以明天就來講怎麼進到文章中,抓下標題、作者等資訊吧!


如果喜歡這系列文章麻煩幫我按Like加訂閱,你的支持是我創作最大的動力~

本系列文章以及範例程式碼都同步更新在GitHub上,後續會持續的更新,如果喜歡也麻煩幫我按個星星吧~

有任何問題或建議,都歡迎在底下留言區提出,還請大家多多指教。


如果喜歡這篇文章,請訂閱我並且拍五下手給予回饋(使用Google或Facebook帳號免費登入,只需要30秒),資金由LikeCoin提供,完全不會花到各位半毛錢!

因為您的支持,我才更有動力創作出更優質的文章~

留言

這個網誌中的熱門文章

[遊記] 2022/07/22 南寮漁港、香山濕地

前言: 2022年的暑假,我來到新竹的工研院實習,因此有了兩個月好好探索這座陌生城市的機會。我在來之前就計畫好了,每周五要選一個地方去旅行,目標是在兩個月內把整個新竹玩透透! 來到了第三個禮拜,今天我約了新竹在地人的大學朋友,請他騎機車載我到處逛逛😆 不過因為他早上有事情,所以我們就約中午吃飯。中午我們去吃城隍廟附近的 阿桂羊牛雜 ,我點了朋友很推的 羊肉炒麵 ,這家的炒麵很特別,醬汁很濃稠,沙茶味很香~ 我點加辣但有點太辣了,下次可能點小辣就好。另外有附飲料和冷氣這點很加分。 (只顧跟朋友聊天,就忘記拍照了😂) 阿桂羊牛雜 羊肉炒麵 $100 推薦指數:4⭐ 吃完飯後,本來想去南寮漁港,但因為今天的太陽真的太大了! 所以朋友就提議先去 新竹巨城 吹冷氣,晚點再去南寮漁港。雖然已經來過巨城一次,但跟別人一起逛就是不太一樣。我們去逛了服飾店、書局和湯姆熊,不知不覺就三點了。於是就離開巨城前往南寮漁港囉~ 本來以為 南寮漁港 很遠,但騎機車一下子就到了,果然在新竹還是要有機車比較方便阿! 我們先去南寮漁港的遊客中心,展望台的景色很不錯,室內還有溜滑梯可以玩呢! 接著我們在附近的魚市場、國際風箏場等地方邊聊邊走,最後走到 魚鱗天梯 。 魚鱗天梯看起來的確很像魚鱗,但聽說他的功能其實是消波塊,還真酷! 底下就有一小片沙灘,因為我今天穿拖鞋,就有下去踩一下海水。不過這裡的海水沒很乾淨,上來後腳上全都是沙子,幸好旁邊就有可以洗腳的地方。 其實旁邊有個滿有名的 17公里海岸自行車道 ,不過我們比較晚才到,所以就沒租腳踏車去騎了。 接著就往南到 香山濕地 ,騎機車也是一下就到了。 香山濕地就像小型的高美濕地,一旁的 賞蟹步道 可以直接走在溼地上方。 賞蟹步道兩旁真的很多螃蟹,照片裡的白點都是螃蟹哦! 當時剛好碰上漲潮,於是我們就在步道上拍起縮時攝影,從影片中可見漲潮的速度有多快! 香山濕地也是看夕陽的好景點,只是有點太早來了,於是我們走去旁邊的 綠色隧道 ,等待夕陽下山。 最後終於等到夕陽了! 加上倒影還滿漂亮的,只可惜今天海面有點雲,無緣看到夕陽落到海平面之下的景色。 最後順路繞去附近的 青青草原 ,雖然天色已經暗了下來,不過因此溜滑梯都不用排隊,可以多溜了幾趟😁 我們也去看了一眼大草原,但因為傍晚有一堆蚊蟲,所以就趕緊撤退了! 最後晚餐去吃 蛋包飯 ,這家也是朋友推薦的...

[Python] async def & await 重點整理

最近實習要用到 FastAPI ,我發現 FastAPI 的 path operation function 會使用 async def ,還會搭配使用 await ,因為對這兩個關鍵字沒很熟,所以就藉機紀錄一下,也避免之後忘記。 async def & await 使用情境 我直接利用下面這個例子來展示什麼情況下可以使用 async 和 await 。 import time def dosomething ( i ): print ( f"第 {i} 次開始" ) time.sleep( 2 ) print ( f"第 {i} 次結束" ) if __name__ == "__main__" : start = time.time() for i in range ( 5 ): dosomething(i+ 1 ) print ( f"time: {time.time() - start} (s)" ) 執行後應該會像這樣。 第 1 次開始 第 1 次結束 第 2 次開始 第 2 次結束 第 3 次開始 第 3 次結束 第 4 次開始 第 4 次結束 第 5 次開始 第 5 次結束 time: 10.048049688339233 (s) 這非常直覺,因為每次呼叫 dosomething() 時都會等待2秒,等完才會執行下一輪,所以最後執行總時間是10秒相當合理。 但仔細想想,如果那2秒是做網路請求或檔案讀寫(IO),這2秒是不需要CPU的,但CPU就只能發呆2秒,痴痴地等待回傳結果,其他什麼事都不能做,豈不是太浪費了嗎!? (學過作業系統的人就知道,絕對不能讓CPU發呆XD) 因此 Python 就有了 asyncio 這個工具,來徹底的利用(X) 榨乾(O) CPU的效能。 我把剛才的例子改成 asyncio 的版本。 import time import asy...

[2021 IT鐵人賽] Day 23:專案05 - KKBOX風雲榜02 | AJAX

昨天已經找到的KKBOX用來傳資料的API,也知道各個參數的意義了,今天就實際將資料抓下來吧! 歌曲資訊 回到昨天那個API,是用JSON格式傳遞資料,資料的格式大致如下: 我們可以發現新歌的資料都放在 “newrelease” 之下,一個element就是一首歌的資訊,另外,每首歌的資訊也以key:value的形式整理的很清楚。 接著,就用之前教過的 requests.get(url) 直接取得API回傳的資料,但回傳的型態是json字串,所以再用Python本身內建的 json.loads() 函數轉成Python的list和dict資料型態。 # KKBOX華語新歌日榜 url = "https://kma.kkbox.com/charts/api/v1/daily?category=297&lang=tc&limit=50&terr=tw&type=newrelease" # 取得歌曲資訊json檔 response = requests.get(url) # 將json字串轉為Python的字典型態 data = json.loads(response.text) 既然已經轉成list和dict的型態了,再根據剛才觀察API得知的架構,要篩選資料就非常簡單,直接來看程式碼: song_list = data[ "data" ][ "charts" ][ "newrelease" ] # 取得每首歌的排名、曲名、連結、作者、時間 for song in song_list: song_rank = song[ "rankings" ][ "this_period" ] song_name = song[ "song_name" ] song_url = song[ "song_url" ] song_artist = song[ "artist_name"...