python識別網頁視頻時間_python抓取網頁時是如何處理驗證碼的

⑴ python抓取網頁時是如何處理驗證碼的

python抓取網頁時是如何處理驗證碼的？下面給大家介紹幾種方法：

1、輸入式驗證碼

這種驗證碼主要是通過用戶輸入圖片中的字母、數字、漢字等進行驗證。如下圖：

解決思路：這種是最簡單的一種，只要識別出裡面的內容，然後填入到輸入框中即可。這種識別技術叫OCR，這里我們推薦使用Python的第三方庫，tesserocr。對於沒有什麼背影影響的驗證碼如圖2，直接通過這個庫來識別就可以。但是對於有嘈雜的背景的驗證碼這種，直接識別識別率會很低，遇到這種我們就得需要先處理一下圖片，先對圖片進行灰度化，然後再進行二值化，再去識別，這樣識別率會大大提高。

相關推薦：《Python入門教程》

2、滑動式驗證碼

這種是將備選碎片直線滑動到正確的位置，如下圖：

解決思路：對於這種驗證碼就比較復雜一點，但也是有相應的辦法。我們直接想到的就是模擬人去拖動驗證碼的行為，點擊按鈕，然後看到了缺口的位置，最後把拼圖拖到缺口位置處完成驗證。

第一步：點擊按鈕。然後我們發現，在你沒有點擊按鈕的時候那個缺口和拼圖是沒有出現的，點擊後才出現，這為我們找到缺口的位置提供了靈感。

第二步：拖到缺口位置。

我們知道拼圖應該拖到缺口處，但是這個距離如果用數值來表示？

通過我們第一步觀察到的現象，我們可以找到缺口的位置。這里我們可以比較兩張圖的像素，設置一個基準值，如果某個位置的差值超過了基準值，那我們就找到了這兩張圖片不一樣的位置，當然我們是從那塊拼圖的右側開始並且從左到右，找到第一個不一樣的位置時就結束，這是的位置應該是缺口的left，所以我們使用selenium拖到這個位置即可。

這里還有個疑問就是如何能自動的保存這兩張圖？

這里我們可以先找到這個標簽，然後獲取它的location和size，然後 top，bottom，left，right = location['y'] ,location['y']+size['height']+ location['x'] + size['width'] ,然後截圖，最後摳圖填入這四個位置就行。

具體的使用可以查看selenium文檔，點擊按鈕前摳張圖，點擊後再摳張圖。最後拖動的時候要需要模擬人的行為，先加速然後減速。因為這種驗證碼有行為特徵檢測，人是不可能做到一直勻速的，否則它就判定為是機器在拖動，這樣就無法通過驗證了。

3、點擊式的圖文驗證和圖標選擇

圖文驗證：通過文字提醒用戶點擊圖中相同字的位置進行驗證。

圖標選擇：給出一組圖片，按要求點擊其中一張或者多張。借用萬物識別的難度阻擋機器。

這兩種原理相似，只不過是一個是給出文字，點擊圖片中的文字，一個是給出圖片，點出內容相同的圖片。

這兩種沒有特別好的方法，只能藉助第三方識別介面來識別出相同的內容，推薦一個超級鷹，把驗證碼發過去，會返回相應的點擊坐標。

然後再使用selenium模擬點擊即可。具體怎麼獲取圖片和上面方法一樣。

4、宮格驗證碼

這種就很棘手，每一次出現的都不一樣，但是也會出現一樣的。而且拖動順序都不一樣。

但是我們發現不一樣的驗證碼個數是有限的，這里採用模版匹配的方法。我覺得就好像暴力枚舉，把所有出現的驗證碼保存下來，然後挑出不一樣的驗證碼，按照拖動順序命名，我們從左到右上下到下，設為1，2，3，4。上圖的滑動順序為4，3，2，1，所以我們命名4_3_2_1.png，這里得手動搞。當驗證碼出現的時候，用我們保存的圖片一一枚舉，與出現這種比較像素，方法見上面。如果匹配上了，拖動順序就為4，3，2，1。然後使用selenium模擬即可。

熱點內容

minecraft伺服器怎麼布置發布：2025-04-22 18:13:39 瀏覽：306

怎麼把安卓的東西轉到已激活蘋果發布：2025-04-22 17:57:46 瀏覽：852

停止服務doss命令發布：2025-04-22 17:54:47 瀏覽：877

u盤占內存但該文件夾為空發布：2025-04-22 17:49:14 瀏覽：611

伺服器怎麼更換重生點發布：2025-04-22 17:47:55 瀏覽：34

收費api調用平台源碼發布：2025-04-22 17:34:06 瀏覽：646

安卓怎麼自檢病毒發布：2025-04-22 17:28:01 瀏覽：560

布卡雲伺服器發布：2025-04-22 17:19:12 瀏覽：770

程序員是怎麼做系統的發布：2025-04-22 17:05:32 瀏覽：742

燕窩溯源碼最大加工廠發布：2025-04-22 17:03:44 瀏覽：936

黑馬程序員第28集發布：2025-04-22 16:55:35 瀏覽：485

lcd單片機驅動發布：2025-04-22 16:37:46 瀏覽：647

通達信主力拉升出貨指標公式源碼發布：2025-04-22 16:36:34 瀏覽：639

廉潔pdf 發布：2025-04-22 16:30:33 瀏覽：18

批量用修改多個文件夾及子目錄發布：2025-04-22 16:25:19 瀏覽：321

王者每個伺服器爆滿怎麼辦發布：2025-04-22 16:22:55 瀏覽：951

安卓手機如何清除所有的數據發布：2025-04-22 16:22:54 瀏覽：983

激光打標機加密狗驅動無法啟動發布：2025-04-22 16:18:53 瀏覽：912

矽谷程序員題庫發布：2025-04-22 16:13:24 瀏覽：564

安卓系統怎麼開車模式發布：2025-04-22 16:05:25 瀏覽：944

導航:首頁 > 編程語言 > python識別網頁視頻時間

python識別網頁視頻時間

與python識別網頁視頻時間相關的資料