python抓包分析工具_python32 下的抓包庫無論是pypcap還是scapy貌似都沒有py3的版本跪求一個可以python3用

⑴ python（六十五）抓包及其簡單解析

04_抓包及其簡單解析/01_分析攝圖網.py：

04_抓包及其簡單解析/02_xpinyin模塊.py

04_抓包及其簡單解析/03_requests_html模塊.py：

04_抓包及其簡單解析/04_攝圖網簡單解析.py：

文章到這里就結束了！希望大家能多多支持Python（系列）！六個月帶大家學會Python，私聊我，可以問關於本文章的問題！以後每天都會發布新的文章，喜歡的點點關注！一個陪伴你學習Python的新青年！不管多忙都會更新下去，一起加油！

Editor：Lonelyroots

⑵ Python 爬蟲之抓包的理解

目前主流的移動端抓包工具為：TcpDump、WireShark、Fiddler，他們的對比如下。

⑶ 四大網路抓包神器，總有一款適合你~

無論是開發還是測試，在工作中經常會遇到需要抓包的時候。本篇文章主要介紹如何在各個平台下，高效的抓包。

目前的抓包軟體總體可以分為兩類：

一種是設置代理抓取http包，比如Charles、mitmproxy這些軟體。

另一種是直接抓取經過網卡的所有協議包，其中最出名就是大名鼎鼎的wireshark以及linux自帶的抓包軟體tcpmp。

下面重點介紹一下這四個抓包工具的特點以及使用。

wireshark想必大多數程序員都不會陌生。wireshark在各個平台都可以安裝使用，它可以抓取經過指定網卡的所有協議。 wireshark雖然很強大，但是對初學者其實不是很友好。

這也正是由於它太強大，它可以抓取所有包，所以初學者在使用時面對茫茫數據流不知所措。初學者需要認真的去學習怎麼過濾得到自己感興趣的包，但是如果不熟悉wireshark的過濾語法，要過濾數據包將舉步維艱。

過濾語法簡單介紹

wireshark的過濾語法總結起來其實也很簡單，就是以協議開頭，後面可以跟著協議的屬性，然後加上一些判斷符號，比如contains、==、>、<等等。比如只想展示http的協議內容，則直接在過濾器輸入框中輸入http即可。

如下圖：

比如我只想看http協議的請求頭中uri包含』/api』的協議，就可以這么寫：

如果想通過目標ip或者來源ip來過濾包，就不可以以http協議為前綴了，因為這些是ip協議的相關屬性。通過目標ip來過濾可以這么寫：

上面表示目標機器的ip是61.135.217.100並且協議是http的包。

wireshark支持很多種協議，我們可以通過右上角的expression來打開搜索支持的協議，還可以找出協議支持的屬性，然後填入期待的值，軟體會自動為我們構建過濾語句。

優點：

功能強大，可以抓取所有協議的包

抓到的包容易分析

缺點：

由於線上伺服器沒有GUI，只有命令行，因此無法在線上伺服器使用

無法分析https數據包，由於wireshark是在鏈路層獲取的數據包信息，所以獲取到的https包是加密後的數據，因此無法分析包內容。當然，我們可以對https數據包進行解密，但是操作具有一定的復雜度，可能要消耗很多時間。

tcpmp是linux上自帶的一個抓包軟體(mac也有)，功能強大，也可以抓取經過指定網卡的所有協議包。

由於是命令行工具，tcpmp抓取到的包不易於分析，一個常見的做法是將tcpmp抓到的包輸出到某個文件，然後將文件拷貝下來用wireshark分析。

一些簡單的過濾參數：

抓包內容輸出到文件：

之後我們可以把test.cap直接用wireshark打開，就可以很直觀的分析包了。

用tcpmp輸出cap文件包：

tcpmp-r test.cap

Charles是一款http抓包工具，它是通過代理來實現的抓包。也就是我們在訪問網頁時需要配置代理，將代理指向Charles監聽的埠，之後我們的http請求都會發向Charles的埠，之後Charles會幫我們轉發並記錄協議內容。

Charles的使用非常簡單，配置好代理後，Charles就開始抓包了。

我們可以直接通過Charles的GUi查看包的內容：

上圖中的unknown表示https加密後的數據，所以看到不協議的具體內容。我們可以通過安裝Charles的證書，讓Charles也可以查看https協議的具體內容。

優點 :

使用簡單，只需配置一下代理地址就可以

要抓取https協議的配置也很簡單，只要安裝下charles的證書就可以了

mitmproxy是python寫的一款http抓包工具，雖然只支持http抓包，但是它的特性非常強大，它不僅可以抓包，還可以對請求進行攔截、重現等操作。和Charles一樣，它的原理也是基於代理，使用的時候需要設置代理指向它。

mitmproxy是命令行工具，但是也自帶了mitmweb工具，可以讓用戶在網頁上操作。另外，mitmproxy還支持用戶自行編寫插件，可以編寫腳本對請求進行處理，然後把修改後的請求發出去。

1、安裝

首先需要在機器安裝python3以及pip3.之後通過pip3安裝

pip3 install mitmproxy

如果安裝mitmproxy過程中報錯MoleNotFoundError: No mole named '_ssl'，就需要安裝一下OpenSSL，然後再重新編譯安裝一下python3。

安裝好openSSL後再執行pip3 install mitmproxy

2、使用

安裝後，直接在命令行輸入mitmproxy就會進入它的交互界面：

這時候mitmproxy已經開始監聽8080埠(默認)，接著，我們可以去瀏覽器設置代理。瀏覽器設置代理的方式有很多,這里不多做介紹。

設置完代理後，訪問瀏覽器的請求都會被發到mitmproxy上，mitmproxy根據規則對請求進行攔截(不配置攔截規則的話則都不攔截)，所有經過的請求都會被輸出：

在交互界面上可以通過快捷鍵操作請求。輸入問號』?』，可以查看快捷鍵的文檔。

3、下面介紹一些常用的快捷鍵和功能

① 請求過濾

在請求列表交互界面，按下f鍵後，可以輸入一些過濾規則：

具體的過濾語法可以按下』?『鍵後，再按下方向鍵右』—>』或者l鍵。

② 請求攔截

按下i鍵後，可以對指定的請求進行攔截。按mitmproxy收到指定條件的請求時，不會立馬把它轉發出去，而是等待我們執行resume操作後，才會把請求轉發出去——在這期間我們甚至可以對請求進行手動修改。

紅色字體表示該請求被攔截，之後我們可以按入a鍵來恢復該請求，可以輸入A鍵恢復所有被攔截的請求。

③ 查看/編輯請求

把指示游標移動到某個請求上，按回車可以查看請求的內容。或者滑鼠直接點擊請求也可以。

之後通過左右方向鍵可以查看request、response、detail等信息。

如果要編輯請求，可以在這個界面輸入e，然後會讓我們選擇編輯哪塊內容：

之後就會進入vim編輯界面編輯相應的內容了（保存後會生效）。

④ 重發請求

mitmproxy的游標指向某個請求時，按下r鍵可以重發這個請求(重發前可以對該請求進行編輯)。

按下』:』鍵後，可以輸入命令，這樣我們就可以通過過濾規則批量的重發請求

replay.client是mitmproxy內置的一個命令，我們也可以自行編寫命令。命令的編寫可以參考官網文檔，這里不做介紹。

⑤ 插件開發

我們可以編寫插件，然後再啟動的時候指定插件，mitmproxy處理請求的時候會執行一個插件的鏈，這樣我們就可以對請求進行編輯然後再發送出去了。

借用官網的插件demo：

這個方法對每一個請求進行處理，然後列印序號。通過mitmproxy -s test.py來讓插件生效。通過插件可以綁定各種連接事件。感興趣的朋友可以自行去mitmproxy官網看文檔，這里不多做介紹。

⑥ 保存抓到的請求數據

通過w快捷鍵我們可以把這次抓到的請求包保存到文件上。

通過mitmproxy -r file可以讀取以前抓取的請求信息進行分析。

優點：

命令行操作，可以在無GUI界面的伺服器上使用

對於這幾個抓包神器，我總結了下使用場景：

只抓http協議的話：

推薦使用mitmproxy。mitmproxy豐富的功能不僅可以滿足我們的抓包需求，還可以提升我們的工作效率。比如測試可以抓包後一鍵重發請求來重現bug，開發調試的時候可以修改請求內容等等。

如果是在線上的沒有GUI的伺服器：

推薦使用tcpmp，雖然mitmproxy也可以支持命令行抓包，但是生產環境的伺服器最好不要亂安裝第三方插件。另外，大多數伺服器都有裝tcpmp。我們可以通過把請求的內容輸出到文件，然後拷貝會自己的電腦用wireshark分析。

想要抓取http以外的協議的話：

直接上wireshark。功能強大。對於Charles，感覺用了mitmproxy之後，就基本用不上Charles了。Charles好像也可以編輯後再發送，但是感覺不是很好用，可能我用的不是很熟吧。

⑷ python3.2 下的抓包庫。。無論是pypcap還是scapy。貌似都沒有py3的版本。。跪求一個可以python3用

有一個py3kcap是pycap的封裝版本，可以用於python3版本。

給你一個使用的示例代碼：

#!/usr/bin/env python3.2
import ctypes,sys
from ctypes.util import find_library
#pcap = ctypes.cdll.LoadLibrary("libpcap.so")
pcap = None
if(find_library("libpcap") == None):
print("We are here!")
pcap = ctypes.cdll.LoadLibrary("libpcap.so")
else:
pcap = ctypes.cdll.LoadLibrary(find_library("libpcap"))
# required so we can access bpf_program->bf_insns
"""
struct bpf_program {
u_int bf_len;
struct bpf_insn *bf_insns;}
"""
class bpf_program(ctypes.Structure):
_fields_ = [("bf_len", ctypes.c_int),("bf_insns", ctypes.c_void_p)]
class sockaddr(ctypes.Structure):
_fields_=[("sa_family",ctypes.c_uint16),("sa_data",ctypes.c_char*14)]
class pcap_pkthdr(ctypes.Structure):
_fields_ = [("tv_sec", ctypes.c_long), ("tv_usec", ctypes.c_long), ("caplen", ctypes.c_uint), ("len", ctypes.c_uint)]

pkthdr = pcap_pkthdr()
program = bpf_program()
# prepare args
snaplen = ctypes.c_int(1500)
#buf = ctypes.c_char_p(filter)
optimize = ctypes.c_int(1)
mask = ctypes.c_uint()
net = ctypes.c_uint()
to_ms = ctypes.c_int(100000)
promisc = ctypes.c_int(1)
filter = bytes(str("port 80"), 'ascii')
buf = ctypes.c_char_p(filter)
errbuf = ctypes.create_string_buffer(256)
pcap_close = pcap.pcap_close
pcap_lookupdev = pcap.pcap_lookupdev
pcap_lookupdev.restype = ctypes.c_char_p
#pcap_lookupnet(dev, &net, &mask, errbuf)
pcap_lookupnet = pcap.pcap_lookupnet
#pcap_t *pcap_open_live(const char *device, int snaplen,int promisc, int to_ms,
#char *errbuf
pcap_open_live = pcap.pcap_open_live
#int pcap_compile(pcap_t *p, struct bpf_program *fp,const char *str, int optimize,
#bpf_u_int32 netmask)
pcap_compile = pcap.pcap_compile
#int pcap_setfilter(pcap_t *p, struct bpf_program *fp);
pcap_setfilter = pcap.pcap_setfilter
#const u_char *pcap_next(pcap_t *p, struct pcap_pkthdr *h);
pcap_next = pcap.pcap_next
# int pcap_compile_nopcap(int snaplen, int linktype, struct bpf_program *program,
# const char *buf, int optimize, bpf_u_int32 mask);
pcap_geterr = pcap.pcap_geterr
pcap_geterr.restype = ctypes.c_char_p
#check for default lookup device
dev = pcap_lookupdev(errbuf)
#override it for now ..
dev = bytes(str("wlan0"), 'ascii')
if(dev):
print("{0} is the default interface".format(dev))
else:
print("Was not able to find default interface")

if(pcap_lookupnet(dev,ctypes.byref(net),ctypes.byref(mask),errbuf) == -1):
print("Error could not get netmask for device {0}".format(errbuf))
sys.exit(0)
else:
print("Got Required netmask")
handle = pcap_open_live(dev,snaplen,promisc,to_ms,errbuf)
if(handle is False):
print("Error unable to open session : {0}".format(errbuf.value))
sys.exit(0)
else:
print("Pcap open live worked!")
if(pcap_compile(handle,ctypes.byref(program),buf,optimize,mask) == -1):
# this requires we call pcap_geterr() to get the error
err = pcap_geterr(handle)
print("Error could not compile bpf filter because {0}".format(err))
else:
print("Filter Compiled!")
if(pcap_setfilter(handle,ctypes.byref(program)) == -1):
print("Error couldn't install filter {0}".format(errbuf.value))
sys.exit(0)
else:
print("Filter installed!")
if(pcap_next(handle,ctypes.byref(pkthdr)) == -1):
err = pcap_geterr(handle)
print("ERROR pcap_next: {0}".format(err))
print("Got {0} bytes of data".format(pkthdr.len))
pcap_close(handle)

⑸ python自動化工具：pywinauto

Pywinauto是完全由Python構建的一個模塊，可以用於自動化 Windows 上的 GUI 應用程序。同時，它支持滑鼠、鍵盤操作，在元素控制項樹較復雜的界面，可以輔助我們完成自動化操作。

我在工作中，主要是使用pywinauto來輔助做一些操作，來完成自動化測試。

先要確認本地有python環境，然後可以通過命令行安裝pywinauto：

如果你是使用ide，可以通過ide安裝，比如我習慣使用pycharm，就可以在Project Interpreter中添加pywinauto：

還有一些手動安裝的方法，但是有點繁瑣，不是很推薦，這里就不介紹了。

Pywinauto要操作應用，首先需要訪問應用，主要有兩種訪問技術。WIN32訪問技術支持MFC、VB6、VCL、簡單WinForms控制項開發的應用，MS UI Automation訪問技術支持WinForms、WPS、QT5、WPF、Store apps、browsers等開發的應用。

win32 API的backend為「 win32 」，MS UI Automation的backend為「 uia 」。

Pywinauto中使用的backend默認為win32。可使用spy++或者Inspect工具判斷backend適合選哪種。例如：如果使用py_inspect的uia模式，可見的控制項和屬性更多的話，backend可選uia，反之，backend可選win32。

這里提一下常用的分析工具：

我個人常用的是py_inspect和spy++。

多數情況下都是需要打開應用的，實現方式也很簡單：

backend參數根據實際情況選擇傳uia還是win32。

start方法其實可以傳兩個參數，除了目標應用的啟動程序地址，還可以傳一個timeout，如果不傳，默認是5s。如果你的目標程序啟動、運行都很慢，可以將timeout設置久一點。

如果要操控的應用已經處於啟動狀態，可以直接進行連接，而連接方式有多種可以選擇：

其中Windows的pid可以通過任務管理器進行查看：

但是我在實際操作的時候使用窗口句柄沒有成功過，可能是我使用姿勢不對，不過還是不推薦使用窗口句柄。

title_re參數傳遞的是應用的部分名稱，class_name可以通過py_inspect查詢到。

前面獲取的對象都是應用，但是我們實際操作的是應用窗口，這里就來介紹怎麼獲取窗口和對話框。

最常用的是通過 title定位：

如果不清楚定位工具中的title在哪個位置，顯示的是什麼，可以通過print_control_identifiers()方法將所有的title都列印出來：

通過title定位的時候需要注意一下中英文的影響，如果是中文，可能會有編碼問題，需要轉碼。

title其實只是window()方法中的一種關鍵字參數，window()方法可以接收很多中的關鍵字參數，且這些參數可以組合使用，例如這樣：

主要參數有這些：

通過top_window()也能比較容易地獲取到窗口，但是這個方法獲取的是程序的頂級窗口，但可能不是Z-Order中的頂級窗口。所以這個方法使用的時候多調試幾次。

窗口的操作主要有最小化、最大化、恢復、關閉窗口：

控制項的定位其實和窗口的定位基本一致，不太清楚為什麼pywinauto在設計的時候會將窗口和控制項作為一類東西。

相對於前面定位窗口的window()方法，定位控制項的時候推薦使用child_window()，因為直接使用windows()的話，如果控制項不是在當前窗口的子控制項，是子子控制項，就會定位不到，而child_window()方法就不會有這個問題，當然相對的缺點就是當控制項深度太深的時候，執行這個方法會比較耗時。

child_window()方法傳遞的參數和window()是一樣的。

控制項自帶了一些操作方法：

當這些不好用的時候，比如你的控制項不支持點擊，但是你又想點擊一下，可以使用滑鼠操作的一些方法：

測試過程中可能會需要截圖作為證據，截圖的方法也比較簡單：

pywinauto也提供了鍵盤操作的方法：

pywinauto有幾個設置等待時間的方式，這里介紹一個：

這里簡單的演示一下用Wireshark自動抓包並保存：

PC端自動化測試使用到的python模塊主要有pywinauto、win32gui、pyautogui。這里介紹的p ywinauto主要使用到Application類，用於應用程序管理（打開與關閉應用等）、窗口管理（最小化、最大化、關閉窗口）、控制項操作。

pywinauto的功能其實挺豐富的，但是真正用到的其實只是其中很小的一塊，感興趣的同學可以多去官網翻一翻。

⑹ python爬蟲入門需要哪些基礎

現在之所以有這么多的小夥伴熱衷於爬蟲技術，無外乎是因為爬蟲可以幫我們做很多事情，比如搜索引擎、採集數據、廣告過濾等，以Python為例，Python爬蟲可以用於數據分析，在數據抓取方面發揮巨大的作用。
但是這並不意味著單純掌握一門Python語言，就對爬蟲技術觸類旁通，要學習的知識和規范還有喜很多，包括但不僅限於HTML 知識、HTTP/HTTPS 協議的基本知識、正則表達式、資料庫知識，常用抓包工具的使用、爬蟲框架的使用等。而且涉及到大規模爬蟲，還需要了解分布式的概念、消息隊列、常用的數據結構和演算法、緩存，甚至還包括機器學習的應用，大規模的系統背後都是靠很多技術來支撐的。
零基礎如何學爬蟲技術？對於迷茫的初學者來說，爬蟲技術起步學習階段，最重要的就是明確學習路徑，找准學習方法，唯有如此，在良好的學習習慣督促下，後期的系統學習才會事半功倍，游刃有餘。
用Python寫爬蟲，首先需要會Python，把基礎語法搞懂，知道怎麼使用函數、類和常用的數據結構如list、dict中的常用方法就算基本入門。作為入門爬蟲來說，需要了解 HTTP協議的基本原理，雖然 HTTP 規范用一本書都寫不完，但深入的內容可以放以後慢慢去看，理論與實踐相結合後期學習才會越來越輕松。關於爬蟲學習的具體步驟，我大概羅列了以下幾大部分，大家可以參考：
網路爬蟲基礎知識:
爬蟲的定義
爬蟲的作用
Http協議
基本抓包工具(Fiddler)使用
Python模塊實現爬蟲：
urllib3、requests、lxml、bs4 模塊大體作用講解
使用requests模塊 get 方式獲取靜態頁面數據
使用requests模塊 post 方式獲取靜態頁面數據
使用requests模塊獲取 ajax 動態頁面數據
使用requests模塊模擬登錄網站
使用Tesseract進行驗證碼識別
Scrapy框架與Scrapy-Redis：
Scrapy 爬蟲框架大體說明
Scrapy spider 類
Scrapy item 及 pipeline
Scrapy CrawlSpider 類
通過Scrapy-Redis 實現分布式爬蟲
藉助自動化測試工具和瀏覽器爬取數據：
Selenium + PhantomJS 說明及簡單實例
Selenium + PhantomJS 實現網站登錄
Selenium + PhantomJS 實現動態頁面數據爬取
爬蟲項目實戰：
分布式爬蟲+ Elasticsearch 打造搜索引擎

⑺ 精通Python網路爬蟲之網路爬蟲學習路線

欲精通Python網路爬蟲，必先了解網路爬蟲學習路線，本篇經驗主要解決這個問題。部分內容參考自書籍《精通Python網路爬蟲》。

作者：韋瑋

轉載請註明出處

隨著大數據時代的到來，人們對數據資源的需求越來越多，而爬蟲是一種很好的自動採集數據的手段。

那麼，如何才能精通Python網路爬蟲呢？學習Python網路爬蟲的路線應該如何進行呢？在此為大傢具體進行介紹。

1、選擇一款合適的編程語言

事實上，Python、PHP、JAVA等常見的語言都可以用於編寫網路爬蟲，你首先需要選擇一款合適的編程語言，這些編程語言各有優勢，可以根據習慣進行選擇。在此筆者推薦使用Python進行爬蟲項目的編寫，其優點是：簡潔、掌握難度低。

2、掌握Python的一些基礎爬蟲模塊

當然，在進行這一步之前，你應當先掌握Python的一些簡單語法基礎，然後才可以使用Python語言進行爬蟲項目的開發。

在掌握了Python的語法基礎之後，你需要重點掌握一個Python的關於爬蟲開發的基礎模塊。這些模塊有很多可以供你選擇，比如urllib、requests等等，只需要精通一個基礎模塊即可，不必要都精通，因為都是大同小異的，在此推薦的是掌握urllib，當然你可以根據你的習慣進行選擇。

3、深入掌握一款合適的表達式

學會了如何爬取網頁內容之後，你還需要學會進行信息的提取。事實上，信息的提取你可以通過表達式進行實現，同樣，有很多表達式可以供你選擇使用，常見的有正則表達式、XPath表達式、BeautifulSoup等，這些表達式你沒有必要都精通，同樣，精通1-2個，其他的掌握即可，在此建議精通掌握正則表達式以及XPath表達式，其他的了解掌握即可。正則表達式可以處理的數據的范圍比較大，簡言之，就是能力比較強，XPath只能處理XML格式的數據，有些形式的數據不能處理，但XPath處理數據會比較快。

4、深入掌握抓包分析技術

事實上，很多網站都會做一些反爬措施，即不想讓你爬到他的數據。最常見的反爬手段就是對數據進行隱藏處理，這個時候，你就無法直接爬取相關的數據了。作為爬蟲方，如果需要在這種情況下獲取數據，那麼你需要對相應的數據進行抓包分析，然後再根據分析結果進行處理。一般推薦掌握的抓包分析工具是Fiddler，當然你也可以用其他的抓包分析工具，沒有特別的要求。

5、精通一款爬蟲框架

事實上，當你學習到這一步的時候，你已經入門了。

這個時候，你可能需要深入掌握一款爬蟲框架，因為採用框架開發爬蟲項目，效率會更加高，並且項目也會更加完善。

同樣，你可以有很多爬蟲框架進行選擇，比如Scrapy、pySpider等等，一樣的，你沒必要每一種框架都精通，只需要精通一種框架即可，其他框架都是大同小異的，當你深入精通一款框架的時候，其他的框架了解一下事實上你便能輕松使用，在此推薦掌握Scrapy框架，當然你可以根據習慣進行選擇。

6、掌握常見的反爬策略與反爬處理策略

反爬，是相對於網站方來說的，對方不想給你爬他站點的數據，所以進行了一些限制，這就是反爬。

反爬處理，是相對於爬蟲方來說的，在對方進行了反爬策略之後，你還想爬相應的數據，就需要有相應的攻克手段，這個時候，就需要進行反爬處理。

事實上，反爬以及反爬處理都有一些基本的套路，萬變不離其宗，這些後面作者會具體提到，感興趣的可以關注。

常見的反爬策略主要有：

IP限制

UA限制

Cookie限制

資源隨機化存儲

動態載入技術

……

對應的反爬處理手段主要有：

IP代理池技術

用戶代理池技術

Cookie保存與處理

自動觸發技術

抓包分析技術+自動觸發技術

……

這些大家在此先有一個基本的思路印象即可，後面都會具體通過實戰案例去介紹。

7、掌握PhantomJS、Selenium等工具的使用

有一些站點，通過常規的爬蟲很難去進行爬取，這個時候，你需要藉助一些工具模塊進行，比如PhantomJS、Selenium等，所以，你還需要掌握PhantomJS、Selenium等工具的常規使用方法。

8、掌握分布式爬蟲技術與數據去重技術

如果你已經學習或者研究到到了這里，那麼恭喜你，相信現在你爬任何網站都已經不是問題了，反爬對你來說也只是一道形同虛設的牆而已了。

但是，如果要爬取的資源非常非常多，靠一個單機爬蟲去跑，仍然無法達到你的目的，因為太慢了。

所以，這個時候，你還應當掌握一種技術，就是分布式爬蟲技術，分布式爬蟲的架構手段有很多，你可以依據真實的伺服器集群進行，也可以依據虛擬化的多台伺服器進行，你可以採用urllib+redis分布式架構手段，也可以採用Scrapy+redis架構手段，都沒關系，關鍵是，你可以將爬蟲任務部署到多台伺服器中就OK。

至於數據去重技術，簡單來說，目的就是要去除重復數據，如果數據量小，直接採用資料庫的數據約束進行實現，如果數據量很大，建議採用布隆過濾器實現數據去重即可，布隆過濾器的實現在Python中也是不難的。

以上是如果你想精通Python網路爬蟲的學習研究路線，按照這些步驟學習下去，可以讓你的爬蟲技術得到非常大的提升。

至於有些朋友問到，使用Windows系統還是Linux系統，其實，沒關系的，一般建議學習的時候使用Windows系統進行就行，比較考慮到大部分朋友對該系統比較數據，但是在實際運行爬蟲任務的時候，把爬蟲部署到Linux系統中運行，這樣效率比較高。由於Python的可移植性非常好，所以你在不同的平台中運行一個爬蟲，代碼基本上不用進行什麼修改，只需要學會部署到Linux中即可。所以，這也是為什麼說使用Windows系統還是Linux系統進行學習都沒多大影響的原因之一。

本篇文章主要是為那些想學習Python網路爬蟲，但是又不知道從何學起，怎麼學下去的朋友而寫的。希望通過本篇文章，可以讓你對Python網路爬蟲的研究路線有一個清晰的了解，這樣，本篇文章的目的就達到了，加油！

本文章由作者韋瑋原創，轉載請註明出處。

⑻ 如何利用Python嗅探數據包

一提到Python獲取數據包的方式，相信很多Python愛好者會利用Linux的libpcap軟體包或利用Windows下的WinPcap可移植版的方式進行抓取數據包，然後再利用dpkt軟體包進行協議分析，我們這里想換一個角度去思考：1.Python版本的pcap存儲內存數據過小，也就是說緩存不夠，在高並發下容易發生丟包現象，其實C版本的也同樣存在這樣的問題，只不過Python版本的緩存實在是過低，讓人很郁悶。2.dpkt協議分析並非必須，如果你對RFC791和RFC793等協議熟悉的話，完全可以使用struct.unpack的方式進行分析。如果你平常習慣使用tcpmp抓取數據包的話，完全可以使用它來代替pcap軟體包，只不過我們需要利用tcpmp將抓取的數據以pcap格式進行保存，說道這里大家一定會想到Wireshark工具，具體命令如下：tcpmpdst10.13.202.116andtcpdstport80-s0-ieth1-w../pcap/tcpmp.pcap-C1k-W5我們首先需要對pcap文件格式有所了解，具體信息大家可以參考其他資料文檔，我這里只說其重要的結構體組成，如下：sturctpcap_file_header{DWORDmagic;WORDversion_major;WORDversion_minor;DWORDthiszone;DWORDsigfigs;DWORDsnaplen;DWORDlinktype;}structpcap_pkthdr{structtimevalts;DWORDcaplen;DWORDlen;}structtimeval{DWORDGMTtime;DWORDmicroTime;}這里需要說明的一點是，因為在Python的世界裡一切都是對象，所以往往Python在處理數據包的時候感覺讓人比較麻煩。Python提供了幾個libpcapbind,這里有一個最簡單的。在windows平台上,你需要先安裝winpcap,如果你已經安裝了Ethereal非常好用。一個規范的抓包過程:importpcapimportdpktpc=pcap.pcap()#注，參數可為網卡名，如eth0pc.setfilter('tcpport80')#設置監聽過濾器forptime,pdatainpc:#ptime為收到時間，pdata為收到數據printptime,pdata#對抓到的乙太網V2數據包(rawpacket)進行解包:p=dpkt.ethernet.Ethernet(pdata)ifp.data.__class__.__name__=='IP':ip='%d.%d.%d.%d'%tuple(map(ord,list(p.data.dst)))ifp.data.data.__class__.__name__=='TCP':ifdata.dport==80:printp.data.data.data一些顯示參數nrecv,ndrop,nifdrop=pc.stats()返回的元組中，第一個參數為接收到的數據包，第二個參數為被核心丟棄的數據包。至於對於如何監控tcpmp生成的pcap文件數據，大家可以通過pyinotify軟體包來實現，如下：classPacker(pyinotify.ProcessEvent):def__init__(self,proct):self.proct=proctself.process=Nonedefprocess_IN_CREATE(self,event):logger.debug("createfile:%sinqueue"%self.process_IF_START_THREAD(event))defprocess_IN_MODIFY(self,event):self.process_IF_START_THREAD(event)logger.debug("modifyfile:%sinqueue"%self.process_IF_START_THREAD(event))defprocess_IN_DELETE(self,event):filename=os.path.join(event.path,event.name)logger.debug("deletefile:%s"%filename)defprocess_IF_START_THREAD(self,event):filename=os.path.join(event.path,event.name)iffilename!=self.process:self.process=filenameself.proct.put(filename)ifself.proct.qsize()>1:try:logger.debug("createconsumerproct.qsize:%s"%self.proct.qsize())consumer=Consumer(self.proct)consumer.start()exceptException,errmsg:logger.error("createconsumerfailed:%s"%errmsg)returnfilenameclassFactory(object):def__init__(self,proct):self.proct=proctself.manager=pyinotify.WatchManager()self.mask=pyinotify.IN_CREATE|pyinotify.IN_DELETE|pyinotify.IN_MODIFYdefwork(self):try:try:notifier=pyinotify.ThreadedNotifier(self.manager,Packer(self.proct))notifier.start()self.manager.add_watch("../pcap",self.mask,rec=True)notifier.join()exceptException,errmsg:logger.error("createnotifierfailed:%s"%errmsg)exceptKeyboardInterrupt,errmsg:logger.error("factoryhasbeenterminated:%s"%errmsg)在獲得要分析的pcap文件數據之後，就要對其分析了，只要你足夠了解pcap文件格式就可以了，對於我們來講只需要獲得TCP數據段的數據即可，如下：classWriter(threading.Thread):def__init__(self,proct,stack):threading.Thread.__init__(self)self.proct=proctself.stack=stackself.pcap_pkthdr={}defrun(self):whileTrue:filename=self.proct.get()try:f=open(filename,"rb")readlines=f.read()f.close()offset=24whilelen(readlines)>offset:self.pcap_pkthdr["len"]=readlines[offset+12:offset+16]try:length=struct.unpack("I",self.pcap_pkthdr["len"])[0]self.stack.put(readlines[offset+16:offset+16+length])offset+=length+16exceptException,errmsg:logger.error("unpackpcap_pkthdrfailed:%s"%errmsg)exceptIOError,errmsg:logger.error("openfilefailed:%s"%errmsg)在獲得TCP數據段的數據包之後，問題就簡單多了，根據大家的具體需求就可以進行相應的分析了，我這里是想分析其HTTP協議數據，同樣也藉助了dpkt軟體包進行分析，如下：defworker(memcache,packet,local_address,remote_address):try:p=dpkt.ethernet.Ethernet(packet)ifp.data.__class__.__name__=="IP":srcip="%d.%d.%d.%d"%tuple(map(ord,list(p.data.src)))dstip="%d.%d.%d.%d"%tuple(map(ord,list(p.data.dst)))ifp.data.data.__class__.__name__=="TCP":tcpacket=p.data.dataiftcpacket.dport==80anddstip==local_address:srcport=tcpacket.sportkey=srcip+":"+str(srcport)iftcpacket.data:ifnotmemcache.has_key(key):memcache[key]={}ifnotmemcache[key].has_key("response"):memcache[key]["response"]=Noneifmemcache[key].has_key("data"):memcache[key]["data"]+=tcpacket.dataelse:memcache[key]["data"]=tcpacket.dataelse:ifmemcache.has_key(key):memcache[key]["response"]=dpkt.http.Request(memcache[key]["data"])try:stackless.tasklet(connection)(memcache[key]["response"],local_address,remote_address)stackless.run()exceptException,errmsg:logger.error("connectremoteremote_addressfailed:%s",errmsg)logger.debug("oldheaders(nonecontent-length):%s",memcache[key]["response"])memcache.pop(key)exceptException,errmsg:logger.error("dpkt.ethernet.Ethernetfailedinworker:%s",errmsg)如果大家只是想單純的獲取IP地址、埠、流量信息，那麼問題就更簡單了，這里只是拋磚引玉。另外再提供一段代碼供參考:importpcap,dpkt,structimportbinasciidefmain():a=pcap.pcap()a.setfilter('udpportrange4000-4050')try:fori,pdataina:p=dpkt.ethernet.Ethernet(pdata)src='%d.%d.%d.%d'%tuple(map(ord,list(p.data.src)))dst='%d.%d.%d.%d'%tuple(map(ord,list(p.data.dst)))sport=p.data.data.sportdport=p.data.data.dport =int(binascii.hexlify(p.data.data.data[7:11]),16)print' :%d,From:%s:%d,To:%s:%d'%( ,src,sport,dst,dport)exceptException,e:print'%s'%en=raw_input()if__name__=='__main__':main()

⑼ 圖解Python中數據分析工具包：Numpy

numpy是我學習python遇到的第一個第三方工具包，它可以讓我們快速上手數據分析。numpy提供了向量和矩陣計算和處理的大部分介面。目前很多python的基礎工具包都是基於numpy開發而來，比如 scikit-learn, SciPy, pandas, 還有 tensorflow。 numpy可以處理表格、圖像、文本等數據，極大地方便我們處理和分析數據。本文主要內容來自於Jay Alammar的一篇文章以及自己學習記錄。
原文地址： https://jalammar.github.io/visual-numpy/

使用過程中，如果希望 Numpy 能創建並初始化數組的值， Numpy 提供了 ones()、zeros() 和 random.random() 等方法。只需傳遞希望生成的元素數量（大小）即可：

還可以進行如下操作：

一般，需要數組和單個數字之間也可以進行運算操作（即向量和標量之間的運算）。比如說 data * 1.6 ，numpy利用一個叫做廣播機制（broadcasting）的概念實現了這一運算。：

我們可以通過索引對numpy數據獲取任意位置數據或者對數據切片

我們可以通過numpy自帶的函數對數據進行一些想要的聚合計算，比如min、max 和 sum ，還可以使用 mean 得到平均值，使用 prod 得到所有元素的乘積，使用 std 得到標准差等等。

上述操作不僅可以應用於單維度數據，還可以用於多維度數據{（矩陣）。

同樣可以使用ones()、zeros() 和 random.random()創建矩陣，只要寫入一個描述矩陣維數的元組即可：

numpy還可以處理更高維度的數據：

創建更高維度數據只需要在創建時，在參數中增加一個維度值即可：

根據數組中數值是否滿足條件，輸出為True或False.

希望得到滿足條件的索引，用np.where函數實現.

根據索引得到對應位置的值.

np.where也可以接受另兩個可選擇的參數a和b。當條件滿足時，輸出a，反之輸出b.

獲取數組最大值和最小值的索引可以使用np.argmax和np.argmin.

1、numpy.tofile()和numpy.fromfile()
保存為二進制格式，但是不保存數組形狀和數據類型，即都壓縮為一維的數組，需要自己記錄數據的形狀，讀取的時候再reshape.

2、numpy.save() 和 numpy.load()
保存為二進制格式，保存數組形狀和數據類型，不需要進行reshape
實例：

3、numpy.savetxt()和numpy.loadtxt()

np.savetxt(fname,array,fmt=』%.18e』,delimiter=None)
Parameter解釋：
array:待存入文件的數組。
fmt:寫入文件的格式
實例：

導航:首頁 > 編程語言 > python抓包分析工具

python抓包分析工具

與python抓包分析工具相關的資料