python抓包分析工具_python32 下的抓包库无论是pypcap还是scapy貌似都没有py3的版本跪求一个可以python3用

⑴ python（六十五）抓包及其简单解析

04_抓包及其简单解析/01_分析摄图网.py：

04_抓包及其简单解析/02_xpinyin模块.py

04_抓包及其简单解析/03_requests_html模块.py：

04_抓包及其简单解析/04_摄图网简单解析.py：

文章到这里就结束了！希望大家能多多支持Python（系列）！六个月带大家学会Python，私聊我，可以问关于本文章的问题！以后每天都会发布新的文章，喜欢的点点关注！一个陪伴你学习Python的新青年！不管多忙都会更新下去，一起加油！

Editor：Lonelyroots

⑵ Python 爬虫之抓包的理解

目前主流的移动端抓包工具为：TcpDump、WireShark、Fiddler，他们的对比如下。

⑶ 四大网络抓包神器，总有一款适合你~

无论是开发还是测试，在工作中经常会遇到需要抓包的时候。本篇文章主要介绍如何在各个平台下，高效的抓包。

目前的抓包软件总体可以分为两类：

一种是设置代理抓取http包，比如Charles、mitmproxy这些软件。

另一种是直接抓取经过网卡的所有协议包，其中最出名就是大名鼎鼎的wireshark以及linux自带的抓包软件tcpmp。

下面重点介绍一下这四个抓包工具的特点以及使用。

wireshark想必大多数程序员都不会陌生。wireshark在各个平台都可以安装使用，它可以抓取经过指定网卡的所有协议。 wireshark虽然很强大，但是对初学者其实不是很友好。

这也正是由于它太强大，它可以抓取所有包，所以初学者在使用时面对茫茫数据流不知所措。初学者需要认真的去学习怎么过滤得到自己感兴趣的包，但是如果不熟悉wireshark的过滤语法，要过滤数据包将举步维艰。

过滤语法简单介绍

wireshark的过滤语法总结起来其实也很简单，就是以协议开头，后面可以跟着协议的属性，然后加上一些判断符号，比如contains、==、>、<等等。比如只想展示http的协议内容，则直接在过滤器输入框中输入http即可。

如下图：

比如我只想看http协议的请求头中uri包含’/api’的协议，就可以这么写：

如果想通过目标ip或者来源ip来过滤包，就不可以以http协议为前缀了，因为这些是ip协议的相关属性。通过目标ip来过滤可以这么写：

上面表示目标机器的ip是61.135.217.100并且协议是http的包。

wireshark支持很多种协议，我们可以通过右上角的expression来打开搜索支持的协议，还可以找出协议支持的属性，然后填入期待的值，软件会自动为我们构建过滤语句。

优点：

功能强大，可以抓取所有协议的包

抓到的包容易分析

缺点：

由于线上服务器没有GUI，只有命令行，因此无法在线上服务器使用

无法分析https数据包，由于wireshark是在链路层获取的数据包信息，所以获取到的https包是加密后的数据，因此无法分析包内容。当然，我们可以对https数据包进行解密，但是操作具有一定的复杂度，可能要消耗很多时间。

tcpmp是linux上自带的一个抓包软件(mac也有)，功能强大，也可以抓取经过指定网卡的所有协议包。

由于是命令行工具，tcpmp抓取到的包不易于分析，一个常见的做法是将tcpmp抓到的包输出到某个文件，然后将文件拷贝下来用wireshark分析。

一些简单的过滤参数：

抓包内容输出到文件：

之后我们可以把test.cap直接用wireshark打开，就可以很直观的分析包了。

用tcpmp输出cap文件包：

tcpmp-r test.cap

Charles是一款http抓包工具，它是通过代理来实现的抓包。也就是我们在访问网页时需要配置代理，将代理指向Charles监听的端口，之后我们的http请求都会发向Charles的端口，之后Charles会帮我们转发并记录协议内容。

Charles的使用非常简单，配置好代理后，Charles就开始抓包了。

我们可以直接通过Charles的GUi查看包的内容：

上图中的unknown表示https加密后的数据，所以看到不协议的具体内容。我们可以通过安装Charles的证书，让Charles也可以查看https协议的具体内容。

优点 :

使用简单，只需配置一下代理地址就可以

要抓取https协议的配置也很简单，只要安装下charles的证书就可以了

mitmproxy是python写的一款http抓包工具，虽然只支持http抓包，但是它的特性非常强大，它不仅可以抓包，还可以对请求进行拦截、重现等操作。和Charles一样，它的原理也是基于代理，使用的时候需要设置代理指向它。

mitmproxy是命令行工具，但是也自带了mitmweb工具，可以让用户在网页上操作。另外，mitmproxy还支持用户自行编写插件，可以编写脚本对请求进行处理，然后把修改后的请求发出去。

1、安装

首先需要在机器安装python3以及pip3.之后通过pip3安装

pip3 install mitmproxy

如果安装mitmproxy过程中报错MoleNotFoundError: No mole named '_ssl'，就需要安装一下OpenSSL，然后再重新编译安装一下python3。

安装好openSSL后再执行pip3 install mitmproxy

2、使用

安装后，直接在命令行输入mitmproxy就会进入它的交互界面：

这时候mitmproxy已经开始监听8080端口(默认)，接着，我们可以去浏览器设置代理。浏览器设置代理的方式有很多,这里不多做介绍。

设置完代理后，访问浏览器的请求都会被发到mitmproxy上，mitmproxy根据规则对请求进行拦截(不配置拦截规则的话则都不拦截)，所有经过的请求都会被输出：

在交互界面上可以通过快捷键操作请求。输入问号’?’，可以查看快捷键的文档。

3、下面介绍一些常用的快捷键和功能

① 请求过滤

在请求列表交互界面，按下f键后，可以输入一些过滤规则：

具体的过滤语法可以按下’?‘键后，再按下方向键右’—>’或者l键。

② 请求拦截

按下i键后，可以对指定的请求进行拦截。按mitmproxy收到指定条件的请求时，不会立马把它转发出去，而是等待我们执行resume操作后，才会把请求转发出去——在这期间我们甚至可以对请求进行手动修改。

红色字体表示该请求被拦截，之后我们可以按入a键来恢复该请求，可以输入A键恢复所有被拦截的请求。

③ 查看/编辑请求

把指示光标移动到某个请求上，按回车可以查看请求的内容。或者鼠标直接点击请求也可以。

之后通过左右方向键可以查看request、response、detail等信息。

如果要编辑请求，可以在这个界面输入e，然后会让我们选择编辑哪块内容：

之后就会进入vim编辑界面编辑相应的内容了（保存后会生效）。

④ 重发请求

mitmproxy的光标指向某个请求时，按下r键可以重发这个请求(重发前可以对该请求进行编辑)。

按下’:’键后，可以输入命令，这样我们就可以通过过滤规则批量的重发请求

replay.client是mitmproxy内置的一个命令，我们也可以自行编写命令。命令的编写可以参考官网文档，这里不做介绍。

⑤ 插件开发

我们可以编写插件，然后再启动的时候指定插件，mitmproxy处理请求的时候会执行一个插件的链，这样我们就可以对请求进行编辑然后再发送出去了。

借用官网的插件demo：

这个方法对每一个请求进行处理，然后打印序号。通过mitmproxy -s test.py来让插件生效。通过插件可以绑定各种连接事件。感兴趣的朋友可以自行去mitmproxy官网看文档，这里不多做介绍。

⑥ 保存抓到的请求数据

通过w快捷键我们可以把这次抓到的请求包保存到文件上。

通过mitmproxy -r file可以读取以前抓取的请求信息进行分析。

优点：

命令行操作，可以在无GUI界面的服务器上使用

对于这几个抓包神器，我总结了下使用场景：

只抓http协议的话：

推荐使用mitmproxy。mitmproxy丰富的功能不仅可以满足我们的抓包需求，还可以提升我们的工作效率。比如测试可以抓包后一键重发请求来重现bug，开发调试的时候可以修改请求内容等等。

如果是在线上的没有GUI的服务器：

推荐使用tcpmp，虽然mitmproxy也可以支持命令行抓包，但是生产环境的服务器最好不要乱安装第三方插件。另外，大多数服务器都有装tcpmp。我们可以通过把请求的内容输出到文件，然后拷贝会自己的电脑用wireshark分析。

想要抓取http以外的协议的话：

直接上wireshark。功能强大。对于Charles，感觉用了mitmproxy之后，就基本用不上Charles了。Charles好像也可以编辑后再发送，但是感觉不是很好用，可能我用的不是很熟吧。

⑷ python3.2 下的抓包库。。无论是pypcap还是scapy。貌似都没有py3的版本。。跪求一个可以python3用

有一个py3kcap是pycap的封装版本，可以用于python3版本。

给你一个使用的示例代码：

#!/usr/bin/env python3.2
import ctypes,sys
from ctypes.util import find_library
#pcap = ctypes.cdll.LoadLibrary("libpcap.so")
pcap = None
if(find_library("libpcap") == None):
print("We are here!")
pcap = ctypes.cdll.LoadLibrary("libpcap.so")
else:
pcap = ctypes.cdll.LoadLibrary(find_library("libpcap"))
# required so we can access bpf_program->bf_insns
"""
struct bpf_program {
u_int bf_len;
struct bpf_insn *bf_insns;}
"""
class bpf_program(ctypes.Structure):
_fields_ = [("bf_len", ctypes.c_int),("bf_insns", ctypes.c_void_p)]
class sockaddr(ctypes.Structure):
_fields_=[("sa_family",ctypes.c_uint16),("sa_data",ctypes.c_char*14)]
class pcap_pkthdr(ctypes.Structure):
_fields_ = [("tv_sec", ctypes.c_long), ("tv_usec", ctypes.c_long), ("caplen", ctypes.c_uint), ("len", ctypes.c_uint)]

pkthdr = pcap_pkthdr()
program = bpf_program()
# prepare args
snaplen = ctypes.c_int(1500)
#buf = ctypes.c_char_p(filter)
optimize = ctypes.c_int(1)
mask = ctypes.c_uint()
net = ctypes.c_uint()
to_ms = ctypes.c_int(100000)
promisc = ctypes.c_int(1)
filter = bytes(str("port 80"), 'ascii')
buf = ctypes.c_char_p(filter)
errbuf = ctypes.create_string_buffer(256)
pcap_close = pcap.pcap_close
pcap_lookupdev = pcap.pcap_lookupdev
pcap_lookupdev.restype = ctypes.c_char_p
#pcap_lookupnet(dev, &net, &mask, errbuf)
pcap_lookupnet = pcap.pcap_lookupnet
#pcap_t *pcap_open_live(const char *device, int snaplen,int promisc, int to_ms,
#char *errbuf
pcap_open_live = pcap.pcap_open_live
#int pcap_compile(pcap_t *p, struct bpf_program *fp,const char *str, int optimize,
#bpf_u_int32 netmask)
pcap_compile = pcap.pcap_compile
#int pcap_setfilter(pcap_t *p, struct bpf_program *fp);
pcap_setfilter = pcap.pcap_setfilter
#const u_char *pcap_next(pcap_t *p, struct pcap_pkthdr *h);
pcap_next = pcap.pcap_next
# int pcap_compile_nopcap(int snaplen, int linktype, struct bpf_program *program,
# const char *buf, int optimize, bpf_u_int32 mask);
pcap_geterr = pcap.pcap_geterr
pcap_geterr.restype = ctypes.c_char_p
#check for default lookup device
dev = pcap_lookupdev(errbuf)
#override it for now ..
dev = bytes(str("wlan0"), 'ascii')
if(dev):
print("{0} is the default interface".format(dev))
else:
print("Was not able to find default interface")

if(pcap_lookupnet(dev,ctypes.byref(net),ctypes.byref(mask),errbuf) == -1):
print("Error could not get netmask for device {0}".format(errbuf))
sys.exit(0)
else:
print("Got Required netmask")
handle = pcap_open_live(dev,snaplen,promisc,to_ms,errbuf)
if(handle is False):
print("Error unable to open session : {0}".format(errbuf.value))
sys.exit(0)
else:
print("Pcap open live worked!")
if(pcap_compile(handle,ctypes.byref(program),buf,optimize,mask) == -1):
# this requires we call pcap_geterr() to get the error
err = pcap_geterr(handle)
print("Error could not compile bpf filter because {0}".format(err))
else:
print("Filter Compiled!")
if(pcap_setfilter(handle,ctypes.byref(program)) == -1):
print("Error couldn't install filter {0}".format(errbuf.value))
sys.exit(0)
else:
print("Filter installed!")
if(pcap_next(handle,ctypes.byref(pkthdr)) == -1):
err = pcap_geterr(handle)
print("ERROR pcap_next: {0}".format(err))
print("Got {0} bytes of data".format(pkthdr.len))
pcap_close(handle)

⑸ python自动化工具：pywinauto

Pywinauto是完全由Python构建的一个模块，可以用于自动化 Windows 上的 GUI 应用程序。同时，它支持鼠标、键盘操作，在元素控件树较复杂的界面，可以辅助我们完成自动化操作。

我在工作中，主要是使用pywinauto来辅助做一些操作，来完成自动化测试。

先要确认本地有python环境，然后可以通过命令行安装pywinauto：

如果你是使用ide，可以通过ide安装，比如我习惯使用pycharm，就可以在Project Interpreter中添加pywinauto：

还有一些手动安装的方法，但是有点繁琐，不是很推荐，这里就不介绍了。

Pywinauto要操作应用，首先需要访问应用，主要有两种访问技术。WIN32访问技术支持MFC、VB6、VCL、简单WinForms控件开发的应用，MS UI Automation访问技术支持WinForms、WPS、QT5、WPF、Store apps、browsers等开发的应用。

win32 API的backend为“ win32 ”，MS UI Automation的backend为“ uia ”。

Pywinauto中使用的backend默认为win32。可使用spy++或者Inspect工具判断backend适合选哪种。例如：如果使用py_inspect的uia模式，可见的控件和属性更多的话，backend可选uia，反之，backend可选win32。

这里提一下常用的分析工具：

我个人常用的是py_inspect和spy++。

多数情况下都是需要打开应用的，实现方式也很简单：

backend参数根据实际情况选择传uia还是win32。

start方法其实可以传两个参数，除了目标应用的启动程序地址，还可以传一个timeout，如果不传，默认是5s。如果你的目标程序启动、运行都很慢，可以将timeout设置久一点。

如果要操控的应用已经处于启动状态，可以直接进行连接，而连接方式有多种可以选择：

其中Windows的pid可以通过任务管理器进行查看：

但是我在实际操作的时候使用窗口句柄没有成功过，可能是我使用姿势不对，不过还是不推荐使用窗口句柄。

title_re参数传递的是应用的部分名称，class_name可以通过py_inspect查询到。

前面获取的对象都是应用，但是我们实际操作的是应用窗口，这里就来介绍怎么获取窗口和对话框。

最常用的是通过 title定位：

如果不清楚定位工具中的title在哪个位置，显示的是什么，可以通过print_control_identifiers()方法将所有的title都打印出来：

通过title定位的时候需要注意一下中英文的影响，如果是中文，可能会有编码问题，需要转码。

title其实只是window()方法中的一种关键字参数，window()方法可以接收很多中的关键字参数，且这些参数可以组合使用，例如这样：

主要参数有这些：

通过top_window()也能比较容易地获取到窗口，但是这个方法获取的是程序的顶级窗口，但可能不是Z-Order中的顶级窗口。所以这个方法使用的时候多调试几次。

窗口的操作主要有最小化、最大化、恢复、关闭窗口：

控件的定位其实和窗口的定位基本一致，不太清楚为什么pywinauto在设计的时候会将窗口和控件作为一类东西。

相对于前面定位窗口的window()方法，定位控件的时候推荐使用child_window()，因为直接使用windows()的话，如果控件不是在当前窗口的子控件，是子子控件，就会定位不到，而child_window()方法就不会有这个问题，当然相对的缺点就是当控件深度太深的时候，执行这个方法会比较耗时。

child_window()方法传递的参数和window()是一样的。

控件自带了一些操作方法：

当这些不好用的时候，比如你的控件不支持点击，但是你又想点击一下，可以使用鼠标操作的一些方法：

测试过程中可能会需要截图作为证据，截图的方法也比较简单：

pywinauto也提供了键盘操作的方法：

pywinauto有几个设置等待时间的方式，这里介绍一个：

这里简单的演示一下用Wireshark自动抓包并保存：

PC端自动化测试使用到的python模块主要有pywinauto、win32gui、pyautogui。这里介绍的p ywinauto主要使用到Application类，用于应用程序管理（打开与关闭应用等）、窗口管理（最小化、最大化、关闭窗口）、控件操作。

pywinauto的功能其实挺丰富的，但是真正用到的其实只是其中很小的一块，感兴趣的同学可以多去官网翻一翻。

⑹ python爬虫入门需要哪些基础

现在之所以有这么多的小伙伴热衷于爬虫技术，无外乎是因为爬虫可以帮我们做很多事情，比如搜索引擎、采集数据、广告过滤等，以Python为例，Python爬虫可以用于数据分析，在数据抓取方面发挥巨大的作用。
但是这并不意味着单纯掌握一门Python语言，就对爬虫技术触类旁通，要学习的知识和规范还有喜很多，包括但不仅限于HTML 知识、HTTP/HTTPS 协议的基本知识、正则表达式、数据库知识，常用抓包工具的使用、爬虫框架的使用等。而且涉及到大规模爬虫，还需要了解分布式的概念、消息队列、常用的数据结构和算法、缓存，甚至还包括机器学习的应用，大规模的系统背后都是靠很多技术来支撑的。
零基础如何学爬虫技术？对于迷茫的初学者来说，爬虫技术起步学习阶段，最重要的就是明确学习路径，找准学习方法，唯有如此，在良好的学习习惯督促下，后期的系统学习才会事半功倍，游刃有余。
用Python写爬虫，首先需要会Python，把基础语法搞懂，知道怎么使用函数、类和常用的数据结构如list、dict中的常用方法就算基本入门。作为入门爬虫来说，需要了解 HTTP协议的基本原理，虽然 HTTP 规范用一本书都写不完，但深入的内容可以放以后慢慢去看，理论与实践相结合后期学习才会越来越轻松。关于爬虫学习的具体步骤，我大概罗列了以下几大部分，大家可以参考：
网络爬虫基础知识:
爬虫的定义
爬虫的作用
Http协议
基本抓包工具(Fiddler)使用
Python模块实现爬虫：
urllib3、requests、lxml、bs4 模块大体作用讲解
使用requests模块 get 方式获取静态页面数据
使用requests模块 post 方式获取静态页面数据
使用requests模块获取 ajax 动态页面数据
使用requests模块模拟登录网站
使用Tesseract进行验证码识别
Scrapy框架与Scrapy-Redis：
Scrapy 爬虫框架大体说明
Scrapy spider 类
Scrapy item 及 pipeline
Scrapy CrawlSpider 类
通过Scrapy-Redis 实现分布式爬虫
借助自动化测试工具和浏览器爬取数据：
Selenium + PhantomJS 说明及简单实例
Selenium + PhantomJS 实现网站登录
Selenium + PhantomJS 实现动态页面数据爬取
爬虫项目实战：
分布式爬虫+ Elasticsearch 打造搜索引擎

⑺ 精通Python网络爬虫之网络爬虫学习路线

欲精通Python网络爬虫，必先了解网络爬虫学习路线，本篇经验主要解决这个问题。部分内容参考自书籍《精通Python网络爬虫》。

作者：韦玮

转载请注明出处

随着大数据时代的到来，人们对数据资源的需求越来越多，而爬虫是一种很好的自动采集数据的手段。

那么，如何才能精通Python网络爬虫呢？学习Python网络爬虫的路线应该如何进行呢？在此为大家具体进行介绍。

1、选择一款合适的编程语言

事实上，Python、PHP、JAVA等常见的语言都可以用于编写网络爬虫，你首先需要选择一款合适的编程语言，这些编程语言各有优势，可以根据习惯进行选择。在此笔者推荐使用Python进行爬虫项目的编写，其优点是：简洁、掌握难度低。

2、掌握Python的一些基础爬虫模块

当然，在进行这一步之前，你应当先掌握Python的一些简单语法基础，然后才可以使用Python语言进行爬虫项目的开发。

在掌握了Python的语法基础之后，你需要重点掌握一个Python的关于爬虫开发的基础模块。这些模块有很多可以供你选择，比如urllib、requests等等，只需要精通一个基础模块即可，不必要都精通，因为都是大同小异的，在此推荐的是掌握urllib，当然你可以根据你的习惯进行选择。

3、深入掌握一款合适的表达式

学会了如何爬取网页内容之后，你还需要学会进行信息的提取。事实上，信息的提取你可以通过表达式进行实现，同样，有很多表达式可以供你选择使用，常见的有正则表达式、XPath表达式、BeautifulSoup等，这些表达式你没有必要都精通，同样，精通1-2个，其他的掌握即可，在此建议精通掌握正则表达式以及XPath表达式，其他的了解掌握即可。正则表达式可以处理的数据的范围比较大，简言之，就是能力比较强，XPath只能处理XML格式的数据，有些形式的数据不能处理，但XPath处理数据会比较快。

4、深入掌握抓包分析技术

事实上，很多网站都会做一些反爬措施，即不想让你爬到他的数据。最常见的反爬手段就是对数据进行隐藏处理，这个时候，你就无法直接爬取相关的数据了。作为爬虫方，如果需要在这种情况下获取数据，那么你需要对相应的数据进行抓包分析，然后再根据分析结果进行处理。一般推荐掌握的抓包分析工具是Fiddler，当然你也可以用其他的抓包分析工具，没有特别的要求。

5、精通一款爬虫框架

事实上，当你学习到这一步的时候，你已经入门了。

这个时候，你可能需要深入掌握一款爬虫框架，因为采用框架开发爬虫项目，效率会更加高，并且项目也会更加完善。

同样，你可以有很多爬虫框架进行选择，比如Scrapy、pySpider等等，一样的，你没必要每一种框架都精通，只需要精通一种框架即可，其他框架都是大同小异的，当你深入精通一款框架的时候，其他的框架了解一下事实上你便能轻松使用，在此推荐掌握Scrapy框架，当然你可以根据习惯进行选择。

6、掌握常见的反爬策略与反爬处理策略

反爬，是相对于网站方来说的，对方不想给你爬他站点的数据，所以进行了一些限制，这就是反爬。

反爬处理，是相对于爬虫方来说的，在对方进行了反爬策略之后，你还想爬相应的数据，就需要有相应的攻克手段，这个时候，就需要进行反爬处理。

事实上，反爬以及反爬处理都有一些基本的套路，万变不离其宗，这些后面作者会具体提到，感兴趣的可以关注。

常见的反爬策略主要有：

IP限制

UA限制

Cookie限制

资源随机化存储

动态加载技术

……

对应的反爬处理手段主要有：

IP代理池技术

用户代理池技术

Cookie保存与处理

自动触发技术

抓包分析技术+自动触发技术

……

这些大家在此先有一个基本的思路印象即可，后面都会具体通过实战案例去介绍。

7、掌握PhantomJS、Selenium等工具的使用

有一些站点，通过常规的爬虫很难去进行爬取，这个时候，你需要借助一些工具模块进行，比如PhantomJS、Selenium等，所以，你还需要掌握PhantomJS、Selenium等工具的常规使用方法。

8、掌握分布式爬虫技术与数据去重技术

如果你已经学习或者研究到到了这里，那么恭喜你，相信现在你爬任何网站都已经不是问题了，反爬对你来说也只是一道形同虚设的墙而已了。

但是，如果要爬取的资源非常非常多，靠一个单机爬虫去跑，仍然无法达到你的目的，因为太慢了。

所以，这个时候，你还应当掌握一种技术，就是分布式爬虫技术，分布式爬虫的架构手段有很多，你可以依据真实的服务器集群进行，也可以依据虚拟化的多台服务器进行，你可以采用urllib+redis分布式架构手段，也可以采用Scrapy+redis架构手段，都没关系，关键是，你可以将爬虫任务部署到多台服务器中就OK。

至于数据去重技术，简单来说，目的就是要去除重复数据，如果数据量小，直接采用数据库的数据约束进行实现，如果数据量很大，建议采用布隆过滤器实现数据去重即可，布隆过滤器的实现在Python中也是不难的。

以上是如果你想精通Python网络爬虫的学习研究路线，按照这些步骤学习下去，可以让你的爬虫技术得到非常大的提升。

至于有些朋友问到，使用Windows系统还是Linux系统，其实，没关系的，一般建议学习的时候使用Windows系统进行就行，比较考虑到大部分朋友对该系统比较数据，但是在实际运行爬虫任务的时候，把爬虫部署到Linux系统中运行，这样效率比较高。由于Python的可移植性非常好，所以你在不同的平台中运行一个爬虫，代码基本上不用进行什么修改，只需要学会部署到Linux中即可。所以，这也是为什么说使用Windows系统还是Linux系统进行学习都没多大影响的原因之一。

本篇文章主要是为那些想学习Python网络爬虫，但是又不知道从何学起，怎么学下去的朋友而写的。希望通过本篇文章，可以让你对Python网络爬虫的研究路线有一个清晰的了解，这样，本篇文章的目的就达到了，加油！

本文章由作者韦玮原创，转载请注明出处。

⑻ 如何利用Python嗅探数据包

一提到Python获取数据包的方式，相信很多Python爱好者会利用Linux的libpcap软件包或利用Windows下的WinPcap可移植版的方式进行抓取数据包，然后再利用dpkt软件包进行协议分析，我们这里想换一个角度去思考：1.Python版本的pcap存储内存数据过小，也就是说缓存不够，在高并发下容易发生丢包现象，其实C版本的也同样存在这样的问题，只不过Python版本的缓存实在是过低，让人很郁闷。2.dpkt协议分析并非必须，如果你对RFC791和RFC793等协议熟悉的话，完全可以使用struct.unpack的方式进行分析。如果你平常习惯使用tcpmp抓取数据包的话，完全可以使用它来代替pcap软件包，只不过我们需要利用tcpmp将抓取的数据以pcap格式进行保存，说道这里大家一定会想到Wireshark工具，具体命令如下：tcpmpdst10.13.202.116andtcpdstport80-s0-ieth1-w../pcap/tcpmp.pcap-C1k-W5我们首先需要对pcap文件格式有所了解，具体信息大家可以参考其他资料文档，我这里只说其重要的结构体组成，如下：sturctpcap_file_header{DWORDmagic;WORDversion_major;WORDversion_minor;DWORDthiszone;DWORDsigfigs;DWORDsnaplen;DWORDlinktype;}structpcap_pkthdr{structtimevalts;DWORDcaplen;DWORDlen;}structtimeval{DWORDGMTtime;DWORDmicroTime;}这里需要说明的一点是，因为在Python的世界里一切都是对象，所以往往Python在处理数据包的时候感觉让人比较麻烦。Python提供了几个libpcapbind,这里有一个最简单的。在windows平台上,你需要先安装winpcap,如果你已经安装了Ethereal非常好用。一个规范的抓包过程:importpcapimportdpktpc=pcap.pcap()#注，参数可为网卡名，如eth0pc.setfilter('tcpport80')#设置监听过滤器forptime,pdatainpc:#ptime为收到时间，pdata为收到数据printptime,pdata#对抓到的以太网V2数据包(rawpacket)进行解包:p=dpkt.ethernet.Ethernet(pdata)ifp.data.__class__.__name__=='IP':ip='%d.%d.%d.%d'%tuple(map(ord,list(p.data.dst)))ifp.data.data.__class__.__name__=='TCP':ifdata.dport==80:printp.data.data.data一些显示参数nrecv,ndrop,nifdrop=pc.stats()返回的元组中，第一个参数为接收到的数据包，第二个参数为被核心丢弃的数据包。至于对于如何监控tcpmp生成的pcap文件数据，大家可以通过pyinotify软件包来实现，如下：classPacker(pyinotify.ProcessEvent):def__init__(self,proct):self.proct=proctself.process=Nonedefprocess_IN_CREATE(self,event):logger.debug("createfile:%sinqueue"%self.process_IF_START_THREAD(event))defprocess_IN_MODIFY(self,event):self.process_IF_START_THREAD(event)logger.debug("modifyfile:%sinqueue"%self.process_IF_START_THREAD(event))defprocess_IN_DELETE(self,event):filename=os.path.join(event.path,event.name)logger.debug("deletefile:%s"%filename)defprocess_IF_START_THREAD(self,event):filename=os.path.join(event.path,event.name)iffilename!=self.process:self.process=filenameself.proct.put(filename)ifself.proct.qsize()>1:try:logger.debug("createconsumerproct.qsize:%s"%self.proct.qsize())consumer=Consumer(self.proct)consumer.start()exceptException,errmsg:logger.error("createconsumerfailed:%s"%errmsg)returnfilenameclassFactory(object):def__init__(self,proct):self.proct=proctself.manager=pyinotify.WatchManager()self.mask=pyinotify.IN_CREATE|pyinotify.IN_DELETE|pyinotify.IN_MODIFYdefwork(self):try:try:notifier=pyinotify.ThreadedNotifier(self.manager,Packer(self.proct))notifier.start()self.manager.add_watch("../pcap",self.mask,rec=True)notifier.join()exceptException,errmsg:logger.error("createnotifierfailed:%s"%errmsg)exceptKeyboardInterrupt,errmsg:logger.error("factoryhasbeenterminated:%s"%errmsg)在获得要分析的pcap文件数据之后，就要对其分析了，只要你足够了解pcap文件格式就可以了，对于我们来讲只需要获得TCP数据段的数据即可，如下：classWriter(threading.Thread):def__init__(self,proct,stack):threading.Thread.__init__(self)self.proct=proctself.stack=stackself.pcap_pkthdr={}defrun(self):whileTrue:filename=self.proct.get()try:f=open(filename,"rb")readlines=f.read()f.close()offset=24whilelen(readlines)>offset:self.pcap_pkthdr["len"]=readlines[offset+12:offset+16]try:length=struct.unpack("I",self.pcap_pkthdr["len"])[0]self.stack.put(readlines[offset+16:offset+16+length])offset+=length+16exceptException,errmsg:logger.error("unpackpcap_pkthdrfailed:%s"%errmsg)exceptIOError,errmsg:logger.error("openfilefailed:%s"%errmsg)在获得TCP数据段的数据包之后，问题就简单多了，根据大家的具体需求就可以进行相应的分析了，我这里是想分析其HTTP协议数据，同样也借助了dpkt软件包进行分析，如下：defworker(memcache,packet,local_address,remote_address):try:p=dpkt.ethernet.Ethernet(packet)ifp.data.__class__.__name__=="IP":srcip="%d.%d.%d.%d"%tuple(map(ord,list(p.data.src)))dstip="%d.%d.%d.%d"%tuple(map(ord,list(p.data.dst)))ifp.data.data.__class__.__name__=="TCP":tcpacket=p.data.dataiftcpacket.dport==80anddstip==local_address:srcport=tcpacket.sportkey=srcip+":"+str(srcport)iftcpacket.data:ifnotmemcache.has_key(key):memcache[key]={}ifnotmemcache[key].has_key("response"):memcache[key]["response"]=Noneifmemcache[key].has_key("data"):memcache[key]["data"]+=tcpacket.dataelse:memcache[key]["data"]=tcpacket.dataelse:ifmemcache.has_key(key):memcache[key]["response"]=dpkt.http.Request(memcache[key]["data"])try:stackless.tasklet(connection)(memcache[key]["response"],local_address,remote_address)stackless.run()exceptException,errmsg:logger.error("connectremoteremote_addressfailed:%s",errmsg)logger.debug("oldheaders(nonecontent-length):%s",memcache[key]["response"])memcache.pop(key)exceptException,errmsg:logger.error("dpkt.ethernet.Ethernetfailedinworker:%s",errmsg)如果大家只是想单纯的获取IP地址、端口、流量信息，那么问题就更简单了，这里只是抛砖引玉。另外再提供一段代码供参考:importpcap,dpkt,structimportbinasciidefmain():a=pcap.pcap()a.setfilter('udpportrange4000-4050')try:fori,pdataina:p=dpkt.ethernet.Ethernet(pdata)src='%d.%d.%d.%d'%tuple(map(ord,list(p.data.src)))dst='%d.%d.%d.%d'%tuple(map(ord,list(p.data.dst)))sport=p.data.data.sportdport=p.data.data.dport =int(binascii.hexlify(p.data.data.data[7:11]),16)print' :%d,From:%s:%d,To:%s:%d'%( ,src,sport,dst,dport)exceptException,e:print'%s'%en=raw_input()if__name__=='__main__':main()

⑼ 图解Python中数据分析工具包：Numpy

numpy是我学习python遇到的第一个第三方工具包，它可以让我们快速上手数据分析。numpy提供了向量和矩阵计算和处理的大部分接口。目前很多python的基础工具包都是基于numpy开发而来，比如 scikit-learn, SciPy, pandas, 还有 tensorflow。 numpy可以处理表格、图像、文本等数据，极大地方便我们处理和分析数据。本文主要内容来自于Jay Alammar的一篇文章以及自己学习记录。
原文地址： https://jalammar.github.io/visual-numpy/

使用过程中，如果希望 Numpy 能创建并初始化数组的值， Numpy 提供了 ones()、zeros() 和 random.random() 等方法。只需传递希望生成的元素数量（大小）即可：

还可以进行如下操作：

一般，需要数组和单个数字之间也可以进行运算操作（即向量和标量之间的运算）。比如说 data * 1.6 ，numpy利用一个叫做广播机制（broadcasting）的概念实现了这一运算。：

我们可以通过索引对numpy数据获取任意位置数据或者对数据切片

我们可以通过numpy自带的函数对数据进行一些想要的聚合计算，比如min、max 和 sum ，还可以使用 mean 得到平均值，使用 prod 得到所有元素的乘积，使用 std 得到标准差等等。

上述操作不仅可以应用于单维度数据，还可以用于多维度数据{（矩阵）。

同样可以使用ones()、zeros() 和 random.random()创建矩阵，只要写入一个描述矩阵维数的元组即可：

numpy还可以处理更高维度的数据：

创建更高维度数据只需要在创建时，在参数中增加一个维度值即可：

根据数组中数值是否满足条件，输出为True或False.

希望得到满足条件的索引，用np.where函数实现.

根据索引得到对应位置的值.

np.where也可以接受另两个可选择的参数a和b。当条件满足时，输出a，反之输出b.

获取数组最大值和最小值的索引可以使用np.argmax和np.argmin.

1、numpy.tofile()和numpy.fromfile()
保存为二进制格式，但是不保存数组形状和数据类型，即都压缩为一维的数组，需要自己记录数据的形状，读取的时候再reshape.

2、numpy.save() 和 numpy.load()
保存为二进制格式，保存数组形状和数据类型，不需要进行reshape
实例：

3、numpy.savetxt()和numpy.loadtxt()

np.savetxt(fname,array,fmt=’%.18e’,delimiter=None)
Parameter解释：
array:待存入文件的数组。
fmt:写入文件的格式
实例：

导航:首页 > 编程语言 > python抓包分析工具

python抓包分析工具

与python抓包分析工具相关的资料