python抓包教程_python爬虫什么教程最好

1. 如何利用python2.7实现网页的抓包拦包改包功能有没有范例

登陆其实就是将账号密码之类的POST到那个网站的服务器。你可以通过抓包看到你点击登陆时发的POST包。那么你用python也模拟发一个一样的包给服务器，就实现了模拟登陆呗。

2. Python爬虫教程和Python学习路径有哪些

现在之所以有这么多的小伙伴热衷于爬虫技术，无外乎是因为爬虫可以帮我们做很多事情，比如搜索引擎、采集数据、广告过滤等，以Python为例，Python爬虫可以用于数据分析，在数据抓取方面发挥巨大的作用。
但是这并不意味着单纯掌握一门Python语言，就对爬虫技术触类旁通，要学习的知识和规范还有喜很多，包括但不仅限于HTML 知识、HTTP/HTTPS 协议的基本知识、正则表达式、数据库知识，常用抓包工具的使用、爬虫框架的使用等。而且涉及到大规模爬虫，还需要了解分布式的概念、消息队列、常用的数据结构和算法、缓存，甚至还包括机器学习的应用，大规模的系统背后都是靠很多技术来支撑的。
零基础如何学爬虫技术？对于迷茫的初学者来说，爬虫技术起步学习阶段，最重要的就是明确学习路径，找准学习方法，唯有如此，在良好的学习习惯督促下，后期的系统学习才会事半功倍，游刃有余。
用Python写爬虫，首先需要会Python，把基础语法搞懂，知道怎么使用函数、类和常用的数据结构如list、dict中的常用方法就算基本入门。作为入门爬虫来说，需要了解 HTTP协议的基本原理，虽然 HTTP 规范用一本书都写不完，但深入的内容可以放以后慢慢去看，理论与实践相结合后期学习才会越来越轻松。关于爬虫学习的具体步骤，我大概罗列了以下几大部分，大家可以参考：
网络爬虫基础知识:
爬虫的定义
爬虫的作用
Http协议
基本抓包工具(Fiddler)使用
Python模块实现爬虫：
urllib3、requests、lxml、bs4 模块大体作用讲解
使用requests模块 get 方式获取静态页面数据
使用requests模块 post 方式获取静态页面数据
使用requests模块获取 ajax 动态页面数据
使用requests模块模拟登录网站
使用Tesseract进行验证码识别
Scrapy框架与Scrapy-Redis：
Scrapy 爬虫框架大体说明
Scrapy spider 类
Scrapy item 及 pipeline
Scrapy CrawlSpider 类
通过Scrapy-Redis 实现分布式爬虫
借助自动化测试工具和浏览器爬取数据：
Selenium + PhantomJS 说明及简单实例
Selenium + PhantomJS 实现网站登录
Selenium + PhantomJS 实现动态页面数据爬取
爬虫项目实战：
分布式爬虫+ Elasticsearch 打造搜索引擎

3. python爬虫什么教程最好

可以看这个教程：网页链接

此教程通过三个爬虫案例来使学员认识Scrapy框架、了解Scrapy的架构、熟悉Scrapy各模块。

此教程的大致内容：

1、Scrapy的简介。

主要知识点：Scrapy的架构和运作流程。

2、搭建开发环境：

主要知识点：Windows及Linux环境下Scrapy的安装。

3、Scrapy Shell以及Scrapy Selectors的使用。

4、使用Scrapy完成网站信息的爬取。

主要知识点：创建Scrapy项目(scrapy startproject)、定义提取的结构化数据(Item)、编写爬取网站的Spider并提取出结构化数据(Item)、编写Item Pipelines来存储提取到的Item(即结构化数据)。

4. 想用Python抓包(keep APP)，进而修改数据，得到伪造的结果，有什么具体方案吗

用fiddler抓包，获取post的地址，然后伪造表单，用requests.post()把表单内容发过去试试。

5. python2.7 怎么进行抓包和解包

1、抓包，可以下载winpcapy 或者自己加载winpcap动态库
2、解包，使用dpkt解析
参考程序，基于进程抓包QPA工具

6. python 如何抓取动态页面内容

下面开始说一下本文抓取动态页面数据的相关工具和库：
1. python 2.7
2. pyqt

3. spynner （在安装过程中，其他的一些依赖库也会自动上网下载安装）
4. BeautifulSoup
5. ide工具是pycharm（当然这个只是个人喜好，也可以使用其他的ide工具）

以上几个工具都可以网络找到，python现在出了3.x版本的，但是由于众多第三方库或架构都没有兼容，并且后续要使用到的爬虫框架scrapy也是没有支持3.x版本，因此还是建议使用2.7版本吧。
spynner和BeautifulSoup下载后，都可以cd到解压出来的目录，然后使用python setup.py install来完成安装，需要注意的是spynner依赖pyqt，所以一定要安装pyqt，否则无法使用spynner。

下面使用一个具体是例子来说明一下spynner和BeautifulSoup的使用，我们就以爬取京东页面上的一些产品数据来说明如何爬取动态页面数据（当然，如果我们过于频繁的爬京东，估计还是有可能被京东将我们ip拉黑的）。

7. 如何利用libpcap和Python嗅探数据包

一提到Python获取数据包的方式，相信很多Python爱好者会利用Linux的libpcap软件包或利用Windows下的WinPcap可移植版的方式进行抓取数据包，然后再利用dpkt软件包进行协议分析，我们这里想换一个角度去思考：
1. Python版本的pcap存储内存数据过小，也就是说缓存不够，在高并发下容易发生丢包现象，其实C版本的也同样存在这样的问题，只不过Python版本的缓存实在是过低，让人很郁闷。
2. dpkt协议分析并非必须，如果你对RFC 791和RFC 793等协议熟悉的话，完全可以使用struct.unpack的方式进行分析。
如果你平常习惯使用tcpmp抓取数据包的话，完全可以使用它来代替pcap软件包，只不过我们需要利用tcpmp将抓取的数据以pcap格式进行保存，说道这里大家一定会想到Wireshark工具，具体命令如下：
tcpmp dst 10.13.202.116 and tcp dst port 80 -s 0 -i eth1 -w ../pcap/tcpmp.pcap -C 1k -W 5
我们首先需要对pcap文件格式有所了解，具体信息大家可以参考其他资料文档，我这里只说其重要的结构体组成，如下：
sturct pcap_file_header
{
DWORD magic;
WORD version_major;
WORD version_minor;
DWORD thiszone;
DWORD sigfigs;
DWORD snaplen;
DWORD linktype;
}
struct pcap_pkthdr
{
struct timeval ts;
DWORD caplen;
DWORD len;
}
struct timeval
{
DWORD GMTtime;
DWORD microTime;
}
这里需要说明的一点是，因为在Python的世界里一切都是对象，所以往往Python在处理数据包的时候感觉让人比较麻烦。Python提供了几个libpcapbind,http://monkey.org/~gsong/pypcap/这里有一个最简单的。在windows平台上,你需要先安装winpcap,如果你已经安装了Ethereal非常好用。一个规范的抓包过程:
import pcap
import dpkt
pc=pcap.pcap() #注，参数可为网卡名，如eth0
pc.setfilter('tcp port 80') #设置监听过滤器
for ptime,pdata in pc: #ptime为收到时间，pdata为收到数据
print ptime,pdata #...
对抓到的以太网V2数据包(raw packet)进行解包:
p=dpkt.ethernet.Ethernet(pdata)
if p.data.__class__.__name__=='IP':
ip='%d.%d.%d.%d'%tuple(map(ord,list(p.data.dst)))
if p.data.data.__class__.__name__=='TCP':
if data.dport==80:
print p.data.data.data
一些显示参数nrecv,ndrop,nifdrop=pc.stats()返回的元组中，第一个参数为接收到的数据包，第二个参数为被核心丢弃的数据包。
至于对于如何监控tcpmp生成的pcap文件数据，大家可以通过pyinotify软件包来实现，如下：
class Packer(pyinotify.ProcessEvent):
def __init__(self, proct):
self.proct = proct
self.process = None
def process_IN_CREATE(self, event):
logger.debug("create file: %s in queue" % self.process_IF_START_THREAD(event))
def process_IN_MODIFY(self, event):
self.process_IF_START_THREAD(event)
logger.debug("modify file: %s in queue" % self.process_IF_START_THREAD(event))
def process_IN_DELETE(self, event):
filename = os.path.join(event.path, event.name)
logger.debug("delete file: %s" % filename)
def process_IF_START_THREAD(self, event):
filename = os.path.join(event.path, event.name)
if filename != self.process:
self.process = filename
self.proct.put(filename)
if self.proct.qsize() > 1:
try:
logger.debug("create consumer proct.qsize: %s" % self.proct.qsize())
consumer = Consumer(self.proct)
consumer.start()
except Exception, errmsg:
logger.error("create consumer failed: %s" % errmsg)
return filename
class Factory(object):
def __init__(self, proct):
self.proct = proct
self.manager = pyinotify.WatchManager()
self.mask = pyinotify.IN_CREATE | pyinotify.IN_DELETE | pyinotify.IN_MODIFY
def work(self):
try:
try:
notifier = pyinotify.ThreadedNotifier(self.manager, Packer(self.proct))
notifier.start()
self.manager.add_watch("../pcap", self.mask, rec = True)
notifier.join()
except Exception, errmsg:
logger.error("create notifier failed: %s" % errmsg)
except KeyboardInterrupt, errmsg:
logger.error("factory has been terminated: %s" % errmsg)
在获得要分析的pcap文件数据之后，就要对其分析了，只要你足够了解pcap文件格式就可以了，对于我们来讲只需要获得TCP数据段的数据即可，如下：
class Writer(threading.Thread):
def __init__(self, proct, stack):
threading.Thread.__init__(self)
self.proct = proct
self.stack = stack
self.pcap_pkthdr = {}
def run(self):
while True:
filename = self.proct.get()
try:
f = open(filename, "rb")
readlines = f.read()
f.close()
offset = 24
while len(readlines) > offset:
self.pcap_pkthdr["len"] = readlines[offset+12:offset+16]
try:
length = struct.unpack("I", self.pcap_pkthdr["len"])[0]
self.stack.put(readlines[offset+16:offset+16+length])
offset += length + 16
except Exception, errmsg:
logger.error("unpack pcap_pkthdr failed: %s" % errmsg)
except IOError, errmsg:
logger.error("open file failed: %s" % errmsg)
在获得TCP数据段的数据包之后，问题就简单多了，根据大家的具体需求就可以进行相应的分析了，我这里是想分析其HTTP协议数据，同样也借助了dpkt软件包进行分析，如下：
def worker(memcache, packet, local_address, remote_address):
try:
p = dpkt.ethernet.Ethernet(packet)
if p.data.__class__.__name__ == "IP":
srcip = "%d.%d.%d.%d" % tuple(map(ord, list(p.data.src)))
dstip = "%d.%d.%d.%d" % tuple(map(ord, list(p.data.dst)))
if p.data.data.__class__.__name__ == "TCP":
tcpacket = p.data.data
if tcpacket.dport == 80 and dstip == local_address:
srcport = tcpacket.sport
key = srcip + ":" + str(srcport)
if tcpacket.data:
if not memcache.has_key(key):
memcache[key] = {}
if not memcache[key].has_key("response"):
memcache[key]["response"] = None
if memcache[key].has_key("data"):
memcache[key]["data"] += tcpacket.data
else:
memcache[key]["data"] = tcpacket.data
else:
if memcache.has_key(key):
memcache[key]["response"] = dpkt.http.Request(memcache[key]["data"])
try:
stackless.tasklet(connection)(memcache[key]["response"], local_address, remote_address)
stackless.run()
except Exception, errmsg:
logger.error("connect remote remote_address failed: %s", errmsg)
logger.debug("old headers(none content-length): %s", memcache[key]["response"])
memcache.pop(key)
except Exception, errmsg:
logger.error("dpkt.ethernet.Ethernet failed in worker: %s", errmsg)
如果大家只是想单纯的获取IP地址、端口、流量信息，那么问题就更简单了，这里只是抛砖引玉。另外再提供一段代码供参考:
import pcap, dpkt, struct
import binascii
def main():
a = pcap.pcap()
a.setfilter('udp portrange 4000-4050')
try:
for i,pdata in a:
p=dpkt.ethernet.Ethernet(pdata)
src='%d.%d.%d.%d' % tuple(map(ord,list(p.data.src)))
dst='%d.%d.%d.%d' % tuple(map(ord,list(p.data.dst)))
sport = p.data.data.sport
dport = p.data.data.dport
qq = int( binascii.hexlify(p.data.data.data[7:11]) , 16 )
print 'QQ: %d, From: %s:%d , To: %s:%d' % (qq,src,sport,dst,dport)
except Exception,e:
print '%s' % e
n = raw_input()
if __name__ == '__main__':
main()

8. python 怎么爬取app端数据

可以，但是不提倡这种行为 1，在手机上设置代理，代理到你的电脑上 2，再在电脑上用tcpmp或者其他图形化的抓包工具获得数据包，分析这些数据包找到你要的数据 3，根据前两步的结果，写代码模拟app的操作获得你需要的数据

9. python爬虫怎么抓包

方案：

自己通过request库手动编写
使用python的爬虫库scrapy

最推荐的一种：使用python的爬虫库scrapy

推荐理由：

应用最广泛的爬虫框架，没有之一
成熟度最高的框架，没有之一
利用成熟产品，避免重复“造轮子”，可以更快速的构建项目

导航:首页 > 编程语言 > python抓包教程

python抓包教程

与python抓包教程相关的资料