pythonmechanize文档_用python写爬虫有哪些框架

❶ python的爬虫框架有哪些

向大家推荐十个Python爬虫框架。

1、Scrapy：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。它是很强大的爬虫框架，可以满足简单的页面爬取，比如可以明确获知url pattern的情况。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。它的特性有：HTML, XML源数据选择及提取的内置支持；提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders)，对智能处理爬取数据提供了内置支持。

2、Crawley：高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等。

3、Portia：是一个开源可视化爬虫工具，可让使用者在不需要任何编程知识的情况下爬取网站！简单地注释自己感兴趣的页面，Portia将创建一个蜘蛛来从类似的页面提取数据。简单来讲，它是基于scrapy内核；可视化爬取内容，不需要任何开发专业知识；动态匹配相同模板的内容。

4、newspaper：可以用来提取新闻、文章和内容分析。使用多线程，支持10多种语言等。作者从requests库的简洁与强大得到灵感，使用Python开发的可用于提取文章内容的程序。支持10多种语言并且所有的都是unicode编码。

5、Python-goose：java写的文章提取工具。Python-goose框架可提取的信息包括：文章主体内容、文章主要图片、文章中嵌入的任何Youtube/Vimeo视频、元描述、元标签。

6、Beautiful Soup：名气大，整合了一些常用爬虫需求。它是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。Beautiful Soup的缺点是不能加载JS。

7、mechanize：它的优点是可以加载JS。当然它也有缺点，比如文档严重缺失。不过通过官方的example以及人肉尝试的方法，还是勉强能用的。

8、selenium：这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。Selenium是自动化测试工具，它支持各种浏览器，包括 Chrome，Safari，Firefox等主流界面式浏览器，如果在这些浏览器里面安装一个 Selenium 的插件，可以方便地实现Web界面的测试. Selenium支持浏览器驱动。Selenium支持多种语言开发，比如 Java，C，Ruby等等，PhantomJS 用来渲染解析JS，Selenium 用来驱动以及与Python的对接，Python进行后期的处理。

9、cola：是一个分布式的爬虫框架，对于用户来说，只需编写几个特定的函数，而无需关注分布式运行的细节。任务会自动分配到多台机器上，整个过程对用户是透明的。项目整体设计有点糟，模块间耦合度较高。

10、PySpider：一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写，分布式架构，支持多种数据库后端，强大的WebUI支持脚本编辑器，任务监视器，项目管理器以及结果查看器。Python脚本控制，可以用任何你喜欢的html解析包。

以上就是分享的Python爬虫一般用的十大主流框架。这些框架的优缺点都不同，大家在使用的时候，可以根据具体场景选择合适的框架。

❷ 用python写爬虫有哪些框架

以下是搜索来源于网络：
1)Scrapy:很强大的爬虫框架，可以满足简单的页面爬取（比如可以明确获知url pattern的情况）。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。

2)Crawley: 高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等

3)Portia:可视化爬取网页内容

4)newspaper:提取新闻、文章以及内容分析

5)python-goose:java写的文章提取工具

6)Beautiful Soup:名气大，整合了一些常用爬虫需求。缺点：不能加载JS。

7)mechanize:优点：可以加载JS。缺点：文档严重缺失。不过通过官方的example以及人肉尝试的方法，还是勉强能用的。

8)selenium:这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。

9)cola:一个分布式爬虫框架。项目整体设计有点糟，模块间耦合度较高。

❸ Python中的爬虫框架有哪些呢

实现爬虫技术的编程环境有很多种，Java、Python、C++等都可以用来爬虫。但很多人选择Python来写爬虫，为什么呢？因为Python确实很适合做爬虫，丰富的第三方库十分强大，简单几行代码便可实现你想要的功能。更重要的，Python也是数据挖掘和分析的好能手。那么，Python爬虫一般用什么框架比较好？
一般来讲，只有在遇到比较大型的需求时，才会使用Python爬虫框架。这样的做的主要目的，是为了方便管理以及扩展。本文我将向大家推荐十个Python爬虫框架。
1、Scrapy：Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。它是很强大的爬虫框架，可以满足简单的页面爬取，比如可以明确获知url pattern的情况。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。它的特性有：HTML, XML源数据选择及提取的内置支持；提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders)，对智能处理爬取数据提供了内置支持。
2、Crawley：高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等。
3、Portia：是一个开源可视化爬虫工具，可让使用者在不需要任何编程知识的情况下爬取网站！简单地注释自己感兴趣的页面，Portia将创建一个蜘蛛来从类似的页面提取数据。简单来讲，它是基于scrapy内核；可视化爬取内容，不需要任何开发专业知识；动态匹配相同模板的内容。

4、newspaper：可以用来提取新闻、文章和内容分析。使用多线程，支持10多种语言等。作者从requests库的简洁与强大得到灵感，使用Python开发的可用于提取文章内容的程序。支持10多种语言并且所有的都是unicode编码。
5、Python-goose：Java写的文章提取工具。Python-goose框架可提取的信息包括：文章主体内容、文章主要图片、文章中嵌入的任何Youtube/Vimeo视频、元描述、元标签。
6、Beautiful Soup：名气大，整合了一些常用爬虫需求。它是一个可以从HTML或XML文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间。Beautiful Soup的缺点是不能加载JS。
7、mechanize：它的优点是可以加载JS。当然它也有缺点，比如文档严重缺失。不过通过官方的example以及人肉尝试的方法，还是勉强能用的。
8、selenium：这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。Selenium是自动化测试工具，它支持各种浏览器，包括 Chrome，Safari，Firefox等主流界面式浏览器，如果在这些浏览器里面安装一个 Selenium 的插件，可以方便地实现Web界面的测试. Selenium支持浏览器驱动。Selenium支持多种语言开发，比如 Java，C，Ruby等等，PhantomJS 用来渲染解析JS，Selenium 用来驱动以及与Python的对接，Python进行后期的处理。
9、cola：是一个分布式的爬虫框架，对于用户来说，只需编写几个特定的函数，而无需关注分布式运行的细节。任务会自动分配到多台机器上，整个过程对用户是透明的。项目整体设计有点糟，模块间耦合度较高。
10、PySpider：一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写，分布式架构，支持多种数据库后端，强大的WebUI支持脚本编辑器，任务监视器，项目管理器以及结果查看器。Python脚本控制，可以用任何你喜欢的html解析包。

❹ 盘点Python常用的模块和包

模块

1.定义

计算机在开发过程中，代码越写越多，也就越难以维护，所以为了编写可维护的代码，我们会把函数进行分组，放在不同的文件里。在python里，一个.py文件就是一个模块。

2.优点：

提高代码的可维护性。

提高代码的复用，当模块完成时就可以在其他代码中调用。

引用其他模块，包含python内置模块和其他第三方模块。

避免函数名和变量名等名称冲突。

python内建模块：

1.sys模块

2.random模块

3.os模块：

os.path:讲解

https://www.cnblogs.com/yufeihlf/p/6179547.html

数据可视化

1.matplotlib :

是Python可视化程序库的泰斗，它的设计和在1980年代被设计的商业化程序语言MATLAB非常接近。比如pandas和Seaborn就是matplotlib的外包，它们让你能用更少的代码去调用 matplotlib的方法。

访问：

https://matplotlib.org/

颜色：

https://www.cnblogs.com/darkknightzh/p/6117528.html

教程：

https://wizardforcel.gitbooks.io/matplotlib-user-guide/3.1.html

2.Seaborn：

它是构建在matplotlib的基础上的，用简洁的代码来制作好看的图表。Seaborn跟matplotlib最大的区别就是它的默认绘图风格和色彩搭配都具有现代美感。

访问：

http://seaborn.pydata.org/index.html

3.ggplot：

gplot 跟 matplotlib 的不同之处是它允许你叠加不同的图层来完成一幅图

访问：

http://ggplot.yhathq.com/

4.Mayavi：

Mayavi2完全用Python编写，因此它不但是一个方便实用的可视化软件，而且可以方便地用Python编写扩展，嵌入到用户编写的Python程序中，或者直接使用其面向脚本的API：mlab快速绘制三维图

访问：http://code.enthought.com/pages/mayavi-project.html

讲解：https://blog.csdn.net/ouening/article/details/76595427https://www.jianshu.com/p/81e6f4f1cdd8

5.TVTK：

TVTK库对标准的VTK库进行包装，提供了Python风格的API、支持Trait属性和numpy的多维数组。

VTK (http://www.vtk.org/) 是一套三维的数据可视化工具，它由C++编写，包涵了近千个类帮助我们处理和显示数据

讲解：https://docs.huihoo.com/scipy/scipy-zh-cn/tvtk_intro.html

机器学习

1.Scikit-learn

是一个简单且高效的数据挖掘和数据分析工具，易上手，可以在多个上下文中重复使用。它基于NumPy, SciPy 和 matplotlib，开源，可商用（基于 BSD 许可）。

访问：

讲解：https://blog.csdn.net/finafily0526/article/details/79318401

2.Tensorflow

最初由谷歌机器智能科研组织中的谷歌大脑团队（Google Brain Team）的研究人员和工程师开发。该系统设计的初衷是为了便于机器学习研究，能够更快更好地将科研原型转化为生产项目。

相关推荐：《Python视频教程》

Web框架

1.Tornado

访问：http://www.tornadoweb.org/en/stable/

2.Flask

访问：http://flask.pocoo.org/

3.Web.py

访问：http://webpy.org/

4.django

https://www.djangoproject.com/

5.cherrypy

http://cherrypy.org/

6.jinjs

http://docs.jinkan.org/docs/jinja2/

GUI 图形界面

1.Tkinter

https://wiki.python.org/moin/TkInter/

2.wxPython

https://www.wxpython.org/

3.PyGTK

http://www.pygtk.org/

4.PyQt

https://sourceforge.net/projects/pyqt/

5.PySide

http://wiki.qt.io/Category:LanguageBindings::PySide

科学计算

教程

https://docs.huihoo.com/scipy/scipy-zh-cn/index.html#

1.numpy

访问

http://www.numpy.org/

讲解

https://blog.csdn.net/lm_is_dc/article/details/81098805

2.sympy

sympy是一个Python的科学计算库，用一套强大的符号计算体系完成诸如多项式求值、求极限、解方程、求积分、微分方程、级数展开、矩阵运算等等计算问题

访问

https://docs.sympy.org/0.7.1/guide.html#guide

讲解

https://www.jianshu.com/p/339c91ae9f41

解方程

https://www.cnblogs.com/zyg123/p/10549354.html

3.SciPy

官网

https://www.scipy.org/

讲解

https://blog.csdn.net/wsp_1138886114/article/details/80444621

4.pandas

官网

http://pandas.pydata.org/

讲解

https://www.cnblogs.com/linux-wangkun/p/5903945.html

5.blaze

官网

http://blaze.readthedocs.io/en/latest/index.html

密码学

1.cryptography

https://pypi.python.org/pypi/cryptography/

2.hashids

http://www.oschina.net/p/hashids

3.Paramiko

http://www.paramiko.org/

4.Passlib

https://pythonhosted.org/passlib/

5.PyCrypto

https://pypi.python.org/pypi/pycrypto

6.PyNacl

http://pynacl.readthedocs.io/en/latest/

爬虫相关

requests

http://www.python-requests.org/

scrapy

https://scrapy.org/

pyspider

https://github.com/binux/pyspider

portia

https://github.com/scrapinghub/portia

html2text

https://github.com/Alir3z4/html2text

BeautifulSoup

https://www.crummy.com/software/BeautifulSoup/

lxml

http://lxml.de/

selenium

http://docs.seleniumhq.org/

mechanize

https://pypi.python.org/pypi/mechanize

PyQuery

https://pypi.python.org/pypi/pyquery/

creepy

https://pypi.python.org/pypi/creepy

gevent

一个高并发的网络性能库

http://www.gevent.org/

图像处理

bigmoyan

http://scikit-image.org/

Python Imaging Library(PIL)

http://www.pythonware.com/procts/pil/

pillow：

http://pillow.readthedocs.io/en/latest/

自然语言处理

1.nltk：

http://www.nltk.org/

教程

https://blog.csdn.net/wizardforcel/article/details/79274443

2.snownlp

https://github.com/isnowfy/snownlp

3.Pattern

https://github.com/clips/pattern

4.TextBlob

http://textblob.readthedocs.io/en/dev/

5.Polyglot

https://pypi.python.org/pypi/polyglot

6.jieba：

https://github.com/fxsjy/jieba

数据库驱动

mysql-python

https://sourceforge.net/projects/mysql-python/

PyMySQL

https://github.com/PyMySQL/PyMySQL

PyMongo

https://docs.mongodb.com/ecosystem/drivers/python/

pymongo

MongoDB库

访问：https://pypi.python.org/pypi/pymongo/

redis

Redis库

访问：https://pypi.python.org/pypi/redis/

cxOracle

Oracle库

访问：https://pypi.python.org/pypi/cx_Oracle

SQLAlchemy

SQL工具包及对象关系映射（ORM）工具

访问：http://www.sqlalchemy.org/

peewee，

SQL工具包及对象关系映射（ORM）工具

访问：https://pypi.python.org/pypi/peewee

torndb

Tornado原装DB

访问：https://github.com/bdarnell/torndb

Web

pycurl

URL处理工具

smtplib模块

发送电子邮件

其他库暂未分类

1.PyInstaller：

是一个十分有用的第三方库，它能够在Windows、Linux、 Mac OS X 等操作系统下将 Python 源文件打包，通过对源文件打包， Python 程序可以在没有安装 Python 的环境中运行，也可以作为一个独立文件方便传递和管理。

2.Ipython

一种交互式计算和开发环境

讲解

https://www.cnblogs.com/zzhzhao/p/5295476.html

命令

ls、cd 、run、edit、clear、exist

❺ python爬虫框架哪个好用

说实话感觉大同小异。各有优缺点吧~

常见python爬虫框架
1)Scrapy:很强大的爬虫框架，可以满足简单的页面爬取（比如可以明确获知url pattern的情况）。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面，如weibo的页面信息，这个框架就满足不了需求了。
2)Crawley: 高速爬取对应网站的内容，支持关系和非关系数据库，数据可以导出为JSON、XML等
3)Portia:可视化爬取网页内容
4)newspaper:提取新闻、文章以及内容分析
5)python-goose:java写的文章提取工具
6)Beautiful Soup:名气大，整合了一些常用爬虫需求。缺点：不能加载JS。
7)mechanize:优点：可以加载JS。缺点：文档严重缺失。不过通过官方的example以及人肉尝试的方法，还是勉强能用的。
8)selenium:这是一个调用浏览器的driver，通过这个库你可以直接调用浏览器完成某些操作，比如输入验证码。
9)cola:一个分布式爬虫框架。项目整体设计有点糟，模块间耦合度较高。

资料来源：网页链接

希望我的回答对你有帮助~

❻ 如何线上部署用python基于dlib写的人脸识别算法

python使用dlib进行人脸检测与人脸关键点标记

Dlib简介：

首先给大家介绍一下Dlib

我使用的版本是dlib-18.17,大家也可以在我这里下载：

之后进入python_examples下使用bat文件进行编译，编译需要先安装libboost-python-dev和cmake

cd to dlib-18.17/python_examples

./compile_dlib_python_mole.bat 123

之后会得到一个dlib.so，复制到dist-packages目录下即可使用

这里大家也可以直接用我编译好的.so库,但是也必须安装libboost才可以，不然python是不能调用so库的，下载地址：

将.so复制到dist-packages目录下

sudo cp dlib.so /usr/local/lib/python2.7/dist-packages/1

最新的dlib18.18好像就没有这个bat文件了，取而代之的是一个setup文件，那么安装起来应该就没有这么麻烦了，大家可以去直接安装18.18，也可以直接下载复制我的.so库，这两种方法应该都不麻烦～

有时候还会需要下面这两个库，建议大家一并安装一下

9.安装skimage

sudo apt-get install python-skimage1

10.安装imtools

sudo easy_install imtools1

Dlib face landmarks Demo

环境配置结束之后，我们首先看一下dlib提供的示例程序

1.人脸检测

dlib-18.17/python_examples/face_detector.py 源程序：

#!/usr/bin/python# The contents of this file are in the public domain. See LICENSE_FOR_EXAMPLE_PROGRAMS.txt## This example program shows how to find frontal human faces in an image. In# particular, it shows how you can take a list of images from the command# line and display each on the screen with red boxes overlaid on each human# face.## The examples/faces folder contains some jpg images of people. You can run# this program on them and see the detections by executing the# following command:# ./face_detector.py ../examples/faces/*.jpg## This face detector is made using the now classic Histogram of Oriented# Gradients (HOG) feature combined with a linear classifier, an image# pyramid, and sliding window detection scheme. This type of object detector# is fairly general and capable of detecting many types of semi-rigid objects# in addition to human faces. Therefore, if you are interested in making# your own object detectors then read the train_object_detector.py example# program. ### COMPILING THE DLIB PYTHON INTERFACE# Dlib comes with a compiled python interface for python 2.7 on MS Windows. If# you are using another python version or operating system then you need to# compile the dlib python interface before you can use this file. To do this,# run compile_dlib_python_mole.bat. This should work on any operating# system so long as you have CMake and boost-python installed.# On Ubuntu, this can be done easily by running the command:# sudo apt-get install libboost-python-dev cmake## Also note that this example requires scikit-image which can be installed# via the command:# pip install -U scikit-image# Or downloaded from . import sys

import dlib

from skimage import io

detector = dlib.get_frontal_face_detector()

win = dlib.image_window()

print("a");for f in sys.argv[1:]:

print("a");

print("Processing file: {}".format(f))
img = io.imread(f)
# The 1 in the second argument indicates that we should upsample the image
# 1 time. This will make everything bigger and allow us to detect more
# faces.
dets = detector(img, 1)
print("Number of faces detected: {}".format(len(dets))) for i, d in enumerate(dets):
print("Detection {}: Left: {} Top: {} Right: {} Bottom: {}".format(
i, d.left(), d.top(), d.right(), d.bottom()))

win.clear_overlay()
win.set_image(img)
win.add_overlay(dets)
dlib.hit_enter_to_continue()# Finally, if you really want to you can ask the detector to tell you the score# for each detection. The score is bigger for more confident detections.# Also, the idx tells you which of the face sub-detectors matched. This can be# used to broadly identify faces in different orientations.if (len(sys.argv[1:]) > 0):
img = io.imread(sys.argv[1])
dets, scores, idx = detector.run(img, 1) for i, d in enumerate(dets):
print("Detection {}, score: {}, face_type:{}".format(
d, scores[i], idx[i]))5767778798081

我把源代码精简了一下，加了一下注释： face_detector0.1.py

# -*- coding: utf-8 -*-import sys

import dlib

from skimage import io#使用dlib自带的frontal_face_detector作为我们的特征提取器detector = dlib.get_frontal_face_detector()#使用dlib提供的图片窗口win = dlib.image_window()#sys.argv[]是用来获取命令行参数的，sys.argv[0]表示代码本身文件路径，所以参数从1开始向后依次获取图片路径for f in sys.argv[1:]: #输出目前处理的图片地址
print("Processing file: {}".format(f)) #使用skimage的io读取图片
img = io.imread(f) #使用detector进行人脸检测 dets为返回的结果
dets = detector(img, 1) #dets的元素个数即为脸的个数
print("Number of faces detected: {}".format(len(dets))) #使用enumerate 函数遍历序列中的元素以及它们的下标
#下标i即为人脸序号
#left：人脸左边距离图片左边界的距离；right：人脸右边距离图片左边界的距离
#top：人脸上边距离图片上边界的距离；bottom：人脸下边距离图片上边界的距离
for i, d in enumerate(dets):
print("dets{}".format(d))
print("Detection {}: Left: {} Top: {} Right: {} Bottom: {}"
.format( i, d.left(), d.top(), d.right(), d.bottom())) #也可以获取比较全面的信息，如获取人脸与detector的匹配程度
dets, scores, idx = detector.run(img, 1)
for i, d in enumerate(dets):
print("Detection {}, dets{},score: {}, face_type:{}".format( i, d, scores[i], idx[i]))

#绘制图片(dlib的ui库可以直接绘制dets)
win.set_image(img)
win.add_overlay(dets) #等待点击
dlib.hit_enter_to_continue()041424344454647484950

分别测试了一个人脸的和多个人脸的，以下是运行结果：

运行的时候把图片文件路径加到后面就好了

python face_detector0.1.py ./data/3.jpg12

一张脸的：

两张脸的：

这里可以看出侧脸与detector的匹配度要比正脸小的很多

2.人脸关键点提取

人脸检测我们使用了dlib自带的人脸检测器（detector），关键点提取需要一个特征提取器（predictor），为了构建特征提取器，预训练模型必不可少。

除了自行进行训练外，还可以使用官方提供的一个模型。该模型可从dlib sourceforge库下载：

arks.dat.bz2

也可以从我的连接下载：

这个库支持68个关键点的提取，一般来说也够用了，如果需要更多的特征点就要自己去训练了。

dlib-18.17/python_examples/face_landmark_detection.py 源程序：

#!/usr/bin/python# The contents of this file are in the public domain. See LICENSE_FOR_EXAMPLE_PROGRAMS.txt## This example program shows how to find frontal human faces in an image and# estimate their pose. The pose takes the form of 68 landmarks. These are# points on the face such as the corners of the mouth, along the eyebrows, on# the eyes, and so forth.## This face detector is made using the classic Histogram of Oriented# Gradients (HOG) feature combined with a linear

导航:首页 > 编程语言 > pythonmechanize文档

pythonmechanize文档

与pythonmechanize文档相关的资料