pythonmechanize文檔_用python寫爬蟲有哪些框架

❶ python的爬蟲框架有哪些

向大家推薦十個Python爬蟲框架。

1、Scrapy：Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。它是很強大的爬蟲框架，可以滿足簡單的頁面爬取，比如可以明確獲知url pattern的情況。用這個框架可以輕松爬下來如亞馬遜商品信息之類的數據。但是對於稍微復雜一點的頁面，如weibo的頁面信息，這個框架就滿足不了需求了。它的特性有：HTML, XML源數據選擇及提取的內置支持；提供了一系列在spider之間共享的可復用的過濾器(即 Item Loaders)，對智能處理爬取數據提供了內置支持。

2、Crawley：高速爬取對應網站的內容，支持關系和非關系資料庫，數據可以導出為JSON、XML等。

3、Portia：是一個開源可視化爬蟲工具，可讓使用者在不需要任何編程知識的情況下爬取網站！簡單地注釋自己感興趣的頁面，Portia將創建一個蜘蛛來從類似的頁面提取數據。簡單來講，它是基於scrapy內核；可視化爬取內容，不需要任何開發專業知識；動態匹配相同模板的內容。

4、newspaper：可以用來提取新聞、文章和內容分析。使用多線程，支持10多種語言等。作者從requests庫的簡潔與強大得到靈感，使用Python開發的可用於提取文章內容的程序。支持10多種語言並且所有的都是unicode編碼。

5、Python-goose：java寫的文章提取工具。Python-goose框架可提取的信息包括：文章主體內容、文章主要圖片、文章中嵌入的任何Youtube/Vimeo視頻、元描述、元標簽。

6、Beautiful Soup：名氣大，整合了一些常用爬蟲需求。它是一個可以從HTML或XML文件中提取數據的Python庫。它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間。Beautiful Soup的缺點是不能載入JS。

7、mechanize：它的優點是可以載入JS。當然它也有缺點，比如文檔嚴重缺失。不過通過官方的example以及人肉嘗試的方法，還是勉強能用的。

8、selenium：這是一個調用瀏覽器的driver，通過這個庫你可以直接調用瀏覽器完成某些操作，比如輸入驗證碼。Selenium是自動化測試工具，它支持各種瀏覽器，包括 Chrome，Safari，Firefox等主流界面式瀏覽器，如果在這些瀏覽器裡面安裝一個 Selenium 的插件，可以方便地實現Web界面的測試. Selenium支持瀏覽器驅動。Selenium支持多種語言開發，比如 Java，C，Ruby等等，PhantomJS 用來渲染解析JS，Selenium 用來驅動以及與Python的對接，Python進行後期的處理。

9、cola：是一個分布式的爬蟲框架，對於用戶來說，只需編寫幾個特定的函數，而無需關注分布式運行的細節。任務會自動分配到多台機器上，整個過程對用戶是透明的。項目整體設計有點糟，模塊間耦合度較高。

10、PySpider：一個國人編寫的強大的網路爬蟲系統並帶有強大的WebUI。採用Python語言編寫，分布式架構，支持多種資料庫後端，強大的WebUI支持腳本編輯器，任務監視器，項目管理器以及結果查看器。Python腳本控制，可以用任何你喜歡的html解析包。

以上就是分享的Python爬蟲一般用的十大主流框架。這些框架的優缺點都不同，大家在使用的時候，可以根據具體場景選擇合適的框架。

❷ 用python寫爬蟲有哪些框架

以下是搜索來源於網路：
1)Scrapy:很強大的爬蟲框架，可以滿足簡單的頁面爬取（比如可以明確獲知url pattern的情況）。用這個框架可以輕松爬下來如亞馬遜商品信息之類的數據。但是對於稍微復雜一點的頁面，如weibo的頁面信息，這個框架就滿足不了需求了。

2)Crawley: 高速爬取對應網站的內容，支持關系和非關系資料庫，數據可以導出為JSON、XML等

3)Portia:可視化爬取網頁內容

4)newspaper:提取新聞、文章以及內容分析

5)python-goose:java寫的文章提取工具

6)Beautiful Soup:名氣大，整合了一些常用爬蟲需求。缺點：不能載入JS。

7)mechanize:優點：可以載入JS。缺點：文檔嚴重缺失。不過通過官方的example以及人肉嘗試的方法，還是勉強能用的。

8)selenium:這是一個調用瀏覽器的driver，通過這個庫你可以直接調用瀏覽器完成某些操作，比如輸入驗證碼。

9)cola:一個分布式爬蟲框架。項目整體設計有點糟，模塊間耦合度較高。

❸ Python中的爬蟲框架有哪些呢

實現爬蟲技術的編程環境有很多種，Java、Python、C++等都可以用來爬蟲。但很多人選擇Python來寫爬蟲，為什麼呢？因為Python確實很適合做爬蟲，豐富的第三方庫十分強大，簡單幾行代碼便可實現你想要的功能。更重要的，Python也是數據挖掘和分析的好能手。那麼，Python爬蟲一般用什麼框架比較好？
一般來講，只有在遇到比較大型的需求時，才會使用Python爬蟲框架。這樣的做的主要目的，是為了方便管理以及擴展。本文我將向大家推薦十個Python爬蟲框架。
1、Scrapy：Scrapy是一個為了爬取網站數據，提取結構性數據而編寫的應用框架。可以應用在包括數據挖掘，信息處理或存儲歷史數據等一系列的程序中。它是很強大的爬蟲框架，可以滿足簡單的頁面爬取，比如可以明確獲知url pattern的情況。用這個框架可以輕松爬下來如亞馬遜商品信息之類的數據。但是對於稍微復雜一點的頁面，如weibo的頁面信息，這個框架就滿足不了需求了。它的特性有：HTML, XML源數據選擇及提取的內置支持；提供了一系列在spider之間共享的可復用的過濾器(即 Item Loaders)，對智能處理爬取數據提供了內置支持。
2、Crawley：高速爬取對應網站的內容，支持關系和非關系資料庫，數據可以導出為JSON、XML等。
3、Portia：是一個開源可視化爬蟲工具，可讓使用者在不需要任何編程知識的情況下爬取網站！簡單地注釋自己感興趣的頁面，Portia將創建一個蜘蛛來從類似的頁面提取數據。簡單來講，它是基於scrapy內核；可視化爬取內容，不需要任何開發專業知識；動態匹配相同模板的內容。

4、newspaper：可以用來提取新聞、文章和內容分析。使用多線程，支持10多種語言等。作者從requests庫的簡潔與強大得到靈感，使用Python開發的可用於提取文章內容的程序。支持10多種語言並且所有的都是unicode編碼。
5、Python-goose：Java寫的文章提取工具。Python-goose框架可提取的信息包括：文章主體內容、文章主要圖片、文章中嵌入的任何Youtube/Vimeo視頻、元描述、元標簽。
6、Beautiful Soup：名氣大，整合了一些常用爬蟲需求。它是一個可以從HTML或XML文件中提取數據的Python庫。它能夠通過你喜歡的轉換器實現慣用的文檔導航,查找,修改文檔的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間。Beautiful Soup的缺點是不能載入JS。
7、mechanize：它的優點是可以載入JS。當然它也有缺點，比如文檔嚴重缺失。不過通過官方的example以及人肉嘗試的方法，還是勉強能用的。
8、selenium：這是一個調用瀏覽器的driver，通過這個庫你可以直接調用瀏覽器完成某些操作，比如輸入驗證碼。Selenium是自動化測試工具，它支持各種瀏覽器，包括 Chrome，Safari，Firefox等主流界面式瀏覽器，如果在這些瀏覽器裡面安裝一個 Selenium 的插件，可以方便地實現Web界面的測試. Selenium支持瀏覽器驅動。Selenium支持多種語言開發，比如 Java，C，Ruby等等，PhantomJS 用來渲染解析JS，Selenium 用來驅動以及與Python的對接，Python進行後期的處理。
9、cola：是一個分布式的爬蟲框架，對於用戶來說，只需編寫幾個特定的函數，而無需關注分布式運行的細節。任務會自動分配到多台機器上，整個過程對用戶是透明的。項目整體設計有點糟，模塊間耦合度較高。
10、PySpider：一個國人編寫的強大的網路爬蟲系統並帶有強大的WebUI。採用Python語言編寫，分布式架構，支持多種資料庫後端，強大的WebUI支持腳本編輯器，任務監視器，項目管理器以及結果查看器。Python腳本控制，可以用任何你喜歡的html解析包。

❹ 盤點Python常用的模塊和包

模塊

1.定義

計算機在開發過程中，代碼越寫越多，也就越難以維護，所以為了編寫可維護的代碼，我們會把函數進行分組，放在不同的文件里。在python里，一個.py文件就是一個模塊。

2.優點：

提高代碼的可維護性。

提高代碼的復用，當模塊完成時就可以在其他代碼中調用。

引用其他模塊，包含python內置模塊和其他第三方模塊。

避免函數名和變數名等名稱沖突。

python內建模塊：

1.sys模塊

2.random模塊

3.os模塊：

os.path:講解

https://www.cnblogs.com/yufeihlf/p/6179547.html

數據可視化

1.matplotlib :

是Python可視化程序庫的泰斗，它的設計和在1980年代被設計的商業化程序語言MATLAB非常接近。比如pandas和Seaborn就是matplotlib的外包，它們讓你能用更少的代碼去調用 matplotlib的方法。

訪問：

https://matplotlib.org/

顏色：

https://www.cnblogs.com/darkknightzh/p/6117528.html

教程：

https://wizardforcel.gitbooks.io/matplotlib-user-guide/3.1.html

2.Seaborn：

它是構建在matplotlib的基礎上的，用簡潔的代碼來製作好看的圖表。Seaborn跟matplotlib最大的區別就是它的默認繪圖風格和色彩搭配都具有現代美感。

訪問：

http://seaborn.pydata.org/index.html

3.ggplot：

gplot 跟 matplotlib 的不同之處是它允許你疊加不同的圖層來完成一幅圖

訪問：

http://ggplot.yhathq.com/

4.Mayavi：

Mayavi2完全用Python編寫，因此它不但是一個方便實用的可視化軟體，而且可以方便地用Python編寫擴展，嵌入到用戶編寫的Python程序中，或者直接使用其面向腳本的API：mlab快速繪制三維圖

訪問：http://code.enthought.com/pages/mayavi-project.html

講解：https://blog.csdn.net/ouening/article/details/76595427https://www.jianshu.com/p/81e6f4f1cdd8

5.TVTK：

TVTK庫對標準的VTK庫進行包裝，提供了Python風格的API、支持Trait屬性和numpy的多維數組。

VTK (http://www.vtk.org/) 是一套三維的數據可視化工具，它由C++編寫，包涵了近千個類幫助我們處理和顯示數據

講解：https://docs.huihoo.com/scipy/scipy-zh-cn/tvtk_intro.html

機器學習

1.Scikit-learn

是一個簡單且高效的數據挖掘和數據分析工具，易上手，可以在多個上下文中重復使用。它基於NumPy, SciPy 和 matplotlib，開源，可商用（基於 BSD 許可）。

訪問：

講解：https://blog.csdn.net/finafily0526/article/details/79318401

2.Tensorflow

最初由谷歌機器智能科研組織中的谷歌大腦團隊（Google Brain Team）的研究人員和工程師開發。該系統設計的初衷是為了便於機器學習研究，能夠更快更好地將科研原型轉化為生產項目。

相關推薦：《Python視頻教程》

Web框架

1.Tornado

訪問：http://www.tornadoweb.org/en/stable/

2.Flask

訪問：http://flask.pocoo.org/

3.Web.py

訪問：http://webpy.org/

4.django

https://www.djangoproject.com/

5.cherrypy

http://cherrypy.org/

6.jinjs

http://docs.jinkan.org/docs/jinja2/

GUI 圖形界面

1.Tkinter

https://wiki.python.org/moin/TkInter/

2.wxPython

https://www.wxpython.org/

3.PyGTK

http://www.pygtk.org/

4.PyQt

https://sourceforge.net/projects/pyqt/

5.PySide

http://wiki.qt.io/Category:LanguageBindings::PySide

科學計算

教程

https://docs.huihoo.com/scipy/scipy-zh-cn/index.html#

1.numpy

訪問

http://www.numpy.org/

講解

https://blog.csdn.net/lm_is_dc/article/details/81098805

2.sympy

sympy是一個Python的科學計算庫，用一套強大的符號計算體系完成諸如多項式求值、求極限、解方程、求積分、微分方程、級數展開、矩陣運算等等計算問題

訪問

https://docs.sympy.org/0.7.1/guide.html#guide

講解

https://www.jianshu.com/p/339c91ae9f41

解方程

https://www.cnblogs.com/zyg123/p/10549354.html

3.SciPy

官網

https://www.scipy.org/

講解

https://blog.csdn.net/wsp_1138886114/article/details/80444621

4.pandas

官網

http://pandas.pydata.org/

講解

https://www.cnblogs.com/linux-wangkun/p/5903945.html

5.blaze

官網

http://blaze.readthedocs.io/en/latest/index.html

密碼學

1.cryptography

https://pypi.python.org/pypi/cryptography/

2.hashids

http://www.oschina.net/p/hashids

3.Paramiko

http://www.paramiko.org/

4.Passlib

https://pythonhosted.org/passlib/

5.PyCrypto

https://pypi.python.org/pypi/pycrypto

6.PyNacl

http://pynacl.readthedocs.io/en/latest/

爬蟲相關

requests

http://www.python-requests.org/

scrapy

https://scrapy.org/

pyspider

https://github.com/binux/pyspider

portia

https://github.com/scrapinghub/portia

html2text

https://github.com/Alir3z4/html2text

BeautifulSoup

https://www.crummy.com/software/BeautifulSoup/

lxml

http://lxml.de/

selenium

http://docs.seleniumhq.org/

mechanize

https://pypi.python.org/pypi/mechanize

PyQuery

https://pypi.python.org/pypi/pyquery/

creepy

https://pypi.python.org/pypi/creepy

gevent

一個高並發的網路性能庫

http://www.gevent.org/

圖像處理

bigmoyan

http://scikit-image.org/

Python Imaging Library(PIL)

http://www.pythonware.com/procts/pil/

pillow：

http://pillow.readthedocs.io/en/latest/

自然語言處理

1.nltk：

http://www.nltk.org/

教程

https://blog.csdn.net/wizardforcel/article/details/79274443

2.snownlp

https://github.com/isnowfy/snownlp

3.Pattern

https://github.com/clips/pattern

4.TextBlob

http://textblob.readthedocs.io/en/dev/

5.Polyglot

https://pypi.python.org/pypi/polyglot

6.jieba：

https://github.com/fxsjy/jieba

資料庫驅動

mysql-python

https://sourceforge.net/projects/mysql-python/

PyMySQL

https://github.com/PyMySQL/PyMySQL

PyMongo

https://docs.mongodb.com/ecosystem/drivers/python/

pymongo

MongoDB庫

訪問：https://pypi.python.org/pypi/pymongo/

redis

Redis庫

訪問：https://pypi.python.org/pypi/redis/

cxOracle

Oracle庫

訪問：https://pypi.python.org/pypi/cx_Oracle

SQLAlchemy

SQL工具包及對象關系映射（ORM）工具

訪問：http://www.sqlalchemy.org/

peewee，

SQL工具包及對象關系映射（ORM）工具

訪問：https://pypi.python.org/pypi/peewee

torndb

Tornado原裝DB

訪問：https://github.com/bdarnell/torndb

Web

pycurl

URL處理工具

smtplib模塊

發送電子郵件

其他庫暫未分類

1.PyInstaller：

是一個十分有用的第三方庫，它能夠在Windows、Linux、 Mac OS X 等操作系統下將 Python 源文件打包，通過對源文件打包， Python 程序可以在沒有安裝 Python 的環境中運行，也可以作為一個獨立文件方便傳遞和管理。

2.Ipython

一種互動式計算和開發環境

講解

https://www.cnblogs.com/zzhzhao/p/5295476.html

命令

ls、cd 、run、edit、clear、exist

❺ python爬蟲框架哪個好用

說實話感覺大同小異。各有優缺點吧~

常見python爬蟲框架
1)Scrapy:很強大的爬蟲框架，可以滿足簡單的頁面爬取（比如可以明確獲知url pattern的情況）。用這個框架可以輕松爬下來如亞馬遜商品信息之類的數據。但是對於稍微復雜一點的頁面，如weibo的頁面信息，這個框架就滿足不了需求了。
2)Crawley: 高速爬取對應網站的內容，支持關系和非關系資料庫，數據可以導出為JSON、XML等
3)Portia:可視化爬取網頁內容
4)newspaper:提取新聞、文章以及內容分析
5)python-goose:java寫的文章提取工具
6)Beautiful Soup:名氣大，整合了一些常用爬蟲需求。缺點：不能載入JS。
7)mechanize:優點：可以載入JS。缺點：文檔嚴重缺失。不過通過官方的example以及人肉嘗試的方法，還是勉強能用的。
8)selenium:這是一個調用瀏覽器的driver，通過這個庫你可以直接調用瀏覽器完成某些操作，比如輸入驗證碼。
9)cola:一個分布式爬蟲框架。項目整體設計有點糟，模塊間耦合度較高。

資料來源：網頁鏈接

希望我的回答對你有幫助~

❻ 如何線上部署用python基於dlib寫的人臉識別演算法

python使用dlib進行人臉檢測與人臉關鍵點標記

Dlib簡介：

首先給大家介紹一下Dlib

我使用的版本是dlib-18.17,大家也可以在我這里下載：

之後進入python_examples下使用bat文件進行編譯，編譯需要先安裝libboost-python-dev和cmake

cd to dlib-18.17/python_examples

./compile_dlib_python_mole.bat 123

之後會得到一個dlib.so，復制到dist-packages目錄下即可使用

這里大家也可以直接用我編譯好的.so庫,但是也必須安裝libboost才可以，不然python是不能調用so庫的，下載地址：

將.so復制到dist-packages目錄下

sudo cp dlib.so /usr/local/lib/python2.7/dist-packages/1

最新的dlib18.18好像就沒有這個bat文件了，取而代之的是一個setup文件，那麼安裝起來應該就沒有這么麻煩了，大家可以去直接安裝18.18，也可以直接下載復制我的.so庫，這兩種方法應該都不麻煩～

有時候還會需要下面這兩個庫，建議大家一並安裝一下

9.安裝skimage

sudo apt-get install python-skimage1

10.安裝imtools

sudo easy_install imtools1

Dlib face landmarks Demo

環境配置結束之後，我們首先看一下dlib提供的示常式序

1.人臉檢測

dlib-18.17/python_examples/face_detector.py 源程序：

#!/usr/bin/python# The contents of this file are in the public domain. See LICENSE_FOR_EXAMPLE_PROGRAMS.txt## This example program shows how to find frontal human faces in an image. In# particular, it shows how you can take a list of images from the command# line and display each on the screen with red boxes overlaid on each human# face.## The examples/faces folder contains some jpg images of people. You can run# this program on them and see the detections by executing the# following command:# ./face_detector.py ../examples/faces/*.jpg## This face detector is made using the now classic Histogram of Oriented# Gradients (HOG) feature combined with a linear classifier, an image# pyramid, and sliding window detection scheme. This type of object detector# is fairly general and capable of detecting many types of semi-rigid objects# in addition to human faces. Therefore, if you are interested in making# your own object detectors then read the train_object_detector.py example# program. ### COMPILING THE DLIB PYTHON INTERFACE# Dlib comes with a compiled python interface for python 2.7 on MS Windows. If# you are using another python version or operating system then you need to# compile the dlib python interface before you can use this file. To do this,# run compile_dlib_python_mole.bat. This should work on any operating# system so long as you have CMake and boost-python installed.# On Ubuntu, this can be done easily by running the command:# sudo apt-get install libboost-python-dev cmake## Also note that this example requires scikit-image which can be installed# via the command:# pip install -U scikit-image# Or downloaded from . import sys

import dlib

from skimage import io

detector = dlib.get_frontal_face_detector()

win = dlib.image_window()

print("a");for f in sys.argv[1:]:

print("a");

print("Processing file: {}".format(f))
img = io.imread(f)
# The 1 in the second argument indicates that we should upsample the image
# 1 time. This will make everything bigger and allow us to detect more
# faces.
dets = detector(img, 1)
print("Number of faces detected: {}".format(len(dets))) for i, d in enumerate(dets):
print("Detection {}: Left: {} Top: {} Right: {} Bottom: {}".format(
i, d.left(), d.top(), d.right(), d.bottom()))

win.clear_overlay()
win.set_image(img)
win.add_overlay(dets)
dlib.hit_enter_to_continue()# Finally, if you really want to you can ask the detector to tell you the score# for each detection. The score is bigger for more confident detections.# Also, the idx tells you which of the face sub-detectors matched. This can be# used to broadly identify faces in different orientations.if (len(sys.argv[1:]) > 0):
img = io.imread(sys.argv[1])
dets, scores, idx = detector.run(img, 1) for i, d in enumerate(dets):
print("Detection {}, score: {}, face_type:{}".format(
d, scores[i], idx[i]))5767778798081

我把源代碼精簡了一下，加了一下注釋： face_detector0.1.py

# -*- coding: utf-8 -*-import sys

import dlib

from skimage import io#使用dlib自帶的frontal_face_detector作為我們的特徵提取器detector = dlib.get_frontal_face_detector()#使用dlib提供的圖片窗口win = dlib.image_window()#sys.argv[]是用來獲取命令行參數的，sys.argv[0]表示代碼本身文件路徑，所以參數從1開始向後依次獲取圖片路徑for f in sys.argv[1:]: #輸出目前處理的圖片地址
print("Processing file: {}".format(f)) #使用skimage的io讀取圖片
img = io.imread(f) #使用detector進行人臉檢測 dets為返回的結果
dets = detector(img, 1) #dets的元素個數即為臉的個數
print("Number of faces detected: {}".format(len(dets))) #使用enumerate 函數遍歷序列中的元素以及它們的下標
#下標i即為人臉序號
#left：人臉左邊距離圖片左邊界的距離；right：人臉右邊距離圖片左邊界的距離
#top：人臉上邊距離圖片上邊界的距離；bottom：人臉下邊距離圖片上邊界的距離
for i, d in enumerate(dets):
print("dets{}".format(d))
print("Detection {}: Left: {} Top: {} Right: {} Bottom: {}"
.format( i, d.left(), d.top(), d.right(), d.bottom())) #也可以獲取比較全面的信息，如獲取人臉與detector的匹配程度
dets, scores, idx = detector.run(img, 1)
for i, d in enumerate(dets):
print("Detection {}, dets{},score: {}, face_type:{}".format( i, d, scores[i], idx[i]))

#繪制圖片(dlib的ui庫可以直接繪制dets)
win.set_image(img)
win.add_overlay(dets) #等待點擊
dlib.hit_enter_to_continue()041424344454647484950

分別測試了一個人臉的和多個人臉的，以下是運行結果：

運行的時候把圖片文件路徑加到後面就好了

python face_detector0.1.py ./data/3.jpg12

一張臉的：

兩張臉的：

這里可以看出側臉與detector的匹配度要比正臉小的很多

2.人臉關鍵點提取

人臉檢測我們使用了dlib自帶的人臉檢測器（detector），關鍵點提取需要一個特徵提取器（predictor），為了構建特徵提取器，預訓練模型必不可少。

除了自行進行訓練外，還可以使用官方提供的一個模型。該模型可從dlib sourceforge庫下載：

arks.dat.bz2

也可以從我的連接下載：

這個庫支持68個關鍵點的提取，一般來說也夠用了，如果需要更多的特徵點就要自己去訓練了。

dlib-18.17/python_examples/face_landmark_detection.py 源程序：

#!/usr/bin/python# The contents of this file are in the public domain. See LICENSE_FOR_EXAMPLE_PROGRAMS.txt## This example program shows how to find frontal human faces in an image and# estimate their pose. The pose takes the form of 68 landmarks. These are# points on the face such as the corners of the mouth, along the eyebrows, on# the eyes, and so forth.## This face detector is made using the classic Histogram of Oriented# Gradients (HOG) feature combined with a linear

導航:首頁 > 編程語言 > pythonmechanize文檔

pythonmechanize文檔

與pythonmechanize文檔相關的資料