python演算法豆瓣_從python基礎到爬蟲的書有什麼值得推薦

A. 學python能幹什麼

Python可以做什麼？
1）網站後端程序員：使用它單間網站，後台服務比較容易維護。如：Gmail、Youtube、知乎、豆瓣
2）自動化運維：自動化處理大量的運維任務
3）數據分析師：快速開發快速驗證，分析數據得到結果
4）游戲開發者：一般是作為游戲腳本內嵌在游戲中
5）自動化測試：編寫為簡單的實現腳本，運用在Selenium/lr中，實現自動化。
6）網站開發：藉助django,flask框架自己搭建網站。
7）爬蟲獲取或處理大量信息：批量下載美劇、運行投資策略、爬合適房源、系統管理員的腳本任務等。

B. 如何入門 Python 爬蟲

「入門」是良好的動機，但是可能作用緩慢。如果你手裡或者腦子里有一個項目，那麼實踐起來你會被目標驅動，而不會像學習模塊一樣慢慢學習。
另外如果說知識體系裡的每一個知識點是圖里的點，依賴關系是邊的話，那麼這個圖一定不是一個有向無環圖。因為學習A的經驗可以幫助你學習B。因此，你不需要學習怎麼樣「入門」，因為這樣的「入門」點根本不存在！你需要學習的是怎麼樣做一個比較大的東西，在這個過程中，你會很快地學會需要學會的東西的。當然，你可以爭論說需要先懂python，不然怎麼學會python做爬蟲呢？但是事實上，你完全可以在做這個爬蟲的過程中學習python :D
看到前面很多答案都講的「術」——用什麼軟體怎麼爬，那我就講講「道」和「術」吧——爬蟲怎麼工作以及怎麼在python實現。
先長話短說summarize一下：
你需要學習

基本的爬蟲工作原理
基本的http抓取工具，scrapy
Bloom Filter: Bloom Filters by Example
如果需要大規模網頁抓取，你需要學習分布式爬蟲的概念。其實沒那麼玄乎，你只要學會怎樣維護一個所有集群機器能夠有效分享的分布式隊列就好。
rq和Scrapy的結合：darkrho/scrapy-redis · GitHub
後續處理，網頁析取(grangier/python-goose · GitHub)，存儲(Mongodb)

以下是短話長說：
說說當初寫的一個集群爬下整個豆瓣的經驗吧。
1）首先你要明白爬蟲怎樣工作。
想像你是一隻蜘蛛，現在你被放到了互聯「網」上。那麼，你需要把所有的網頁都看一遍。怎麼辦呢？沒問題呀，你就隨便從某個地方開始，比如說人民日報的首頁，這個叫initial pages，用$表示吧。
在人民日報的首頁，你看到那個頁面引向的各種鏈接。於是你很開心地從爬到了「國內新聞」那個頁面。太好了，這樣你就已經爬完了倆頁面（首頁和國內新聞）！暫且不用管爬下來的頁面怎麼處理的，你就想像你把這個頁面完完整整抄成了個html放到了你身上。
突然你發現，在國內新聞這個頁面上，有一個鏈接鏈回「首頁」。作為一隻聰明的蜘蛛，你肯定知道你不用爬回去的吧，因為你已經看過了啊。所以，你需要用你的腦子，存下你已經看過的頁面地址。這樣，每次看到一個可能需要爬的新鏈接，你就先查查你腦子里是不是已經去過這個頁面地址。如果去過，那就別去了。
好的，理論上如果所有的頁面可以從initial page達到的話，那麼可以證明你一定可以爬完所有的網頁。
那麼在python里怎麼實現呢？
很簡單

import Queue

initial_page = ""

url_queue = Queue.Queue()
seen = set()

seen.insert(initial_page)
url_queue.put(initial_page)

while(True): #一直進行直到海枯石爛
if url_queue.size()>0:
current_url = url_queue.get() #拿出隊例中第一個的url
store(current_url) #把這個url代表的網頁存儲好
for next_url in extract_urls(current_url): #提取把這個url里鏈向的url
if next_url not in seen:
seen.put(next_url)
url_queue.put(next_url)
else:
break

寫得已經很偽代碼了。
所有的爬蟲的backbone都在這里，下面分析一下為什麼爬蟲事實上是個非常復雜的東西——搜索引擎公司通常有一整個團隊來維護和開發。
2）效率
如果你直接加工一下上面的代碼直接運行的話，你需要一整年才能爬下整個豆瓣的內容。更別說Google這樣的搜索引擎需要爬下全網的內容了。
問題出在哪呢？需要爬的網頁實在太多太多了，而上面的代碼太慢太慢了。設想全網有N個網站，那麼分析一下判重的復雜度就是N*log(N)，因為所有網頁要遍歷一次，而每次判重用set的話需要log(N)的復雜度。OK，OK，我知道python的set實現是hash——不過這樣還是太慢了，至少內存使用效率不高。
通常的判重做法是怎樣呢？Bloom Filter. 簡單講它仍然是一種hash的方法，但是它的特點是，它可以使用固定的內存（不隨url的數量而增長）以O(1)的效率判定url是否已經在set中。可惜天下沒有白吃的午餐，它的唯一問題在於，如果這個url不在set中，BF可以100%確定這個url沒有看過。但是如果這個url在set中，它會告訴你：這個url應該已經出現過，不過我有2%的不確定性。注意這里的不確定性在你分配的內存足夠大的時候，可以變得很小很少。一個簡單的教程:Bloom Filters by Example
注意到這個特點，url如果被看過，那麼可能以小概率重復看一看（沒關系，多看看不會累死）。但是如果沒被看過，一定會被看一下（這個很重要，不然我們就要漏掉一些網頁了！）。 [IMPORTANT: 此段有問題，請暫時略過]

好，現在已經接近處理判重最快的方法了。另外一個瓶頸——你只有一台機器。不管你的帶寬有多大，只要你的機器下載網頁的速度是瓶頸的話，那麼你只有加快這個速度。用一台機子不夠的話——用很多台吧！當然，我們假設每台機子都已經進了最大的效率——使用多線程（python的話，多進程吧）。
3）集群化抓取
爬取豆瓣的時候，我總共用了100多台機器晝夜不停地運行了一個月。想像如果只用一台機子你就得運行100個月了...
那麼，假設你現在有100台機器可以用，怎麼用python實現一個分布式的爬取演算法呢？
我們把這100台中的99台運算能力較小的機器叫作slave，另外一台較大的機器叫作master，那麼回顧上面代碼中的url_queue，如果我們能把這個queue放到這台master機器上，所有的slave都可以通過網路跟master聯通，每當一個slave完成下載一個網頁，就向master請求一個新的網頁來抓取。而每次slave新抓到一個網頁，就把這個網頁上所有的鏈接送到master的queue里去。同樣，bloom filter也放到master上，但是現在master只發送確定沒有被訪問過的url給slave。Bloom Filter放到master的內存里，而被訪問過的url放到運行在master上的Redis里，這樣保證所有操作都是O(1)。（至少平攤是O(1)，Redis的訪問效率見:LINSERT – Redis)

考慮如何用python實現：
在各台slave上裝好scrapy，那麼各台機子就變成了一台有抓取能力的slave，在master上裝好Redis和rq用作分布式隊列。

代碼於是寫成

#slave.py

current_url = request_from_master()
to_send = []
for next_url in extract_urls(current_url):
to_send.append(next_url)

store(current_url);
send_to_master(to_send)

#master.py
distributed_queue = DistributedQueue()
bf = BloomFilter()

initial_pages = "www.renmingribao.com"

while(True):
if request == 'GET':
if distributed_queue.size()>0:
send(distributed_queue.get())
else:
break
elif request == 'POST':
bf.put(request.url)

好的，其實你能想到，有人已經給你寫好了你需要的：darkrho/scrapy-redis · GitHub
4）展望及後處理
雖然上面用很多「簡單」，但是真正要實現一個商業規模可用的爬蟲並不是一件容易的事。上面的代碼用來爬一個整體的網站幾乎沒有太大的問題。
但是如果附加上你需要這些後續處理，比如

有效地存儲（資料庫應該怎樣安排）

有效地判重（這里指網頁判重，咱可不想把人民日報和抄襲它的大民日報都爬一遍）

有效地信息抽取（比如怎麼樣抽取出網頁上所有的地址抽取出來，「朝陽區奮進路中華道」），搜索引擎通常不需要存儲所有的信息，比如圖片我存來幹嘛...

及時更新（預測這個網頁多久會更新一次）

如你所想，這里每一個點都可以供很多研究者十數年的研究。雖然如此，
「路漫漫其修遠兮,吾將上下而求索」。
所以，不要問怎麼入門，直接上路就好了：）

C. 怎樣才能學好python語言

第一：道——明確目標

其實很多人在學習Python之前很少想這個，因為很多人說：現在Python很火呀，所以我么需要學。這個其實跟你自己沒有什麼關系，例如：你曾經想做一個網站不會開發，現在可以做了，現在Python很火並且你也要學來找工作，未來Python很火，我具備了Python的技能會不錯。

在一生中，我們或多或少總會卡到目標上。在一些我們擅長的領域，我們會有明確的目標，並且積極指導別人：親！幹事之前，你要先定目標啊！

王健林的小目標，大家在朋友圈也都看過了，他會定先掙它一個億。

第二：法——做好你學習Python的系統規劃

1.目前市場需求主流的崗位里，你得選擇一個其中你目前看來可以學，並且最敢興趣學習的方向；

2.在方向選擇好後，對照招聘網站：拉勾、智聯、Boss直聘等網站的崗位要求，進行學習內容的統計與大概的記錄；

3.分模塊的計劃你學習這個模塊的時間和完成的大概目標；

4.列出你可能出現的學習誤差與為之准備的應對方案；

好了，你發現沒有，其實任何學習重要的不是有什麼資料，核心是如何學，學多久，有沒有時間限制，遇到過自己多次學習某個內容或者其他人學習某個內容，最關鍵的一點是在起步階段，開始屬於激情期，激情在前面釋放越多，後面的持續力就很弱，好了這就是關於學習計劃。

廢話說多了，那我們來看看一個普適性的學習Python的流程;

1天——下載並安裝好學習環境：到www.python.org網站上下載一個python3.0以上的版本。我建議初學者，不要下載具有IDE功能的集成開發環境，比如Eclipse插件等。

4周——下載一些python的學習文檔，比如《簡明Python教程》，《笨辦法學Python》等等。通過學習語法，掌握python中的關鍵字語法，函數語法，數學表達式、變數、數據結構、語法等等等

1. 了解Python是什麼，都能做些什麼？
2. 知道什麼是變數、演算法、解釋器
3. Python基本數據類型
4. 列表和元組的操作方法
5. 字元串操作方法
6. 基本的字典操作方法
7.任何知識它的基礎知識都是有些枯燥的，現在我們就可以動手來做一些邏輯層面的東西了。掌握 if、else、elif、while、for、continue、break和列表推導式等這些語句的使用，還有程序中的異常處理。

2周——看完基礎後，就是做一些小項目鞏固基礎，python具備很好的交互學習模式，對於書本上的例子我們可以通過交互平台進行操練，通過練習加深印象，達到學習掌握的目的。

2周——通過以上三個步驟的學習後，我們大致掌握了python的常用方法、關鍵字用法以及函數語法等。接下去的學習上，我們就可以著手學習常用模塊的使用，比如os,os.path,sys,string模塊等。我們可以在交互環境中先熟悉使用其中的函數，如果遇到函數的使用上的問題，可以參考python 安裝後的自帶chm幫助文件。

2周——為了更好得掌握python，我們的學習不能只是停留在學習一些語法或者api階段。在此階段中，我們可以嘗試用python解決我們項目中遇到的一些問題，如果項目不是用python開發的，那我們可以想想能不能用python製作一些項目組可以使用的一些工具（utility），通過這些工具簡化項目組成員的任務，提高我們的工作效率。如果沒有項目，我們也可以自己找些題目來自己練習練習。

2周——Python庫是Python的精華所在，可以說Python庫組成並且造就了Python，Python庫是Python開發者的利器，所以學習Python庫就顯得尤為重要：

2周——經過以上鍛煉後，我們的python知識水平肯定是越來越高。接下去的學習，我們就要更上一層樓。為了學以致用，真正能應用於項目開發或產品開發，我們還必須學習企業應用開發中必須要掌握的網路和資料庫的知識。在此的學習就不光是python語言本身的學習了，如果之前沒有學習和掌握很網路和資料庫知識，在此階段我們可以藉此機會補習一把。

3周——到此階段，我們已經是真正入門了。在接下去的工作中，就是要快速地通過我們的所學來服務項目了。在此階段，我們除了掌握python自帶的模塊外，我們最好在掌握一些業界廣泛使用的開源框架，比如twisted、peak、django、xml等。通過熟練使用它們，達到閃電開發，大大節省項目寶貴時間。

《Python 核心編程》，介紹了 Python 的一些具體領域的開發方法；

《Python 網路數據採集》，很簡單的爬蟲入門書；

《利用 Python 進行數據分析》，介紹了 Pandas 和 NumPy 的用法；

《Flask Web 開發》，如何用 Flask 寫一個博客。

第三：術——你具體的學習手段

1.每天你計劃學習多少時間？例如一天必須學2小時，每天堅持；

2.每個階段的計劃拖延時間不能高於多少時間？

3.如果一個階段不順利如何調整？

其實很多時候，並不是資料不夠多，而是本身的學習思路和計劃出現了問題，那麼其實最後學習Python的結果會變成：懂得了很多道理，收集了很多資料，依然學不好Python。

下面我們推薦6本高分書籍給大家，希望大家學習愉快：

1.Python編程：從入門到實踐

豆瓣評分：9.5

內容簡介：本書由奮戰在Python開發一線近20年的Luciano Ramalho執筆，Victor Stinner、Alex Martelli等Python大咖擔綱技術審稿人，從語言設計層面剖析編程細節，兼顧Python 3和Python 2，告訴你Python中不親自動手實踐就無法理解的語言陷阱成因和解決之道，教你寫出風格地道的Python代碼。

D. 如何用python爬取豆瓣讀書的數據

這兩天爬了豆瓣讀書的十萬條左右的書目信息，用時將近一天，現在趁著這個空閑把代碼總結一下，還是菜鳥，都是用的最簡單最笨的方法，還請路過的大神不吝賜教。
第一步，先看一下我們需要的庫：

import requests #用來請求網頁
from bs4 import BeautifulSoup #解析網頁
import time #設置延時時間，防止爬取過於頻繁被封IP號
import re #正則表達式庫
import pymysql #由於爬取的數據太多，我們要把他存入MySQL資料庫中，這個庫用於連接資料庫
import random #這個庫里用到了產生隨機數的randint函數，和上面的time搭配，使爬取間隔時間隨機

這個是豆瓣的網址：x-sorttags-all
我們要從這里獲取所有分類的標簽鏈接，進一步去爬取裡面的信息，代碼先貼上來：

import requests
from bs4 import BeautifulSoup #導入庫

url="httom/tag/?icn=index-nav"
wb_data=requests.get(url) #請求網址
soup=BeautifulSoup(wb_data.text,"lxml") #解析網頁信息
tags=soup.select("#content > div > div.article > div > div > table > tbody > tr > td > a")
#根據CSS路徑查找標簽信息，CSS路徑獲取方法，右鍵-檢查- selector，tags返回的是一個列表
for tag in tags:
tag=tag.get_text() #將列表中的每一個標簽信息提取出來
helf="hom/tag/"
#觀察一下豆瓣的網址，基本都是這部分加上標簽信息，所以我們要組裝網址，用於爬取標簽詳情頁
url=helf+str(tag)
print(url) #網址組裝完畢，輸出

以上我們便爬取了所有標簽下的網址，我們將這個文件命名為channel,並在channel中創建一個channel字元串，放上我們所有爬取的網址信息，等下爬取詳情頁的時候直接從這里提取鏈接就好了，如下：

channel='''
tag/程序
'''

現在，我們開始第二個程序。

QQ圖片20160915233329.png

標簽頁下每一個圖片的信息基本都是這樣的，我們可以直接從這里提取到標題，作者，出版社，出版時間，價格，評價人數，以及評分等信息（有些外國作品還會有譯者信息），提取方法與提取標簽類似，也是根據CSS路徑提取。
我們先用一個網址來實驗爬取：

url="htt/tag/科技"
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text.encode("utf-8"), "lxml")
tag=url.split("?")[0].split("/")[-1] #從鏈接裡面提取標簽信息，方便存儲
detils=soup.select("#subject_list > ul > li > div.info > div.pub") #抓取作者，出版社信息，稍後我們用spite()函數再將他們分離出來
scors=soup.select("#subject_list > ul > li > div.info > div.star.clearfix > span.rating_nums") #抓取評分信息
persons=soup.select("#subject_list > ul > li > div.info > div.star.clearfix > span.pl") #評價人數
titles=soup.select("#subject_list > ul > li > div.info > h2 > a") #書名
#以上抓取的都是我們需要的html語言標簽信息，我們還需要將他們一一分離出來
for detil,scor,person,title in zip(detils,scors,persons,titles):
#用一個zip()函數實現一次遍歷
#因為一些標簽中有譯者信息，一些標簽中沒有，為避免錯誤，所以我們要用一個try來把他們分開執行
try:
author=detil.get_text().split("/",4)[0].split()[0] #這是含有譯者信息的提取辦法，根據「/」把標簽分為五部分，然後依次提取出來
yizhe= detil.get_text().split("/", 4)[1]
publish=detil.get_text().split("/", 4)[2]
time=detil.get_text().split("/", 4)[3].split()[0].split("-")[0] #時間我們只提取了出版年份
price=ceshi_priceone(detil) #因為價格的單位不統一，我們用一個函數把他們換算為「元」
scoe=scor.get_text() if True else "" #有些書目是沒有評分的，為避免錯誤，我們把沒有評分的信息設置為空
person=ceshi_person(person) #有些書目的評價人數顯示少於十人，爬取過程中會出現錯誤，用一個函數來處理
title=title.get_text().split()[0]
#當沒有譯者信息時，會顯示IndexError，我們分開處理
except IndexError:
try:
author=detil.get_text().split("/", 3)[0].split()[0]
yizhe="" #將detil信息劃分為4部分提取，譯者信息直接設置為空，其他與上面一樣
publish=detil.get_text().split("/", 3)[1]
time=detil.get_text().split("/", 3)[2].split()[0].split("-")[0]
price=ceshi_pricetwo(detil)
scoe=scor.get_text() if True else ""
person=ceshi_person(person)
title=title.get_text().split()[0]
except (IndexError,TypeError):
continue
#出現其他錯誤信息，忽略，繼續執行（有些書目信息下會沒有出版社或者出版年份，但是數量很少，不影響我們大規模爬取，所以直接忽略）
except TypeError:
continue

#提取評價人數的函數，如果評價人數少於十人，按十人處理
def ceshi_person(person):
try:
person = int(person.get_text().split()[0][1:len(person.get_text().split()[0]) - 4])
except ValueError:
person = int(10)
return person

#分情況提取價格的函數，用正則表達式找到含有特殊字元的信息，並換算為「元」
def ceshi_priceone(price):
price = detil.get_text().split("/", 4)[4].split()
if re.match("USD", price[0]):
price = float(price[1]) * 6
elif re.match("CNY", price[0]):
price = price[1]
elif re.match("A$", price[0]):
price = float(price[1:len(price)]) * 6
else:
price = price[0]
return price
def ceshi_pricetwo(price):
price = detil.get_text().split("/", 3)[3].split()
if re.match("USD", price[0]):
price = float(price[1]) * 6
elif re.match("CNY", price[0]):
price = price[1]
elif re.match("A$", price[0]):
price = float(price[1:len(price)]) * 6
else:
price = price[0]
return price

實驗成功後，我們就可以爬取數據並導入到資料庫中了，以下為全部源碼，特殊情況會用注釋一一說明。

import requests
from bs4 import BeautifulSoup
import time
import re
import pymysql
from channel import channel #這是我們第一個程序爬取的鏈接信息
import random

def ceshi_person(person):
try:
person = int(person.get_text().split()[0][1:len(person.get_text().split()[0]) - 4])
except ValueError:
person = int(10)
return person

def ceshi_priceone(price):
price = detil.get_text().split("/", 4)[4].split()
if re.match("USD", price[0]):
price = float(price[1]) * 6
elif re.match("CNY", price[0]):
price = price[1]
elif re.match("A$", price[0]):
price = float(price[1:len(price)]) * 6
else:
price = price[0]
return price

def ceshi_pricetwo(price):
price = detil.get_text().split("/", 3)[3].split()
if re.match("USD", price[0]):
price = float(price[1]) * 6
elif re.match("CNY", price[0]):
price = price[1]
elif re.match("A$", price[0]):
price = float(price[1:len(price)]) * 6
else:
price = price[0]
return price

#這是上面的那個測試函數，我們把它放在主函數中
def mains(url):
wb_data = requests.get(url)
soup = BeautifulSoup(wb_data.text.encode("utf-8"), "lxml")
tag=url.split("?")[0].split("/")[-1]
detils=soup.select("#subject_list > ul > li > div.info > div.pub")
scors=soup.select("#subject_list > ul > li > div.info > div.star.clearfix > span.rating_nums")
persons=soup.select("#subject_list > ul > li > div.info > div.star.clearfix > span.pl")
titles=soup.select("#subject_list > ul > li > div.info > h2 > a")
for detil,scor,person,title in zip(detils,scors,persons,titles):
l = [] #建一個列表，用於存放數據
try:
author=detil.get_text().split("/",4)[0].split()[0]
yizhe= detil.get_text().split("/", 4)[1]
publish=detil.get_text().split("/", 4)[2]
time=detil.get_text().split("/", 4)[3].split()[0].split("-")[0]
price=ceshi_priceone(detil)
scoe=scor.get_text() if True else ""
person=ceshi_person(person)
title=title.get_text().split()[0]
except IndexError:
try:
author=detil.get_text().split("/", 3)[0].split()[0]
yizhe=""
publish=detil.get_text().split("/", 3)[1]
time=detil.get_text().split("/", 3)[2].split()[0].split("-")[0]
price=ceshi_pricetwo(detil)
scoe=scor.get_text() if True else ""
person=ceshi_person(person)
title=title.get_text().split()[0]
except (IndexError,TypeError):
continue

except TypeError:
continue
l.append([title,scoe,author,price,time,publish,person,yizhe,tag])
#將爬取的數據依次填入列表中

sql="INSERT INTO allbooks values(%s,%s,%s,%s,%s,%s,%s,%s,%s)" #這是一條sql插入語句
cur.executemany(sql,l) #執行sql語句，並用executemary()函數批量插入資料庫中
conn.commit()

#主函數到此結束

# 將Python連接到MySQL中的python資料庫中
conn = pymysql.connect( user="root",password="123123",database="python",charset='utf8')
cur = conn.cursor()

cur.execute('DROP TABLE IF EXISTS allbooks') #如果資料庫中有allbooks的資料庫則刪除
sql = """CREATE TABLE allbooks(
title CHAR(255) NOT NULL,
scor CHAR(255),
author CHAR(255),
price CHAR(255),
time CHAR(255),
publish CHAR(255),
person CHAR(255),
yizhe CHAR(255),
tag CHAR(255)
)"""
cur.execute(sql) #執行sql語句，新建一個allbooks的資料庫

start = time.clock() #設置一個時鍾，這樣我們就能知道我們爬取了多長時間了
for urls in channel.split():
urlss=[urls+"?start={}&type=T".format(str(i)) for i in range(0,980,20)] #從channel中提取url信息，並組裝成每一頁的鏈接
for url in urlss:
mains(url) #執行主函數，開始爬取
print(url) #輸出要爬取的鏈接，這樣我們就能知道爬到哪了，發生錯誤也好處理
time.sleep(int(format(random.randint(0,9)))) #設置一個隨機數時間，每爬一個網頁可以隨機的停一段時間，防止IP被封
end = time.clock()
print('Time Usage:', end - start) #爬取結束，輸出爬取時間
count = cur.execute('select * from allbooks')
print('has %s record' % count) #輸出爬取的總數目條數

# 釋放數據連接
if cur:
cur.close()
if conn:
conn.close()

這樣，一個程序就算完成了，豆瓣的書目信息就一條條地寫進了我們的資料庫中，當然，在爬取的過程中，也遇到了很多問題，比如標題返回的信息拆分後中會有空格，寫入資料庫中會出現錯誤，所以只截取了標題的第一部分，因而導致資料庫中的一些書名不完整，過往的大神如果有什麼辦法，還請指教一二。
等待爬取的過程是漫長而又欣喜的，看著電腦上一條條信息被刷出來，成就感就不知不覺湧上心頭；然而如果你吃飯時它在爬，你上廁所時它在爬，你都已經爬了個山回來了它還在爬時，便會有點崩潰了，擔心電腦隨時都會壞掉（還是窮學生換不起啊啊啊啊~）
所以，還是要好好學學設置斷點，多線程，以及正則，路漫漫其修遠兮，吾將上下而求索~共勉~

E. 可不可以不學java直接學python

可以，從語言本身來說，Python 語法簡單，容易上手，而 Java 就相對較難。千鋒教育就有線上免費Java線上公開課。以學習編程語言入門語句來說，Python 輸出「hello world」僅需寫一行代碼，而 Java 需要四行代碼。從此可見兩者的區別。但也是由於 Java 復雜的語法，當學好 Java 後，學習其他語言就會比較容易，對相關演算法邏輯也會比較清晰。從兩者的實際應用來看，Python 可以用來快速開發一個網站，如國內的豆瓣就是用 Python 開發而來的；Python 還被用在自動化系統網路的運行維護中；此外，人工智慧和數據分析也常用 Python 來實現。Java 常用於 app 的開發，網站後端等，一些大型的企業級應用也是有java來實現。所以可以直接跳過java學習Python。如果想了解Java更多相關知識，建議到千鋒教育了解一下。千鋒教育目前在18個城市擁有22個校區，年培養優質人才20000餘人，與國內20000餘家企業建立人才輸送合作關系，院校合作超600所。

F. python的推薦書籍有哪些

1、《「笨辦法」學Python》

為什麼把它作為推薦給Python入門自學者的第一本書？因為它足夠有趣吸引人。一開始我們都是憑著興趣學習的，如果在剛剛開始學習的時候，就看深奧難讀的書，很容易就從入門到放棄。而且這本書里每一章知識講完後，都會配有相應的練習小題，幫助初學者在學中練，練中學，進一步鞏固相關知識點。總之，這本書以習題的方式引導學習者一步一步學習編程，從簡單的列印一直講授到完整項目的實現，讓初學者從基礎的編程技術入手，最終體驗到軟體開發的基本過程。可以說，這本書是零基礎入門Python的不二之選！

2、《Python快速編程入門》

這本書是一本Python基礎教程，因此全部內容定位於Python的基本知識、語法、函數、面向對象等基礎性內容。在夯實基礎後，該書後一章設置了游戲開發的綜合訓練，幫助初學者更好掌握相關知識。除此之外，本書附有配套視頻、源代碼、習題、教學課件等資源。總之，

本書既可作為高等院校本、專科計算機相關專業的程序設計課程教材，也可作為Python編程基礎的學習教材，是一本適合廣大編程開發初學者的入門級教材。

3、《Python高手之路(第3版) 》

本書不適合零基礎學習者，適合有一定Python基礎的學習者閱讀。因為該書完全從實戰的角度出發，介紹了需要系統掌握的Python知識。更為難得的是，本書結合了Python在OpenStack中的應用進行講解，非常具有實戰指導意義。此外，本書還涉及了很多高級主題，如性能優化、插件化結構的設計與架構、Python
3的支持策略等。因此，本書適合初中級層次的Python程序員閱讀和參考。

4、《Python演算法教程》

本書最大的優點簡單概括起來就是知識點清晰，語言簡潔。書中用Python語言來講解演算法的分析和設計，主要關注經典的演算法，幫助讀者理解基本演算法問題和解決問題打下很好的基礎。本書概念和知識點講解清晰，語言簡潔，因此適合對Python演算法感興趣的初中級用戶閱讀和自學，也適合高等院校的計算機系學生作為參考教材來閱讀。

5、《Python核心編程（第3版）》

本書涵蓋了成為一名技術全面的Python開發人員所需的一切內容，因此是每個想要精通Python的工程師必須要學習和了解的內容。在本書中，Python開發人員兼企業培訓師Wesley
Chun會幫助學習者將Python技能提升到更高的水平。而且書中講解了應用開發相關的多個領域，可以幫助讀者立即應用到項目開發中。

6、《精通Python自然語言處理》

眾做周知，自然語言處理是計算語言學和人工智慧之中與人機交互相關的領域之一。本書是學習自然語言處理的一本綜合學習指南，該書介紹了如何用Python實現各種NLP任務，以幫助讀者創建基於真實生活應用的項目。全書共10章，分別涉及字元串操作、統計語言建模、形態學、詞性標注、語法解析、語義分析、情感分析、信息檢索、語篇分析和NLP系統評估等主題。本書適合熟悉Python語言並對自然語言處理開發有一定了解和興趣的讀者閱讀參考。

以上就是推薦的Python入門到精通的所有書籍，相信總有一本適合你。但想要快速入門Python開發，僅靠看書怎麼夠，畢竟編程最重要的就是練習。

對於Python開發有興趣的小夥伴們，不妨先從看看Python開發書籍開始入門！B站上有很多的Python教學視頻，從基礎到高級的都有，還挺不錯的，知識點講的很細致，還有完整版的學習路線圖。也可以自己去看看，下載學習試試。

G. 怎麼用python抓取豆瓣上用戶對電影的評分

#!/usr/bin/env python2.7# encoding=utf-8"""
爬取豆瓣電影TOP250 - 完整示例代碼
"""import codecsimport requestsfrom bs4 import BeautifulSoup

DOWNLOAD_URL = 'http://movie.douban.com/top250/'def download_page(url):
return requests.get(url, headers={ 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.2526.80 Safari/537.36'
}).contentdef parse_html(html):
soup = BeautifulSoup(html)
movie_list_soup = soup.find('ol', attrs={'class': 'grid_view'})

movie_name_list = [] for movie_li in movie_list_soup.find_all('li'):
detail = movie_li.find('div', attrs={'class': 'hd'})
movie_name = detail.find('span', attrs={'class': 'title'}).getText()

movie_name_list.append(movie_name)

next_page = soup.find('span', attrs={'class': 'next'}).find('a') if next_page: return movie_name_list, DOWNLOAD_URL + next_page['href'] return movie_name_list, Nonedef main():
url = DOWNLOAD_URL with codecs.open('movies', 'wb', encoding='utf-8') as fp: while url:
html = download_page(url)
movies, url = parse_html(html)
fp.write(u'{movies}\n'.format(movies='\n'.join(movies)))if __name__ == '__main__':
main()

H. 學習python爬蟲推薦書籍

鏈接：https://pan..com/s/1wMgTx-M-Ea9y1IYn-UTZaA

提取碼：2b6c

課程簡介

畢業不知如何就業？工作效率低經常挨罵？很多次想學編程都沒有學會？

Python 實戰：四周實現爬蟲系統，無需編程基礎，二十八天掌握一項謀生技能。

帶你學到如何從網上批量獲得幾十萬數據，如何處理海量大數據，數據可視化及網站製作。

課程目錄

開始之前，魔力手冊 for 實戰學員預習

第一周：學會爬取網頁信息

第二周：學會爬取大規模數據

第三周：數據統計與分析

第四周：搭建 Django 數據可視化網站

......

I. 從python基礎到爬蟲的書有什麼值得推薦

前兩篇爬蟲12（點擊頭像看歷史）

資料僅供學習

方式一

直接爬取網站

http://chanyouji.com/（網站會攔截IP，第二篇就用到了）

1~打開網頁，裡面有很多人分享的游記，我們就進行游記爬取2~點開其中一篇游記，看到鏈接地址形式http://chanyouji.com/trips/，這個時候，思考，這個數字代表的含義？會不會是游記在資料庫的ID，如果是的話那我們換個數字會不會得到別的游記，試一下訪問http://chanyouji.com/trips/，確實看到了不一樣的游記。自己試試

學習過程中遇到什麼問題或者想獲取學習資源的話，歡迎加入學習交流群

，我們一起學Python！

每天晚上都有大神與你高清視頻免費分享交流行業最新動態湊熱鬧就不要加了群名額有限！

J. 《Python機器學習預測分析核心演算法Python語言編程教程書籍》pdf下載在線閱讀，求百度網盤雲資源

《Python機器學習》（[美] Michael Bowles）電子書網盤下載免費在線閱讀

資源鏈接：

鏈接: https://pan..com/s/1R9hSyI6FDigKF-96ALYQ2g

提取碼: qv3c

書名：Python機器學習

作者：[美] Michael Bowles

譯者：沙嬴

豆瓣評分：6.4

出版社：人民郵電出版社

出版年份：2016-12

頁數：320

內容簡介：

在學習和研究機器學習的時候，面臨令人眼花繚亂的演算法，機器學習新手往往會不知

所措。本書從演算法和Python 語言實現的角度，幫助讀者認識機器學習。

書專注於兩類核心的「演算法族」，即懲罰線性回歸和集成方法，並通過代碼實例來

展示所討論的演算法的使用原則。全書共分為7 章，詳細討論了預測模型的兩類核心演算法、預測模型的構建、懲罰線性回歸和集成方法的具體應用和實現。

本書主要針對想提高機器學習技能的Python 開發人員，幫助他們解決某一特定的項

目或是提升相關的技能。

作者簡介：

Michael Bowles 在矽谷黑客道場教授機器學習，提供機器學習項目咨詢，同時參與了多家創業公司，涉及的領域包括生物信息學、金融高頻交易等。他在麻省理工學院獲得助理教授教職後，創建並運營了兩家矽谷創業公司，這兩家公司都已成功上市。他在黑客道場的課程往往聽者雲集並且好評頗多。

導航:首頁 > 源碼編譯 > python演算法豆瓣

python演算法豆瓣

推薦的幾本Python入門自學到精通必看的書籍吧~