A. 爬蟲小白求問python如何爬取天貓京東等網頁
大的原則上,在網上能公開訪問的可見的數據資料都是有辦法爬取到的,天貓和京東上是有部分的訂單成交數據的,所以這些也是可以爬取的。某寶中的楚江數據,數據採集工作可以代寫爬蟲,也可以直接讓他們爬取數據,視頻,圖片,文字都可以。
B. 利用Python對天貓店鋪銷售進行分析.下
<p>相隔兩個月,爬蟲任務完成了。上次說道( 利用Python對天貓店鋪銷售進行分析.上 ),後續要完成四個功能,包括:</p>
<p>在上一個任務完成之後,任務的最後是通過crontab設置每天8點,13點,18點,23點,定時採集任務,而該篇內容的目的就是在每天23點最後一次任務完成之後,對該天採集的數據進行處理,時間設定在23點30分,也是採用crontab來定時開啟。</p>
<p>這個只要通過SQLite將每天收集的數據重新提取出來,由於我們的當天的銷售數據是收集在SCOUNT表格中,而數據的列名稱是依據時間來命名,為了獲得當天四個時間點採集的銷售數據,需要先獲得列名稱。</p>
<p>在SQLite裡面,可以通過 Pragma 獲得所有的列名稱信息,Pragma有兩個功能,包括更改內部操作以及獲得表格固有數據,通過其中的table_info,既可以獲得列名稱信息,所有列名稱信息獲得後,通過 list comprehensions (這個實在不知道怎麼翻譯),可以獲得今天的新生成的4個銷售數據列:</p>
<p>然後就是獲得進行的銷售數據,由於每個SKU一天將採集四次數據,並且收集的SKU有下架的可能,SKU列表中的不是每個SKU都有可能被採集,所以對採集出來需要的數據需要 dropna ,並且需要將SKU信息表格和銷售數據表格通過 merge 函數合並,形成我們需要的data。每個SKU在每個時刻採集的數據會出現波動,銷量數據並不是一個連續增長的過程,因此為了求得當天的銷量,可取一天中最大數和最小數差值。</p>
<p>生成銷售額的方法類似,就不在這里列出。</p>
<p>生成PDF,這是當時的一個設想,後來參考這篇 教程 做出來了( Practical Business Python 是個好網站,推薦),原理是通過DataFrame轉化為HTML,再將HTML轉化為PDF。但是寫郵件模塊的時候,發現郵件可以內嵌HTML,因此就沒有必要專門生成PDF,再通過郵件以附件的形式發送了。但在這里,還是先梳理下整個流程:</p>
<p>採用 Jinja2 生成PDF,首先需要生成一個模板,模板裡面需設定好HTML的樣式,這是參考教程寫出的一個HTML的樣式:</p>
<p>完成後,再將DataFrame通過 to_html 函數轉化為HTML並填入到樣式中。</p>
<p>最後生成PDF,只加入一個模塊喝一句話就可以了。 weasyprint 這個模塊是專門用於將HTML或者CSS轉化為PDF:</p>
<p>python裡面有專門的發送郵件模塊, email 模塊。郵件的模塊包括兩部分,一部分是郵件正文模塊,一部分郵件發送模塊:</p>
<p>郵件正文模塊,通過MIMEText完成。在email模塊裡面有專門的( MIME , Multipurpose Internet Mail Extensions,多用途互聯網郵件擴展)模塊,用來生成對應的郵件正文類型。在這里先採用文本模塊MIMEText做個示範:</p>
<p>然後就是發送郵件了,需要經過 stmplib 模塊,下面詳細講講。發送郵件首先需要設置 smtp (Simple Mail Transfer Protocol,簡單郵件傳輸協議)的地址和埠,然後部分郵箱需要採用TTS加密協議的時候,則需要使用starttts()函數。然後對應的是登陸的用戶名的密碼,再將上面編寫的msg發出去,最後quit即可。</p>
<p>總結下,之前設定的任務大體完成了。但是還是有很多可以深化的內容,例如前面採用DataFrame的時候,沒有對數據進行可視化,HTML的模板還可以再美化下,另外假如引入了數據可視化,要怎麼將可視化的圖片嵌入到郵件中。郵件登陸那部分,部分郵箱沒有辦法採用這個方法發出(需要再考慮smtp設置)。</p>
<p>上面這些問題,後續會繼續以小項目的形式進行研究。後面還可以進行平台之間的銷售情況對比等等,總而言之,該項目還是有很大的擴張空間的。嘛,這一次就先這樣結束吧。</p>
C. python爬取用戶評價的目的與意義
是為了從互聯網上抓取對於我們有價值的信息。
比如說:訪問天貓的網站,搜索對應的商品,然後爬取它的評論數據,可以作為設計前期的市場調研的數據,幫助很大。
在爬蟲領域,Python幾乎是霸主地位,雖然C++、Java、GO等編程語言也可以寫爬蟲,但Python更具優勢,不僅擁有優秀的第三方庫,還可以為我們做很多的事情,比如:收集數據、數據儲存、網頁預處理等。
D. 用python在天貓上爬取商品動態價格和銷量時
python 2.6 + selenium-2.53.6 + firefox45.0 + BeautifulSoup3.2.1 或者 python 2.6 + selenium-2.53.6 + phantomjs 2.1.1