1. 如何用python抓取js生成的數據
如果對抓取的性能沒有什麼要求的話, 嘗試一下selenium或者watir吧.
web自動化測試腳本用好了可以做很多事情.
利用你的瀏覽器執行好js, 然後再從dom裡面取數據.
另外一個情況, 如果你知道js是通過ajax或者api取數據的, 直接去抓數據源, 得到的不是json就是xml, 然後處理數據吧
2. python如何獲得js執行之後的源代碼,或者是谷歌瀏覽器「審查元素」得到的源代碼
你的意思是需要python獲取js後還要運行js,輸出運行結果?據我所知,自帶的庫沒有這個功能,其實你可以換個思路,用python模擬js運行的結果,然後向網站提交數據,一般我就是這么乾的。
3. python 調用了js之後怎麼重新獲取網頁內容
1、你需要一個配置好的PHP環境(配置方法在網上搜) 2、將下載後的ECSHOP壓縮包中的upload文件解壓到網站根目錄下 3、在瀏覽器中輸入localhost/upload,按步驟配置即可 在本機配置好之後,通過FTP上傳到你的空間
4. Python怎麼獲取網頁中js生成的數據
js代碼是需要js引擎運行的,Python只能通過HTTP請求獲取到HTML、CSS、JS原始代碼而已。
不知道有沒有用Python編寫的JS引擎,估計需求不大。
我一般用PhantomJS、CasperJS這些引擎來做瀏覽器抓取。
直接在其中寫JS代碼來做DOM操控、分析,以文件方式輸出結果。
讓Python去調用該程序,通過讀文件方式獲得內容。
5. python 用什麼模塊處理網頁的javascript
lxml 配合 html5lib
可以很好的解析 html DOM
但對於js的解析 據我所知現在沒有什麼很成熟的模塊能做這個
解析js肯定不是正則能辦得到的, 比較現實的方案是
從webkit下手, 但光這一個庫就有10+M
(利用webkit自己解析js等解析完之後讀取html dom, 什麼時候解析完,什麼內容需要解析,什麼內容不應該解析是使用的難點)
如果你碰到的js代碼比較簡單
可以自己看看js代碼然後使用python模擬js代碼得到網址
其中使用webkit是最難的(不是簡單顯示界面,需要自己hook)
模擬js其次
lxml是最普遍的了
(這個解析一般的html必須配合其他html解析庫,自帶的那個html解析不是很健壯碰到稍微差點的頁面就不能正確解析)
另外html DOM 裡面 beautifulsoup 是一個比較老道的使用正則實現解析HTML DOM的庫.
6. python獲取頁面js
這個,你可以使用pyqt, 通過WEBKIT下載。網上有一個別人做好,似乎叫sphenix。 自己做也不麻煩。 這樣JS和COOKIE都可以支持。
7. 如何用python爬蟲直接獲取被js修飾過的網頁Elements
對於這種動態載入的網站,建議使用第三方庫selenium爬取。
它可以完全模擬瀏覽器,等待網站全部載入完成後再進行數據的自動獲取。
對於主流的ChromeDriver、InternetExplorerDriver、FirefoxDriver、OperaDriver都支持,網站上的元素也支持多種選擇器,如class、id、xpath等。
但是用習慣以後,對於這種非純靜態頁面,離開selenium感覺就完全不會爬蟲了。
8. python 有幾種方法可以獲取js動態源碼。 用哪種方法好
最好的方法就是使用selenium這種庫哦。簡單介紹一下selenium,這本身是一種網站自動測試的庫,所以可以模擬用戶的所有交互行為,包括輸入、點擊、拖拉、滾動等等和用戶完全相同的操作,所以也和真正打開網頁一樣,可以響應Javascript的行為,可以載入JS非同步載入的網頁。selenium最好配合PhantomJS使用,這樣就沒有界面,完全自動處理哦。