『壹』 如何使用python爬蟲獲取css偽元素例如:before
:before是css中的一種偽元素,可用於在某個元素之前插入某些內容。 :after是css中的一種偽元素,可用於在某個元素之後插入某些內容。
『貳』 如何在python中用find_element_by_css_selector定位網頁代碼的元素用於click
直接用chrome或者firebug找出路徑,現在很少手動找了。然後find_element_by_css_selector("路徑").click
『叄』 python selenium怎麼定位復合型css樣式的一組元素
類名有了,直接獲取值就行了
『肆』 python爬蟲遇到css文件怎麼辦
1. 獲取html頁面
其實,最基本的抓站,兩句話就可以了
import urllib2
content = urllib2.urlopen('http://XXXX').read()
這樣可以得到整個 html 文檔,關鍵的問題是我們可能需要從這個文檔中獲取我們需要的有用信息,而不是整個文檔。這就需要解析充滿了各種標簽的 html。
2. 解析 html
SGMLParser
Python 默認自帶 HTMLParser 以及 SGMLParser 等等解析器,前者實在是太難用了,我就用 SGMLParser 寫了一個示常式序:
import urllib2
from sgmllib import SGMLParser
class ListName(SGMLParser):
def __init__(self):
SGMLParser.__init__(self)
self.is_h4 = ""
self.name = []
def start_h4(self, attrs):
self.is_h4 = 1
def end_h4(self):
self.is_h4 = ""
def handle_data(self, text):
if self.is_h4 == 1:
self.name.append(text)
content = urllib2.urlopen('http://list.taobao.com/browse/cat-0.htm').read()
listname = ListName()
listname.feed(content)
for item in listname.name:
print item.decode('gbk').encode('utf8')
很簡單,這里定義了一個叫做 ListName 的類,繼承 SGMLParser 裡面的方法。使用一個變數 is_h4做標記判定 html 文件中的 h4 標簽,如果遇到 h4 標簽,則將標簽內的內容加入到 List 變數 name中。解釋一下 start_h4() 和 end_h4() 函數,他們原型是 SGMLParser 中的
start_tagname(self, attrs)
end_tagname(self)
tagname 就是標簽名稱,比如當遇到 <pre>,就會調用 start_pre,遇到 </pre>,就會調用end_pre。attrs 為標簽的參數,以 [(attribute, value), (attribute, value), ...] 的形式傳回。
『伍』 python CSS選擇器
>表示父子級別,
a > b,b必須是a的子節點
a b,b是a下的任意子孫節點
你的代碼把>換成空格就行了
『陸』 網頁顯示Python查詢的數據
可以使用的方法之一:轉成json字元串,然後在前端接收json字元串顯示。
前後端都你寫嗎?不是的話,告訴前端你給的是json格式的字元串就好了。
他愛怎麼顯示怎麼顯示。
都你寫的話,你需要了解html,css,javastript相關知識。
『柒』 python 使用css 需要導入什麼模塊
python 使用css 需要導入cssutils,最新版本是1.0.1。
具體使用方法如下:
1、執行以下命令安裝最新版本的cssutils
easy_install cssutils
2、在代碼中用import命令導入
import cssutils
3、使用cssutil內部一些選擇器等的方法
指定命名空間
@namespace html "http://www.w3.org/1999/xhtml";
設置背景色為白色
@variables { BG: #fff }
html|a { color:red; background: var(BG) }'''
sheet = cssutils.parseString(css) 開始解析css
sheet.encoding = 'ascii'
sheet.namespaces['xhtml'] = 'http://www.w3.org/1999/xhtml'
sheet.namespaces['atom'] = 'http://www.w3.org/2005/Atom'
sheet.add('atom|title {color: #000000 !important}')
sheet.add('@import "sheets/import.css";')
print sheet.cssText 列印
『捌』 python django怎麼添加css-CSDN論壇
python django怎麼添加
django靜態文件配置原理
靜態文件配置就是為了讓用戶請求時django伺服器能找到靜態文件返回。
首先要理解幾個概念:
媒體文件:用戶上傳的文件
靜態文件:css,js,image等
開發環境:使用django內置伺服器處理靜態文件
生產環境:使用apache2/nginx伺服器處理靜態文件映射
所以在配置時要分清楚開發環境還是生產環境,這個後面會詳細介紹。
下面先介紹一下伺服器查找靜態文件的原理,這樣我們才能更好的配置。
1、django.contrib.staticfiles
django.contrib.staticfiles是django1.3新增的一個app來幫助開發者管理靜態文件【js,css等】。
django1.3之前的靜態文件都是用MEDIA_URL和MEDIA_ROOT來控制的。
為了將媒體文件【用戶上傳的文件】和靜態文件做區分,django1.3通過MEDIA_XXX配置來處理媒體文件,通過STATIC_XXX配置項來處理靜態文件。
staticfiles使開發者可以將靜態文件分配到app目錄或任意指定目錄。
2、MEDIA_XXX和STATIC_XXX配置項的區別
MEDIA_XXX配置項用來管理媒體文件。經常由FileFields欄位上傳,它們被保存在settings.MEDIA_ROOT指定的目錄下,通過settings.MEDIA_URL指定的路徑訪問。
STATIC_XXX配置項用來管理靜態文件。它們通過manage.py collectstatic命令匯集到settings.STATIC_ROOT目錄,並通過settings.STATIC_URL指定的路徑訪問。
『玖』 python利用css定位如何判斷標簽和元素
對你的問題如下解答:
CSS語法表達式:
. 點表示class屬性,代碼案例:「.s_ipt」
[Class= 』s_ipt』] # 同上
# 表示id屬性,代碼案例: 「#kw」
[id=』kw』] # 同上
Tag 定位標簽時不需要加特殊符號,直接寫標簽名稱即可。代碼案例: 「input」
[元素] 其它屬性使用中括弧定位。代碼案例: 「[method="post"]」
> 表示為父級標簽元素,符號左邊為父級,右邊為子級。
:nth-child(1) 定位一組標簽中的某一個標簽,索引從頭開始計數(1)。
:nth-last-child(1) 定位一組標簽中的某一個標簽,索引從尾開始計數(1)。
多元素定位:
同一標簽滿足(父級/tag/id/class/其它):span>input#kw.s_ipt[name="wd"][autocomplete="off"]
希望我的回答對你有幫助