python列印網頁亂碼_python命令行輸入中文亂碼怎麼辦

① python IDLE 控制台輸出亂碼問題怎樣解決

在源代碼開激拆始處加上如下這句：

# -*- coding: GBK -*-

...... 其他 Python 源代碼 ......

然後，選擇 IDLE 的菜單 Options ->
Configure IDLE... 打開 IDLE 的配置選項，切換到 General 選項卡，找到 Default Source
Encoding 設置項，選中 Locale-defined 選項，點擊 Apply 按鈕，再點擊 OK 以便保存設置。

關閉退出 IDLE 並重寫鄭尺打開 IDLE 集成明叢棗開發環境，此時你再試一下：

② 璇鋒暀鍏充簬python杈撳嚭涓鏂囦貢鐮佺殑闂棰

浜哄剁綉欏甸噷鍛婅瘔浣犱簡

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

浣犲湪windows涓嬮粯璁ょ殑鏄疓BK錛屽綋鐒秛tf-8鐨勪腑鏂囨槸涔辯爜浜

print html3.decode('utf-8').encode('gbk')

浣犲啀璇曡瘯

③ 用python抓取的網頁保存後為什麼亂碼

從你給的代碼來是Python2。我下面給一個基於Python3的代碼，可以參考一下：

romurllib.requestimporturlopen;
fromurllib.parseimportquote;
rawtext=urlopen('http://www.ccnu.e.cn',timeout=15).read();
print(rawtext)
rawtext=rawtext.decode('gbk')
print(rawtext)
f=open('ccnu.txt','w',encoding='utf8');
f.write(rawtext)

大概的原理是，在Python3下面，抓取到的頁面默認是byte類型的（通過第4行輸出的結果就可以看出來），我們需要根據網頁的實際編碼進行處理。本例中給的網頁使用的是gb2312。所以，我要先以gbk的格式進行解碼（gbk包含了gb2312，能夠表示更多的漢語字元），解碼後實際上得到的就是unicode碼了，由於我的控制台編碼設置的是utf8，在列印時系統會自動將字元串從unicode轉為utf8，所以第6行控制台列印結果正常；第7行寫入文件時也要指定文件的編碼格式，我這里選擇的是utf8，當然用gbk也是一切正常的，因為這個編碼設置的是保存文件的編碼，而不是原來那個網頁內容的編碼了。字元串編碼和文件編碼不是一回事。打開ccnu.txt發現無亂碼。

Python2的代碼我不熟。

建議你也在代碼中添加print 看控制輸出是否正常。如果控制台輸出正常，則有可能是在保存頁面文件時，沒有正確指定內容字元串的encode格式。或者把所有gb2312換為gbk再試試。

反正Python2下面極容易出現漢字亂碼，如果能理解編碼encode和解碼decode的含義，了解Python2的字元串處理過程，就可以避免這些問題。

④ Python+requests 爬取網站遇到中文亂碼怎麼辦

1. 遇到的中文亂碼問題
1.1 簡單的開始
使用requests來拔取網站內容十分方便，一個最簡單的代碼段只需要2-3行代碼就行。

點擊(此處)折疊或打開

url='http//www.pythonscraping.com/'
req= requests.get(url)
print(req.text)
tree= html.fromstring(req.text)
print(tree.xpath("//h1[@class='title']/text()"))
上面的代碼段起作用的也就3行（2,4,5）代碼就獲取到我們想要的內容。當然還要導入一系列的包，比如說requests、lxml、html等。當然由於http//www.pythonscraping.com/是英文網站，不存在中文亂碼問題。

1.2 麻煩的開始

本來當時的想法是寫一些基礎模塊，方便之後開發的時候調用，減少重復性工作。為了保證代碼在任何情況下都不會出現bug，所以想著用同樣的代碼爬取中文網站獲取裡面的文字

修改上面代碼中的兩行代碼：

點擊(此處)折疊或打開

url='http://sports.sina.com.cn/g/premierleague/index.shtml'
print(tree.xpath("//span[@class='sec_blk_title']/text()"))
運行程序可以發現，在語句print(req.text)輸出的內容中，中文字體已經是亂碼了。最後的結果輸出是['?????©è§x86é?x91', '??x80?x9cx9f?x9bx9eé??']

2 亂碼解決辦法

2.1 試錯

由於之前爬取csdn上一個網頁沒有出現亂碼問題，但是在sina體育網站上出現了亂碼，所以當時以為不是編碼問題，以為是文檔壓縮問題。因為csdn獲取的頁面header里沒有「Content-Encodings」屬性，但是sina體育獲取的頁面header有「Content-Encodings」屬性--「Content-Encoding: gzip」。

總結：參考上述文獻，結果還是沒有解決問題，但是就考慮是不是方向錯了。不過這部分工作也沒有白做，很多網站返回數據都會有壓縮問題，之後的工作中也能用上。

2.2 亂碼終極解決辦法

後來查閱官方文檔中response-content相關內容，說明了Requests會自動解碼來自伺服器的內容。Requests會基於HTTP頭部對響應的編碼作出有根據的推測，前提是響應文檔的HTTP headers裡面沒有相關字元集說明。官方文檔還說明了，如果你創建了自己的編碼，並使用codecs模塊進行注冊，你就可以輕松地使用這個解碼器名稱作為r.encoding的值，然後由Requests來為你處理編碼。（自己沒有使用codecs模塊，所以這里不貼代碼了，不過按官方的說法使用codecs模塊是最簡單的一種方式。）

另一份官方文檔片段明確說了reponse編碼處理方式：

Requests遵循RFC標准，編碼使用ISO-8859-1 。

只有當HTTP頭部不存在明確指定的字元集，並且Content-Type頭部欄位包含text值之時， Requests才不去猜測編碼方式。

現在直接上實驗結果，在原始代碼中添加以下代碼片段：

點擊(此處)折疊或打開

print(req.headers['content-type'])
print(req.encoding)
print(req.apparent_encoding)
print(requests.utils.get_encodings_from_content(page_content.text))
輸出結果分別是：

text/html

ISO-8859-1#response內容的編碼

utf-8#response headers里設置的編碼

['utf-8']#response返回的html header標簽里設置的編碼

返回的內容是採用『ISO-8859-1』，所以出現了亂碼，而實際上我們應該採用『utf-8』編碼

總結：當response編碼是『ISO-8859-1』，我們應該首先查找response header設置的編碼；如果此編碼不存在，查看返回的Html的header設置的編碼，代碼如下：

點擊(此處)折疊或打開

if req.encoding=='ISO-8859-1':
encodings= requests.utils.get_encodings_from_content(req.text)
if encodings:
encoding= encodings[0]
else:
encoding= req.apparent_encoding
encode_content= req.content.decode(encoding,'replace').encode('utf-8','replace')

⑤ python3，pycharm,寫爬蟲時遇到列印的結果亂碼，希望得到大神的幫助，謝謝啦

這個問題主要是編碼問題，一般需要檢查系統設置、ide設置、python代碼里的編碼，一致改成utf8一般就沒問題。
windows中文默認是gbk，ide就要相應改成gbk才能顯示完整

⑥ python編程中中文輸出亂碼UnicodeEncodeError: 'ascii' codec can't encode character

樓主你好！

其實按照你的代碼的邏輯來做是沒有錯的，無法顯示成utf-8編碼的文本其實是因為在request請求的時候，按照網頁的標識轉了碼，接著BeautifulSoup把已經是utf-8的文本又強轉了一次utf-8編碼，導致了無法正確的顯示，以想要拿到的時間為例，其實程序的目標字元串應該如下：

#-*-coding:utf-8-*-

'''我們想要使用的字元串'''
target_str=':53'

'''兩次轉碼後的字元串'''
get_str=u':53'

歸根結底是兩個對象的類不同，但python不支持這兩種類型的強轉，個人想了個比較臨時的解決方案，算是個python打了個補丁，就是將字元串轉成二進制，再轉回字元串，這樣就unicode就不用給他加上編碼方式再轉成二進制字元串了，修改後的代碼如下：

#-*-coding:utf-8-*-
importrequests
frombs4importBeautifulSoup
fromdatetimeimportdatetime

defencode(s):
'''將字元串轉成二進制'''
return''.join([bin(ord(c)).replace('0b','')forcins])

defdecode(s):
'''將二進制轉換成字元串'''
return''.join([chr(i)foriin[int(b,2)forbins.split('')]])

res=requests.get('
)
res.encodeing='utf-8'

soup=BeautifulSoup(res.text,'html.parser')

'''每個中文字元都進行轉換處理'''
title=decode(encode(soup.select('#artibodyTitle')[0].text))
time=decode(encode(soup.select('.time-source')[0].contents[0].strip()))

chinese='%Y年%m月%d日%H:%M'
timesource=datetime.strptime(time,chinese)
print(title)
print(timesource)

看樓主在研究的過程中，對字元串的編碼原理的理解還有所欠缺，這方面的資料在網上很多，可以再自行研究一下，能夠獲得長足的進步。

望採納，謝謝！

⑦ python命令行輸入中文亂碼怎麼辦

python2.X，代碼中指定了UTF-8，但是在cmd命令行窗口時，列印的中文仍然會亂碼。

在python3不存在該問題

運行結果：

原因

中文windows默認的輸出編碼為gbk ，與腳本中定義的UTF-8不一樣，所以出現了解碼失敗的情況。

導航:首頁 > 編程語言 > python列印網頁亂碼

python列印網頁亂碼

與python列印網頁亂碼相關的資料