pythonget中文亂碼_Python+requests 爬取網站遇到中文亂碼怎麼辦

㈠ python中文顯示亂碼，已經在開頭有了coding: utf-8

你可能會遇到Python程序中中文顯示亂碼的問題，這通常是由於你的操作系統默認編碼格式與Python程序的編碼格式不一致所導致的。

盡管如此，幾乎所有的現代操作系統都支持Unicode編碼，因此，你可以通過在字元串前加一個'u'前綴來解決這個問題。

解決這個問題有兩種主要的方法。第一種方法是修改操作系統的默認編碼格式。例如，在Windows系統中，你可以通過命令行命令將其設置為UTF-8編碼格式。具體操作步驟是，在命令提示符中輸入以下命令：

chcp 65001

第二種方法是在Python文件中使用Python內置的方法（decode和encode）將文本解碼和編碼轉換為Windows系統的默認編碼格式，如GBK。如果你使用的是其他操作系統，你需要自行查找該系統的默認編碼格式。

需要注意的是，這種方法需要你對編碼格式有一定的了解。如果你不熟悉，可以通過在線資源學習如何識別和修改不同操作系統的默認編碼格式。

總之，通過上述兩種方法中的任一種，都可以有效地解決Python程序中出現的中文顯示亂碼問題。

㈡前端是vue，後台用的python。前台get請求url中有中文，後台看到鏈接地址變成了亂碼

傳遞之前先把漢字跟標點符號之類轉成urlcode
js代碼

encodeURIComponent("哈哈哈哈哈");
輸出"%E5%93%88%E5%93%88%E5%93%88%E5%93%88%E5%93%88"

py代碼使用urllib將urlcode編碼解碼

from urllib import parse
get = "%E5%93%88%E5%93%88%E5%93%88%E5%93%88%E5%93%88"
print(parse.unquote(get))
輸出"哈哈哈哈哈"

㈢ Python+requests 爬取網站遇到中文亂碼怎麼辦

1. 遇到的中文亂碼問題
1.1 簡單的開始
使用requests來拔取網站內容十分方便，一個最簡單的代碼段只需要2-3行代碼就行。

點擊(此處)折疊或打開

url='http//www.pythonscraping.com/'
req= requests.get(url)
print(req.text)
tree= html.fromstring(req.text)
print(tree.xpath("//h1[@class='title']/text()"))
上面的代碼段起作用的也就3行（2,4,5）代碼就獲取到我們想要的內容。當然還要導入一系列的包，比如說requests、lxml、html等。當然由於http//www.pythonscraping.com/是英文網站，不存在中文亂碼問題。

1.2 麻煩的開始

本來當時的想法是寫一些基礎模塊，方便之後開發的時候調用，減少重復性工作。為了保證代碼在任何情況下都不會出現bug，所以想著用同樣的代碼爬取中文網站獲取裡面的文字

修改上面代碼中的兩行代碼：

點擊(此處)折疊或打開

url='http://sports.sina.com.cn/g/premierleague/index.shtml'
print(tree.xpath("//span[@class='sec_blk_title']/text()"))
運行程序可以發現，在語句print(req.text)輸出的內容中，中文字體已經是亂碼了。最後的結果輸出是['?????©è§x86é?x91', '??x80?x9cx9f?x9bx9eé??']

2 亂碼解決辦法

2.1 試錯

由於之前爬取csdn上一個網頁沒有出現亂碼問題，但是在sina體育網站上出現了亂碼，所以當時以為不是編碼問題，以為是文檔壓縮問題。因為csdn獲取的頁面header里沒有「Content-Encodings」屬性，但是sina體育獲取的頁面header有「Content-Encodings」屬性--「Content-Encoding: gzip」。

總結：參考上述文獻，結果還是沒有解決問題，但是就考慮是不是方向錯了。不過這部分工作也沒有白做，很多網站返回數據都會有壓縮問題，之後的工作中也能用上。

2.2 亂碼終極解決辦法

後來查閱官方文檔中response-content相關內容，說明了Requests會自動解碼來自伺服器的內容。Requests會基於HTTP頭部對響應的編碼作出有根據的推測，前提是響應文檔的HTTP headers裡面沒有相關字元集說明。官方文檔還說明了，如果你創建了自己的編碼，並使用codecs模塊進行注冊，你就可以輕松地使用這個解碼器名稱作為r.encoding的值，然後由Requests來為你處理編碼。（自己沒有使用codecs模塊，所以這里不貼代碼了，不過按官方的說法使用codecs模塊是最簡單的一種方式。）

另一份官方文檔片段明確說了reponse編碼處理方式：

Requests遵循RFC標准，編碼使用ISO-8859-1 。

只有當HTTP頭部不存在明確指定的字元集，並且Content-Type頭部欄位包含text值之時， Requests才不去猜測編碼方式。

現在直接上實驗結果，在原始代碼中添加以下代碼片段：

點擊(此處)折疊或打開

print(req.headers['content-type'])
print(req.encoding)
print(req.apparent_encoding)
print(requests.utils.get_encodings_from_content(page_content.text))
輸出結果分別是：

text/html

ISO-8859-1#response內容的編碼

utf-8#response headers里設置的編碼

['utf-8']#response返回的html header標簽里設置的編碼

返回的內容是採用『ISO-8859-1』，所以出現了亂碼，而實際上我們應該採用『utf-8』編碼

總結：當response編碼是『ISO-8859-1』，我們應該首先查找response header設置的編碼；如果此編碼不存在，查看返回的Html的header設置的編碼，代碼如下：

點擊(此處)折疊或打開

if req.encoding=='ISO-8859-1':
encodings= requests.utils.get_encodings_from_content(req.text)
if encodings:
encoding= encodings[0]
else:
encoding= req.apparent_encoding
encode_content= req.content.decode(encoding,'replace').encode('utf-8','replace')

熱點內容

珠海存儲伺服器地址怎麼找發布：2025-04-23 02:38:43 瀏覽：413

md5演算法字元串長度發布：2025-04-23 02:31:01 瀏覽：4

可以二次虛化的雲伺服器發布：2025-04-23 02:30:54 瀏覽：779

思科2500編程器固件發布：2025-04-23 02:30:53 瀏覽：235

php開發桌面應用程序發布：2025-04-23 02:26:38 瀏覽：905

支付寶app哪裡可以加油發布：2025-04-23 02:18:06 瀏覽：71

路由器ttl刷編程器固件發布：2025-04-23 02:07:56 瀏覽：719

縱向加密密鑰協商狀態時間發布：2025-04-23 01:57:38 瀏覽：851

mc花雨庭伺服器有些什麼發布：2025-04-23 01:57:26 瀏覽：809

linux製作網頁發布：2025-04-23 01:54:33 瀏覽：19

xlsx加密忘記了怎麼辦發布：2025-04-23 01:43:29 瀏覽：999

app湖北農信怎麼解約發布：2025-04-23 01:43:28 瀏覽：426

在線編程教育項目發布：2025-04-23 01:42:08 瀏覽：759

電信采購5萬台伺服器干什麼用發布：2025-04-23 01:41:57 瀏覽：200

騰訊雲伺服器登錄地址發布：2025-04-23 01:37:15 瀏覽：988

程序員在地鐵上寫字發布：2025-04-23 01:36:26 瀏覽：555

解壓包未知文件格式怎麼辦發布：2025-04-23 01:36:17 瀏覽：578

程序員破壞資料庫發布：2025-04-23 01:04:08 瀏覽：331

sh格式如何編譯發布：2025-04-23 00:49:05 瀏覽：344

虛擬伺服器雲主機哪個好發布：2025-04-23 00:37:19 瀏覽：98

導航:首頁 > 編程語言 > pythonget中文亂碼

pythonget中文亂碼

與pythonget中文亂碼相關的資料