pythonencode亂碼_python 中文亂碼問題

⑴ python字元串是亂碼怎麼辦

顯示亂碼的主要原因是：字元串編碼集問題
其原因詳細：
Windows 下的字元串編碼集為GBK 而我們的Python字元串一般是 UTF-8
代碼詳情：

#!/usr/bin/python
# coding: utf-8

os_char='gb18030' # 定義轉換類型為GB18030

print u"我是字元串" # 直接列印Unicode
print u"我是字元串".encode(os_char) # 轉換為GB18030編碼
print "我是字元串".decode("utf-8").encode(os_char) # 先轉換為UTF-8 再轉換為GB18030

備註：
之前的第一行(#!) 為Linux環境下的執行文件聲明如 Bash 的聲明為 #!/bin/bash
第二行註明編碼集為GB18030
Linux下的編碼集為 UTF-8

⑵ python爬蟲出現菱形問號亂碼的解決方法

在windows下使用非idle的其他ide編輯器，會碰到這個問題。對抓取到的網頁內容進行先解碼再編碼即可。

以requests為例：

r = r.content.decode('gbk').encode('utf-8')

出現編碼問題時，

1.仔細分析錯誤的類型。

看是decode（解碼）錯誤還是encode（轉碼）錯誤。

2.搞清自己處理的字元串是什麼類型的。

一般看網頁的charset，一般為gbk，gb2312或gb18030.其中包含字元的大小為gb2312 < gbk <gb18030。一般出現『gbk』 codec can』t decode，是因為

（1）要處理的字元串本身不是gbk編碼，但是你卻以gbk編碼去解碼

比如，字元串本身是utf-8的，但是你卻用gbk去解碼utf-8的字元串，所以結果不用說，則必然出錯。

（2）處理的字元的確是gbk的，但是其中夾雜的部分特殊字元，是gbk編碼中所沒有的

如果有些特殊字元是GB18030中有的，但是是gbk中沒有的。

則用gbk去解碼，去所不支持的字元，也比如會出錯。

所以，此種情況，可以嘗試用和當前編碼（gbk）所兼容的但所包含字元更多的編碼（gb18030）去解碼，或許就可以了。

3.然後換用這種的字元編碼去編碼或解碼。

詳情鏈接:https://www.crifan.com/summary_python_unicodedecode_error_possible_reasons_and_solutions/

⑶ python用xlwt向xls中寫入中文，顯示亂碼該怎麼解決

亂碼是編碼問題，微軟的excel默認打開的編碼是gbk，如果你寫入的數據是非gbk編碼的，那麼使用微軟excel打開就會出現亂碼的情況。解決方法為：對要寫入的數據編碼為gbk之後在進行寫入，在python中的簡單的操作方法如下：

1.源數據為unicode編碼，則直接使用encode("gbk")即可轉換編碼；

str=u"我愛中國共產黨"#unicode編碼的字元串
des_str=str.encode("gbk")#轉換為gbk編碼

2.源數據不是unicode編碼，那麼必須先使用decode函數解碼為unicode編碼，在按照第一種情況轉換為gbk編碼。

str=u"我愛中國共產黨"#unicode編碼的字元串
src_str=str.encode("utf-8")#源數據格式utf-8
des_str=str.decode("utf-8").encode("gbk")#轉換為gbk編碼

注意：encode和decode方法為字元串的方法，不能應用與列表等其他類型的數據上

⑷ python3 中文輸出亂碼問題

python 3和2很大區別就是python本身改為默認用unicode編碼。
字元串不再區分"abc"和u"abc", 字元串"abc"默認就是unicode，不再代表本地編碼、
由於有這種內部編碼，像c#和java類似，再沒有必要在語言環境內做類似設置編碼，比如「sys.setdefaultencoding」;
也因此也python 3的代碼和包管理上打破了和2.x的兼容。2.x的擴展包要適應這種情況改寫。

另一個問題是語言環境內只有unicode怎麼輸出gbk之類的本地編碼。

答按慣例都在(序列化)輸出時才轉換成本地編碼。
比如

file.write("GBK的中文".encode("GBK"))

python環境內字元串用str.encode("GBK")方法輸出成位元組串用於和其他環境交流。

⑸ 用python抓取的網頁保存後為什麼亂碼

從你給的代碼來是Python2。我下面給一個基於Python3的代碼，可以參考一下：

romurllib.requestimporturlopen;
fromurllib.parseimportquote;
rawtext=urlopen('http://www.ccnu.e.cn',timeout=15).read();
print(rawtext)
rawtext=rawtext.decode('gbk')
print(rawtext)
f=open('ccnu.txt','w',encoding='utf8');
f.write(rawtext)

大概的原理是，在Python3下面，抓取到的頁面默認是byte類型的（通過第4行輸出的結果就可以看出來），我們需要根據網頁的實際編碼進行處理。本例中給的網頁使用的是gb2312。所以，我要先以gbk的格式進行解碼（gbk包含了gb2312，能夠表示更多的漢語字元），解碼後實際上得到的就是unicode碼了，由於我的控制台編碼設置的是utf8，在列印時系統會自動將字元串從unicode轉為utf8，所以第6行控制台列印結果正常；第7行寫入文件時也要指定文件的編碼格式，我這里選擇的是utf8，當然用gbk也是一切正常的，因為這個編碼設置的是保存文件的編碼，而不是原來那個網頁內容的編碼了。字元串編碼和文件編碼不是一回事。打開ccnu.txt發現無亂碼。

Python2的代碼我不熟。

建議你也在代碼中添加print 看控制輸出是否正常。如果控制台輸出正常，則有可能是在保存頁面文件時，沒有正確指定內容字元串的encode格式。或者把所有gb2312換為gbk再試試。

反正Python2下面極容易出現漢字亂碼，如果能理解編碼encode和解碼decode的含義，了解Python2的字元串處理過程，就可以避免這些問題。

⑹ python編程中中文輸出亂碼UnicodeEncodeError: 'ascii' codec can't encode character

樓主你好！

其實按照你的代碼的邏輯來做是沒有錯的，無法顯示成utf-8編碼的文本其實是因為在request請求的時候，按照網頁的標識轉了碼，接著BeautifulSoup把已經是utf-8的文本又強轉了一次utf-8編碼，導致了無法正確的顯示，以想要拿到的時間為例，其實程序的目標字元串應該如下：

#-*-coding:utf-8-*-

'''我們想要使用的字元串'''
target_str=':53'

'''兩次轉碼後的字元串'''
get_str=u':53'

歸根結底是兩個對象的類不同，但python不支持這兩種類型的強轉，個人想了個比較臨時的解決方案，算是個python打了個補丁，就是將字元串轉成二進制，再轉回字元串，這樣就unicode就不用給他加上編碼方式再轉成二進制字元串了，修改後的代碼如下：

#-*-coding:utf-8-*-
importrequests
frombs4importBeautifulSoup
fromdatetimeimportdatetime

defencode(s):
'''將字元串轉成二進制'''
return''.join([bin(ord(c)).replace('0b','')forcins])

defdecode(s):
'''將二進制轉換成字元串'''
return''.join([chr(i)foriin[int(b,2)forbins.split('')]])

res=requests.get('
)
res.encodeing='utf-8'

soup=BeautifulSoup(res.text,'html.parser')

'''每個中文字元都進行轉換處理'''
title=decode(encode(soup.select('#artibodyTitle')[0].text))
time=decode(encode(soup.select('.time-source')[0].contents[0].strip()))

chinese='%Y年%m月%d日%H:%M'
timesource=datetime.strptime(time,chinese)
print(title)
print(timesource)

看樓主在研究的過程中，對字元串的編碼原理的理解還有所欠缺，這方面的資料在網上很多，可以再自行研究一下，能夠獲得長足的進步。

望採納，謝謝！

⑺ Python中中文亂碼問題

a ='哈哈'
b = a.encode('utf-8')
以上你的代碼是UTF8編碼吧，a本來就是UTF8編碼，你在給它編碼幹嘛，encode是編碼，decode是解碼，你不報錯沒天理。

a = u'哈哈'
b = a.encode('utf-8')
a是U編碼類型也就是你上一個沒加U的哈哈的解碼，它肯定不會保存！

⑻ python解決csv文件用excel打開亂碼問題

【問題】

python輸出的csv文件用excel打開，裡面的中文會變成亂碼，但用window下的記事本或mac下的numbers打開就正常顯示。

原因是python輸出的文件是utf-8編碼寫入的，excel默認以gbk方式讀取，導致亂碼發生。

【解決方法1】文件產出時encoding設置為utf-8-sig

用excel打開csv時，excel會先檢查文件的第一個字元，來了解這個文件是什麼編碼方式，如果這個字元是BOM，excel就知道用utf-8的方式打開這個文件。python自帶了處理BOM的編碼方式uft-8-sig，因此只需要在文件產出時將encoding設置為utf-8-sig。

如果文件不是由python產出的，只需要以utf-8方式讀入再以utf-8-sig方式存儲即可

【解決方法2】懶人法，適用只含簡體中文的文件

用記事本打開，點擊另存為，右下角編碼方式選擇「ANSI」，這個過程是把這個文件改成gbk編碼格式，excel就是默認用gbk方式打開的。

參考： Python寫的csv文件，如何讓 Excel 雙擊打開不亂碼？ - 雲+社區 - 騰訊雲

對編碼格式一竅不通的可以閱讀以下網頁

python筆記——二進制和文件編碼_砍柴姑娘Jourosy的博客-CSDN博客

編碼方式之ASCII、ANSI、Unicode概述 - 藍海人 - 博客園

【簡單總結】：

1. 首先需要了解字元集和字元編碼兩個概念，字元集定義了字元和二進制的一一對應關系，字元編碼規定了如何將字元的編號存儲到計算機中。

2. Unicode是字元集，包含了全球文字的唯一編碼，utf-8是編碼方式，將unicode以某種方式存儲到計算機中。

3. 有些字元集和編碼是結合在一起的，稱作字元集還是編碼都無所謂，比如ASCII，GBK

4. ANSI是各個國家地區不同擴展編碼方式的總稱，互不兼容（可以看出來通用性沒有utf好）

5. 不同編碼方式在轉換時，通常需要以unicode作為中間編碼，即先將其他編碼的字元串解碼（decode）成unicode，再從unicode編碼（encode）成另一種編碼。

⑼ python中文顯示亂碼，已經在開頭有了coding: utf-8

亂碼原因：
因為你的文件聲明為 utf-8，並且也應該是用 utf-8 的編碼保存的源文件。但是 windows 的本地默認編碼是 cp936，也就是 gbk 編碼，所以在控制台直接列印 utf-8 的字元串當然是亂碼了。

解決方法：

py文件用記事本打開，另存為utf-8格式即可

⑽ python 中文亂碼問題

記事本是用utf-8保存你下載了東西的。你下載下來的不是utf-8，保存下來中文當然就亂碼了。而gbk和utf-8里英文的編碼值都一樣，所以不受影響。

一個方法是你留意下目標頁面的charset 和 contentType，另一個方法是你復制一個目標頁面的字，放cmd里看它的編碼長度，以此來判斷它的原來編碼。

導航:首頁 > 編程語言 > pythonencode亂碼

pythonencode亂碼

與pythonencode亂碼相關的資料