python字元串編碼格式_python有哪幾種編碼方式

1. python怎麼知道一個字元串的編碼方式

字元串的編碼，有很多種如utf-8，gb2312，gbk，gb18030，bz2，zlib，big5，bzse64
python 對編碼的處理有兩個方法，decode()和 encode()方法
a = '你好'b = 'python'print a.decode('utf-8').encode('gbk')##decode方法把字元串轉換為unicode對象，然後通過encode方法轉換為指定的編碼字元串對象print b.decode('utf-8')##decode方法把字元串轉換為unicode對象所以要讓python（或者說機器）來識別字元串的編碼，是一件很困難的事。編碼就是漢字和整數之間的對應，同一個整數，可以在不同的編碼中，都有對應的漢字。比如下面的例子，比特流'\xe6\xb0\xb4\xe5\xa3\xb6'在四種編碼中都有對應的漢字，但只有在utf-8編碼下，它對應的漢字才有意義。我們可以一眼看出這點，可是要讓計算機做到這點，就很難了。
>>> s = '水壺'>>> s18: '\xe6\xb0\xb4\xe5\xa3\xb6'>>> print unicode(s, 'big5')瘞游ㄥ>>> print unicode(s, 'gbk')姘村6>>> print unicode(s, 'gb2312')姘村6>>> print unicode(s, 'utf-8')水壺

2. python默認的字元編碼是什麼

Python的默認編碼是ASCII格式：

ASCII(American Standard Code for Information Interchange)，是一種單位元組的編碼。計算機世界裡一開始只有英文，而單位元組可以表示256個不同的字元，可以表示所有的英文字元和許多的控制符號；
源代碼文件中，如果有用到非ASCII字元，則需要在文件頭部進行字元編碼的聲明，如下：#-*- coding: UTF-8 -*-
實際上Python只檢查#、coding和編碼字元串，其他的字元都是為了美觀加上的。另外，Python中可用的字元編碼有很多，並且還有許多別名，還不區分大小寫，比如UTF-8可以寫成u8。

3. Python 字元集編碼 - UTF-8 編碼

Unicode 的編碼范圍為 0~0x10FFFF ，如此大的范圍，顯然沒辦法像 ASCII 編碼一樣使用一個位元組存儲。為此，Unicode 制定了各種儲存編碼的方式，如： UTF-8 、 UTF-16 和 UTF-32 ，這些存儲格式被稱為 Unicode 轉換格式 UTF 。

每種 Unicode 轉換格式都會把一個編碼存儲為一到多個編碼單元，如 UTF-8 的編碼單元為 8 位的位元組； UTF-16 的編碼單元為 16 位，即 2 個位元組； UTF-32 的編碼單元為 32 位，即 4 個位元組。

其中， UTF-8 是在互聯網上使用最廣泛的一種 Unicode 轉換格式，具有以下顯著的優勢。下面，我們就先來看看 UTF-8 具有哪些有點吧~

1. UTF-8 中每個 ASCII 字元只需要一個位元組去存儲，因此一個 ASCII 文本本身也是一個 UTF-8 文本，即做到了向後兼容。

比如 A 的 ASCII 碼對應為 0x41 ， a 的 ASCII 碼對應為 0x61 ，那麼 UTF-8 兼容 ASCII 也就意味著：

這里，需要再次提醒一下：Unicode 是表現形式，UTF-8 是存儲形式；即 UTF-8 解碼之後為 Unicode ，Unicode 可以編碼成 UTF-8 。

2. UTF-8 採用位元組為存儲單元，因此不存在位元組的大端和小段的問題。

UTF-16 和 UTF-32 的存儲單元分別是 2 位元組和 4 位元組，因此在存儲時會涉及到大小端的問題。那什麼是大小端模式呢？下面我們來暫停補充一下~

關於如何獲知你的環境使用的是大端模式還是小端模式，這里有個簡單的方式：定義一個 short 類型的數組即可：

數字 1 在 short 類型中表示為 0x0001 ，高位為 0x00 ，低位為 0x01 。我們可以很直觀地看到，數組在保存數據時，將高位 0x00 放在了高地址處，將低位 0x01 放在了低地址處。因此使用的就是小端模式。

那 UTF-8 為什麼可以使用位元組來作為存儲單元，而不用擔心位元組序的問題呢？這就涉及到了 UTF-8 巧妙的編碼規則~

UTF-8 最大的一個特點，就是它是一種變長的編碼方式。它可以使用 1~4 個位元組表示一個符號，根據不同的符號而變化位元組長度。UTF-8的編碼規則很簡單，只有二條：

1）對於單位元組符號，位元組的第一位設為 0 ，後 7 位為這個符號的 Unicode 碼。也就是我們上文提到的向後兼容：對於英文字母，UTF-8 編碼和 ASCII 碼是相同的。

2）對於使用 X 個位元組存儲的符號，第一個位元組的前 X 位設置為 1 ，第 X+1 位設置為 0 ，後面位元組的前 2 位一律設置為 10 ，剩下的位置一次填充這個符號的 Unicode 碼。

下表總結了編碼規則，字母 x 表示可用於編碼的位：

跟據上表，解讀 UTF-8 編碼也非常簡單：如果一個位元組的第一位是 0 ，則這個位元組單獨就是一個字元；如果第一位是 1 ，則連續有多少個 1 ，就表示當前字元佔用多少個位元組。

下面，我們就來演示一下 UTF-8 編碼的過程。

首先，獲取漢字魚的 Unicode 碼：

我們不妨先對魚這個漢字使用 utf-8 編碼看看使用幾個位元組存儲：

魚在 UTF-8 編碼中使用 3 個位元組存儲，因此其存儲的二進制的形式為 1110xxxx 10xxxxxx 10xxxxxx ，將 Unicode 1001 110001 111100 依次填充到佔位符 x 的位置就得到： 11101001 10110001 10111100 。

下面，我們將上述推導得出的 11101001 10110001 10111100 轉換為十六進制，驗證一下是否為 b'xe9xb1xbc' ：

驗證無誤！

4. 如何設置python的編碼格式為utf-8

python的編碼格式？
#coding=utf-8
這是文檔編碼
import sys
sys.setdefaultencoding("utf-8")
這是設置默認編碼方式為utf-8
xx.encode("utf-8")
這是字元串編碼操作
import codecs
codecs.open(xx,'r','utf-8")，這是文件編碼讀取方式

5. Python 編碼轉換與中文處理

python 中的 unicode 是讓人很困惑、比較難以理解的問題. 這篇文章寫的比較好， utf-8是 unicode的一種實現方式，unicode、gbk、gb2312是編碼字元集.

Python 默認腳本文件都是 ANSCII 編碼的，當文件中有非 ANSCII 編碼范圍內的字元的時候就要使用" 編碼指示 "來修正一個 mole 的定義中，如果.py文件中包含中文字元（嚴格的說是含有非anscii字元），則需要在第一行或第二行指定編碼聲明： # -*- coding=utf-8 -*- 或者 #coding=utf-8
其他的編碼如：gbk、gb2312也可以；否則會出現:

先說一下python中的字元串類型，在python中有兩種字元串類型，分別是 str 和 unicode ，他們都是basestring的派生類；

在str的文檔中有這樣的一句話：

也就是說在讀取一個文件的內容，或者從網路上讀取到內容時，保持的對象為str類型；如果想把一個str轉換成特定編碼類型，需要把str轉為Unicode,然後從unicode轉為特定的編碼類型如：utf-8、gb2312等。

unicode 轉為 gb2312,utf-8等,使用 encode(encoding)

utf-8,GBK轉換為 unicode 使用 unicode(s,encoding) 或者 s.decode(encoding)

普通的 str 轉為 unicode,

如果直接執行s.encode('gb2312')會發生什麼？

這里會發生一個異常：Python 會自動的先將 s 解碼為 unicode ，然後再編碼成 gb2312。因為解碼是python自動進行的，我們沒有指明解碼方式，python 就會使用 sys.defaultencoding 指明的方式來解碼。很多情況下 sys.defaultencoding 是 ANSCII，如果 s 不是這個類型就會出錯。
拿上面的情況來說，我的 sys.defaultencoding 是 anscii，而 s 的編碼方式和文件的編碼方式一致，是 utf8 的，所以出錯了:

對於這種情況，我們有兩種方法來改正錯誤：

s = '中文'
s.decode('utf-8').encode('gb2312') ```

import sys
reload(sys) # Python2.5 初始化後會刪除 sys.setdefaultencoding 這個方法，我們需要重新載入
sys.setdefaultencoding('utf-8')
str = '中文'
str.encode('gb2312')

print open("Test.txt").read()

import codecs
print open("Test.txt").read().decode("utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
print open("Test.txt").read().decode("utf-8")
UnicodeEncodeError: 'gbk' codec can't encode character u'ufeff' in position 0: illegal multibyte sequence

import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")

s = "中文"
print unicode(s, "utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
s = unicode(s, "utf-8")
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data

s = "中文"
print unicode(s, "gbk")

s = "中文"
print unicode(s, "cp936")

6. python有哪幾種編碼方式

第一種：ASCII碼。是基於拉丁字母的一套電腦編碼系統，主要用於顯示現代英語和其他西歐語言，它是現今最通用的單位元組編碼系統，並等同於國際標准IS/IEC
646。
由於計算機是美國人發明的，因此，最早只有127個字母被編碼到計算機李，也就是大小寫英文字母、數字和一些符號，這個編碼表被稱為ASCII編碼，比如大寫字母A的編碼是65，小寫字母a的編碼是97，後128個稱為擴展ASCII碼。
第二種：GBK和GB2312。能在計算機中顯示中文字元是至關重要的，然而ASCII表裡一個偏旁部首都沒有，所以我們需要一個關於中文和數字對應的關系表，一個位元組只能最多表示256個字元，用處理中文顯然一個位元組是不夠的，所以我們需要採用兩個位元組來表示，所以中國制定了GB2312編碼，用來將中文編寫進去。
第三種：Unicode。因為各個國家都有一套自己的編碼，所以無法避免沖突，因此Unicode誕生了。它可以把所有語言都統一到一套編碼里，這樣就不會存在亂碼問題了，現代操作系統和大多數編程語言都直接支持Unicode。
第四種：UFT-8。基於節約的原則，出現了把Unicode編碼轉化為可變長編碼的UTF-8編碼。而UTF-8編碼把一個Unicode字元根據不同的數字大小編碼成1-6個位元組，常用的英文字母被編碼成一個位元組，漢字通常是3個位元組，只有很生僻的字元才會被編碼成4-6個位元組，如果你要傳輸的文本包含大量英文字元，用UTF-8編碼就能節省空間。

7. python 字元串格式的unicode編碼轉中文

python對於Unicode編碼可以使用decode進行轉換成中文：

>>> str = b'\xe8\xb4\xb9\xe8\x84\x91\xe5\xad\x90'

>>> str.decode('utf-8')

'費腦子'

如果是字元串類型的Unicode編碼沒辦法直接用decode進行轉換：

>>> str ="\\xe8\\xb4\\xb9\\xe8\\x84\\x91\\xe5\\xad\\x90"

>>> str.decode('utf-8')

Traceback (most recent call last):

File "<stdin>", line 1, in <mole>

AttributeError: 'str' object has no attribute 'decode'

處理方式：

>>> str = eval("b" + "\"" + str + "\"")

>>> str.decode('utf-8')

'費腦子'

8. python 怎麼查看當前字元串的編碼格式

查看當前字元串的編碼格式的代碼為：Type "now", "right", "credits" or "license" for more information.

9. python程序有哪些編碼規范

編碼格式聲明
通常，編碼格式聲明是必需的。如果 python 源碼文件沒有聲明編碼格式，python 解釋器會默認使用 ASCII 編碼，一旦源碼文件包含非ASCII編碼的字元，python 解釋器就會報錯。以 UTF-8 為例，以下兩種編碼格式聲明都是合乎規則的。
縮進
統一使用 4 個空格進行縮進。絕對不要用tab, 也不要tab和空格混用。對於行連接的情況，我一般使用4空格的懸掛式縮進。例如：
引號
自然語言使用雙引號
機器標識使用單引號
正則表達式使用雙引號
空行
編碼格式聲明、模塊導入、常量和全局變數聲明、頂級定義和執行代碼之間空兩行
頂級定義之間空兩行，方法定義之間空一行
在函數或方法內部，可以在必要的地方空一行以增強節奏感，但應避免連續空行
導入模塊
導入總應該放在文件頂部，位於模塊注釋和文檔字元串之後，模塊全局變數和常量之前。導入應該按照從最通用到最不通用的順序分組，分組之間空一行
標准庫導入
第三方庫導入
應用程序指定導入
命名規范
模塊盡量使用小寫命名，首字母保持小寫，盡量不要用下劃線
類名使用駝峰(CamelCase)命名風格，首字母大寫，私有類可用一個下劃線開頭
函數名一律小寫，如有多個單詞，用下劃線隔開
私有函數可用一個下劃線開頭
變數名盡量小寫, 如有多個單詞，用下劃線隔開
常量採用全大寫，如有多個單詞，使用下劃線隔開

導航:首頁 > 編程語言 > python字元串編碼格式

python字元串編碼格式

與python字元串編碼格式相關的資料