python字元編碼詳解_python有哪幾種編碼方式

㈠ python文件處理里encoding和encode有事區別，bytes類型是什麼意思

python問題我來回答你。

首先你要知道的是，字元串在Python內部的表示是unicode(統一碼、萬國碼)編碼，很多編程語言都是這么設計的，各個國家通用編碼，因此，在做編碼轉換時，通常需要以unicode作為中間編碼，即先將其他編碼的字元串解碼（decode）成unicode，再從unicode編碼（encode）成另一種編碼。
decode的作用是將其他編碼的字元串轉換成unicode編碼，如str1.decode('gb2312')，表示將gb2312編碼的字元串str1轉換成unicode編碼。
encode的作用是將unicode編碼轉換成其他編碼的字元串，如str2.encode('gb2312')，表示將unicode編碼的字元串str2轉換成gb2312編碼。
因此，轉碼的時候一定要先搞明白，字元串str是什麼編碼，然後decode成unicode，然後再encode成其他編碼。
bytes類型是 Python 3.x版本新增的數據類型，在 Python 2.x 中是不存在的。字元串是以字元為單位進行處理的，bytes類型是以位元組為單位處理的。
bytes 只負責以位元組序列的形式（二進制形式）來存儲數據，至於這些數據到底表示什麼內容（字元串、數字、圖片、音頻等），完全由程序的解析方式決定。
說白了，bytes 只是簡單地記錄內存中的原始數據，至於如何使用這些數據，bytes 並不在意，你想怎麼使用就怎麼使用，bytes 並不約束你的行為。

bytes 類型的數據非常適合在互聯網上傳輸，可以用於網路通信編程；bytes 也可以用來存儲圖片、音頻、視頻等二進制格式的文件。

舉個例子：

b = b'' # 創建一個空的bytes

b = byte() # 創建一個空的bytes

b = b'hello' # 直接指定這個hello是bytes類型

b = bytes('string',encoding='編碼類型') #利用內置bytes方法，將字元串轉換為指定編碼的bytes

b = str.encode('編碼類型') # 利用字元串的encode方法編碼成bytes，默認為utf-8類型

bytes.decode('編碼類型')：將bytes對象解碼成字元串，默認使用utf-8進行解碼。

㈡ python是什麼編碼格式

python編碼總結：
1).首先python有兩種格式的字元串，str和unicode，其中unicode相當於位元組碼那樣，可以跨平台使用。
str轉化為unicode可以通過unicode()，u，str.decode三種方式
unicode轉化為str，如果有中文的話，一般通過encode的方式
2).如果代碼中有中文的話，我們一般會添加 "# coding=utf-8"，這個是什麼作用呢，一般如下：
如果代碼中有中文注釋，就需要此聲明比較高級的編輯器（比如我的emacs），會根據頭部聲明，將此作為代碼文件的格式。程序會通過
頭部聲明，解碼初始化 u」人生苦短」，這樣的unicode對象，（所以頭部聲明和代碼的存儲格式要一致
所以，當我們填上編碼頭的時候，使用s="中文"，實際上type(s)是一個str，是已經將unicode以utf-8格式編碼成str。
其次，如果我們在代碼中使用s=u'中文'，相當於將str以utf-8解碼成unicode。
推薦學習《python教程》。

㈢ python中 r'', b'', u'', f'' 的含義

字元串前加 r
r"" 的作用是去除轉義字元.

字元串前加 f
f 的作用是表示在字元串內支持大括弧內的python 表達式

字元串前加 b
b的作用是表示這是一個 bytes 對象，後面字元串是bytes 類型。

字元串前加 u
表明後面字元串以 Unicode 格式進行編碼，一般用在中文字元串前面，防止因為源碼儲存格式問題，導致再次使用時出現亂碼。

㈣ Python 字元集編碼 - UTF-8 編碼

Unicode 的編碼范圍為 0~0x10FFFF ，如此大的范圍，顯然沒辦法像 ASCII 編碼一樣使用一個位元組存儲。為此，Unicode 制定了各種儲存編碼的方式，如： UTF-8 、 UTF-16 和 UTF-32 ，這些存儲格式被稱為 Unicode 轉換格式 UTF 。

每種 Unicode 轉換格式都會把一個編碼存儲為一到多個編碼單元，如 UTF-8 的編碼單元為 8 位的位元組； UTF-16 的編碼單元為 16 位，即 2 個位元組； UTF-32 的編碼單元為 32 位，即 4 個位元組。

其中， UTF-8 是在互聯網上使用最廣泛的一種 Unicode 轉換格式，具有以下顯著的優勢。下面，我們就先來看看 UTF-8 具有哪些有點吧~

1. UTF-8 中每個 ASCII 字元只需要一個位元組去存儲，因此一個 ASCII 文本本身也是一個 UTF-8 文本，即做到了向後兼容。

比如 A 的 ASCII 碼對應為 0x41 ， a 的 ASCII 碼對應為 0x61 ，那麼 UTF-8 兼容 ASCII 也就意味著：

這里，需要再次提醒一下：Unicode 是表現形式，UTF-8 是存儲形式；即 UTF-8 解碼之後為 Unicode ，Unicode 可以編碼成 UTF-8 。

2. UTF-8 採用位元組為存儲單元，因此不存在位元組的大端和小段的問題。

UTF-16 和 UTF-32 的存儲單元分別是 2 位元組和 4 位元組，因此在存儲時會涉及到大小端的問題。那什麼是大小端模式呢？下面我們來暫停補充一下~

關於如何獲知你的環境使用的是大端模式還是小端模式，這里有個簡單的方式：定義一個 short 類型的數組即可：

數字 1 在 short 類型中表示為 0x0001 ，高位為 0x00 ，低位為 0x01 。我們可以很直觀地看到，數組在保存數據時，將高位 0x00 放在了高地址處，將低位 0x01 放在了低地址處。因此使用的就是小端模式。

那 UTF-8 為什麼可以使用位元組來作為存儲單元，而不用擔心位元組序的問題呢？這就涉及到了 UTF-8 巧妙的編碼規則~

UTF-8 最大的一個特點，就是它是一種變長的編碼方式。它可以使用 1~4 個位元組表示一個符號，根據不同的符號而變化位元組長度。UTF-8的編碼規則很簡單，只有二條：

1）對於單位元組符號，位元組的第一位設為 0 ，後 7 位為這個符號的 Unicode 碼。也就是我們上文提到的向後兼容：對於英文字母，UTF-8 編碼和 ASCII 碼是相同的。

2）對於使用 X 個位元組存儲的符號，第一個位元組的前 X 位設置為 1 ，第 X+1 位設置為 0 ，後面位元組的前 2 位一律設置為 10 ，剩下的位置一次填充這個符號的 Unicode 碼。

下表總結了編碼規則，字母 x 表示可用於編碼的位：

跟據上表，解讀 UTF-8 編碼也非常簡單：如果一個位元組的第一位是 0 ，則這個位元組單獨就是一個字元；如果第一位是 1 ，則連續有多少個 1 ，就表示當前字元佔用多少個位元組。

下面，我們就來演示一下 UTF-8 編碼的過程。

首先，獲取漢字魚的 Unicode 碼：

我們不妨先對魚這個漢字使用 utf-8 編碼看看使用幾個位元組存儲：

魚在 UTF-8 編碼中使用 3 個位元組存儲，因此其存儲的二進制的形式為 1110xxxx 10xxxxxx 10xxxxxx ，將 Unicode 1001 110001 111100 依次填充到佔位符 x 的位置就得到： 11101001 10110001 10111100 。

下面，我們將上述推導得出的 11101001 10110001 10111100 轉換為十六進制，驗證一下是否為 b'xe9xb1xbc' ：

驗證無誤！

㈤ day-04 總結python字元串

1.什麼是字元串
序列，有序，不可變的
用單引號或者雙引號任意字元集，

2，字元串中的字元
普通字元：ན', 'sdfsdfsd', '+ + (**&^%$#@@', '發技術規范舉案說法'

'''
python中的字元採用的是unicode編碼

1.什麼是編碼
就是數字和字元的一一對應的，其中字元對應的數字就是字元的編碼
a - 97
b - 98

2.編碼方式
ASCII碼表：針對數字字元，字母字元（26個小寫字母和26個大寫字母），一些英文中對應的符號進行編碼
小寫字母要大於大寫字母的編碼值，採用一個位元組對字元進行編碼，只能對128個字元進行編碼

Unicode碼：Unicode碼包含了ASCII碼表，同時能夠對世界上所有語言對應的符號進行編碼，
採用兩個位元組進行編碼，能夠編碼65536個字元

3.兩個函數
chr(編碼值)--將字元編碼值轉化為字元
ord(字元)-- 獲取字元對應的編碼值
中文編碼范圍 0x4e00~~~~~0x9fa5

一旦一個字元串確定了，那麼字元串中每個字元的位置就確定了，而且每個字元會對應一個表示其位置和順序的下標值

1，下標（索引）
字元串中的每一個字元都有一個下標，代表在字元串中的位置
下標范圍是：0到字元串長度---1 0（代表第一個字元的位置）
-1 ~ 字元串長度 -1（代表字元串中最後一個字元的位置）

'abc' # ''

獲取單個字元
語法：字元串[下標]--獲取字元串中指定下標對應的字元
說明字元串--可以是字元串常量，也可以是字元串變數
[]---固定寫法
下標--字元的下標，不能越界。

獲取部分字元
語法：字元串[開始下標:結束下標:步長]
步長-- 一個整數
功能：從開始下標獲取到結束下標前位置，每次下標值增加步長，結果是字元串
注意：當步長是整數，開始下標對應的字元要在結束下標的前面
當步長是負數，開始下標對應的字元要在結束下標的後面

方法2：字元串[開始下表：結束下標]（相當於步長是一）

獲取部分字元，省略下標
獲取部分字元的時候開始下標和結束下標都可以省略
a.開始下標省略
字元串[:結束下標：步長] 或者字元串[:結束下表]
字元串是正數：從字元串開頭開始往後獲取
字元串是負數：從字元串結尾開始往前獲取

結束下標省略
字元串[開始下標：：步長]
步長是正數，從開始下標從前往後獲取到字元串最後
步長是負數，從開始下標從後往前獲取到字元串開始

,加法運算
字元串1 + 字元串2 將兩個字元串拼接在一起，產生一個新的字元串

乘法運算
字元串 * n(正整數)：字元串中的內容重復n次產生一個新的字元串

比較運算符
a. == ！=
字元串1 == 字元串2 ---------判斷兩個字元串是否相等

b.> ,< , >= ,<= (所有的大寫字母編碼都比小寫的編碼小)
兩個字元串比較大下：從第一個開始，找到第一對不同的字元，然後比較他們的編碼值的大小

in 和 not in
字元串1 in 字元串2 :判斷字元串2是否包含字元串1
字元串1 not in 字元串2 :判斷字元串2是否不包含字元串1

len函數
len(序列)------- 獲取序列的長度
len(字元串)----獲取字元串中字元的個數

str函數
str(數據)：將數據轉換成字元串

其他數據轉換成字元串
所有的數據都可以轉換成字元串,轉換的時候就是在數據的值的最外面加引號

補充：系統對應的類型名不能用來給變數命名

字元串轉其他類型
字元串轉整數: int(字元串) 去掉引號後本身就是個整數的字元串才能轉
字元串轉浮點型: Float(字元串)
字元串轉布爾： boll(字元串) ，除了空串會轉化成False，其他的都會轉化成True

格式字元串
指的是字元串中通過格式佔位符來表示字元串中變化，然後後面再通過其他的值來給佔位符賦值
含有格式佔位符的字元串 % （佔位符對應的值）
說明:
含有格式佔位符有固定寫法，可以有多個
%----固定寫法
（）----裡面值的個數要和前面的格式佔位符一一對應
%d--整數
%s--字元串
%f--小數
%c--字元(可以將數字轉換成字元)

字元串.capitalize() - 將字元串第一個字元轉換成大寫

2.字元串對齊
字元串.center(width, fillchar) - 居中
字元串.ljust(width, fillchar) - 左對齊
字元串.rjust(width, fillchar) - 右對齊

width - 正整數，表示新的字元串的寬度
fillchar - 字元，填充字元串

字元串.isalpha 若字元串至少有一個字元，並且所有字元都是字母就返回True，否則返回False

字元串。isdigit（）若字元串中只包含數字就返回True,否則返回False

若字元串中只包含數字字元，則返回True,否則返回 False

3.join(seq)
字元串1.join(字元串2): 將字元串1的內容插入到字元串2的每個字元之間

max(字元串) 編碼最大
min(字元串)

count(str)|返回 str 在 string 裡面出現的次數

|islower()|如果字元串中包含至少一個區分大小寫的字元，並且所有這些(區分大小寫的)字元都是小寫，則返回 True，否則返回 False

expandtabs(tabsize=8)|把字元串 string 中的 tab 符號轉為空格，tab 符號默認的空格數是 8 。

|isspace()|如果字元串中只包含空白，則返回 True，否則返回 False

endswith(suffix)|檢查字元串是否以 obj 結束，如果beg 或者 end 指定則檢查指定的范圍內是否以 obj 結束，如果是，返回 True,否則返回 False.

㈥ python有哪幾種編碼方式

第一種：ASCII碼。是基於拉丁字母的一套電腦編碼系統，主要用於顯示現代英語和其他西歐語言，它是現今最通用的單位元組編碼系統，並等同於國際標准IS/IEC
646。
由於計算機是美國人發明的，因此，最早只有127個字母被編碼到計算機李，也就是大小寫英文字母、數字和一些符號，這個編碼表被稱為ASCII編碼，比如大寫字母A的編碼是65，小寫字母a的編碼是97，後128個稱為擴展ASCII碼。
第二種：GBK和GB2312。能在計算機中顯示中文字元是至關重要的，然而ASCII表裡一個偏旁部首都沒有，所以我們需要一個關於中文和數字對應的關系表，一個位元組只能最多表示256個字元，用處理中文顯然一個位元組是不夠的，所以我們需要採用兩個位元組來表示，所以中國制定了GB2312編碼，用來將中文編寫進去。
第三種：Unicode。因為各個國家都有一套自己的編碼，所以無法避免沖突，因此Unicode誕生了。它可以把所有語言都統一到一套編碼里，這樣就不會存在亂碼問題了，現代操作系統和大多數編程語言都直接支持Unicode。
第四種：UFT-8。基於節約的原則，出現了把Unicode編碼轉化為可變長編碼的UTF-8編碼。而UTF-8編碼把一個Unicode字元根據不同的數字大小編碼成1-6個位元組，常用的英文字母被編碼成一個位元組，漢字通常是3個位元組，只有很生僻的字元才會被編碼成4-6個位元組，如果你要傳輸的文本包含大量英文字元，用UTF-8編碼就能節省空間。

㈦ Python基本編碼格式

1、一般來說，聲明編碼格式在腳本中是必需的。2、如果Python源碼文件沒有聲明編碼格式，Python解釋器會默認使用ASCII編碼。但出現非ASCII編碼的字元，Python解釋器就會報錯。

1、Python 採用代碼縮進和冒號（ : ）來區分代碼塊之間的層次。2、在 Python 中，對於類定義、函數定義、流程式控制制語句、異常處理語句等，行尾的冒號和下一行的縮進，表示下一個代碼塊的開始，而縮進的結束則表示此代碼塊的結束。3、Python 中實現對代碼的縮進，可以使用空格或者 Tab 鍵實現。但無論是手動敲空格，還是使用 Tab 鍵，通常情況下都是採用 4 個空格長度作為一個縮進量（默認情況下，一個 Tab 鍵就表示 4 個空格）。4、對於 Python 縮進規則，初學者可以這樣理解，Python 要求屬於同一作用域中的各行代碼，它們的縮進量必須一致，但具體縮進量為多少，並不做硬性規定。

正確示例代碼:

錯誤示例代碼:

Python中使用 # 進行注釋，我們在使用# 的時候，# 號後面要空一格在行內注釋的時候，中間應該至少加兩個空格

print("你好，世界") # 注釋

** 使用的一般性原則：**

1、在二元運算符兩邊各空一格，算術操作符兩邊的空格可靈活使用，但兩側務必要保持一致2、不要在逗號、分號、冒號前面加空格，但應該在它們後面加（除非在行尾）3、函數的參數列表中，逗號之後要有空格4、函數的參數列表中，默認值等號兩邊不要添加空格5、左括弧之後，右括弧之前不要加添加空格6、參數列表，索引或切片的左括弧前不應加空格

使用的一般性原則：

1、編碼格式聲明、模塊導入、常量和全局變數聲明、頂級定義和執行代碼之間空兩行2、頂級定義之間空兩行，方法定義之間空一行3、在函數或方法內部，可以在必要的地方空一行以增強節奏感，但應避免連續空行

1、導入總應該放在文件頂部，位於模塊注釋和文檔字元串之後，模塊全局變數和常量之前。

2、導入應該按照從最通用到最不通用的順序分組，分組之間空一行：

3、每個 import 語句只導入一個模塊，盡量避免一次導入多個模塊

命名規范這一塊的大家應該都比較熟悉了，但是不同的編程語言之間的明明規范也是有所區別的~

Python命名建議遵循的一般性原則：

引號使用的一般性原則：

Python跟其他幾個主流編程語言的分號使用區別很大Python的代碼末尾不需要加分號，而Java和C#等都需要添加

不要在行尾添加分號，也不要用分號將兩條命令放在同一行，例如：

Python學習日記

導航:首頁 > 編程語言 > python字元編碼詳解

python字元編碼詳解

與python字元編碼詳解相關的資料