python獲取當前編碼_python編碼的問題

1. python 讀取文件時能指定編碼嗎

代碼如下:

import os
import codecs
filenames=os.listdir(os.getcwd())
out=file("name.txt","w")
for filename in filenames:
out.write(filename.decode("gb2312").encode("utf-8"))
out.close()

將執行文件的當前目錄及文件名寫入到name.txt文件中，以utf-8格式保存
如果採用ANSI編碼保存，用如下代碼寫入即可：

復制代碼代碼如下:

out.write(filename)

打開文件並寫入
引用codecs模塊，對該模塊目前不了解。在此記錄下方法，有空掌握該模塊功能及用法。

復制代碼代碼如下:

import codecs
file=codecs.open("lol.txt","w","utf-8")
file.write(u"我")
file.close()

讀取ANSI編碼的文本文件和utf-8編碼的文件
讀取ANSI編碼文件
建立一個文件test.txt，文件格式用ANSI，內容為:

復制代碼代碼如下:

abc中文

用python來讀取

復制代碼代碼如下:

# coding=gbk
print open("Test.txt").read()

結果：abc中文
讀取utf-8編碼文件（無BOM）
把文件格式改成UTF-8：

復制代碼代碼如下:

結果：abc涓枃

顯然，這里需要解碼：

復制代碼代碼如下:

# -*- coding: utf-8 -*-
import codecs
print open("Test.txt").read().decode("utf-8")

結果：abc中文
讀取utf-8編碼文件（有BOM）
某些軟體在保存一個以UTF-8編碼的文件時，默認會在文件開始的地方插入三個不可見的字元（0xEF 0xBB 0xBF，即BOM）。在有些軟體可以控制是否插入BOM。如果在有BOM的情況下，在讀取時需要自己去掉這些字元，python中的codecs mole定義了這個常量：

復制代碼代碼如下:

# -*- coding: utf-8 -*-
import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")

結果：abc中文
在看下面的例子：

復制代碼代碼如下:

# -*- coding: utf-8 -*-
data = open("name_utf8.txt").read()
u=data.decode("utf-8")
print u[1:]

打開utf-8格式的文件並讀取utf-8字元串後，解碼變成unicode對象。但是會把附加的三個字元同樣進行轉換，變成一個unicode字元。該字元不能被列印。所以為了正常顯示，採用u[1:]的方式，過濾到第一個字元。
注意：在處理unicode中文字元串的時候，必須首先對它調用encode函數，轉換成其它編碼輸出。
設置python默認編碼
復制代碼代碼如下:

import sys
reload(sys)
sys.setdefaultencoding("utf-8")
print sys.getdefaultencoding()

今天碰到了 python 編碼問題, 報錯信息如下

復制代碼代碼如下:

Traceback (most recent call last):
File "ntpath.pyc", line 108, in join
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa1 in position 36: ordinal not in range(128)

顯然是當前的編碼為ascii, 無法解析0xa1(十進制為161, 超過上限128). 進入python console後, 發現默認編碼確實是 ascii, 驗證過程為:
在python2.6中無法調用sys.setdefaultencoding()函數來修改默認編碼，因為python在啟動的時候會調用site.py文件，在這個文件中設置完默認編碼後會刪除sys的setdefaultencoding方法。不能再被調用了. 在確定sys已經導入的情況下, 可以reload sys這個模塊之後, 再 sys.setdefaultencoding('utf8')
復制代碼代碼如下:

import sys
reload(sys)
sys.setdefaultencoding("utf-8")
print sys.getdefaultencoding()

確實有效, 根據 limodou 講解, site.py 是 python 解釋器啟動後, 默認載入的一個腳本. 如果使用 python -S 啟動的話, 將不會自動載入 site.py.
上面寫的挺啰嗦的.
==================================
如何永久地將默認編碼設置為utf-8呢? 有2種方法:
==================================
第一個方法<不推薦>: 編輯site.py, 修改setencoding()函數, 強制設置為 utf-8
第二個方法<推薦>: 增加一個名為 sitecustomize.py, 推薦存放的路徑為 site-packages 目錄下
sitecustomize.py 是在 site.py 被import 執行的, 因為 sys.setdefaultencoding() 是在 site.py 的最後刪除的, 所以, 可以在 sitecustomize.py 使用 sys.setdefaultencoding().

復制代碼代碼如下:

import sys
sys.setdefaultencoding('utf-8')

既然 sitecustomize.py 能被自動載入, 所以除了設置編碼外, 也可以設置一些其他的東西
字元串的編碼

復制代碼代碼如下:

s1='中文'

像上面那樣直接輸入的字元串是按照代碼文件的編碼來處理的，如果是unicode編碼，有以下三種方式：

復制代碼代碼如下:

1 s1 = u'中文'
2 s2 = unicode('中文','gbk')
3 s3 = s1.decode('gbk')

unicode是一個內置函數，第二個參數指示源字元串的編碼格式。
decode是任何字元串具有的方法，將字元串轉換成unicode格式，參數指示源字元串的編碼格式。
encode也是任何字元串具有的方法，將字元串轉換成參數指定的格式。

2. python怎麼知道一個字元串的編碼方式

字元串的編碼，有很多種如utf-8，gb2312，gbk，gb18030，bz2，zlib，big5，bzse64

python 對編碼的處理有兩個方法，decode()和 encode()方法

a='你好'
b='python'
printa.decode('utf-8').encode('gbk')##decode方法把字元串轉換為unicode對象，然後通過encode方法轉換為指定的編碼字元串對象
printb.decode('utf-8')##decode方法把字元串轉換為unicode對象

所以要讓python（或者說機器）來識別字元串的編碼，是一件很困難的事。編碼就是漢字和整數之間的對應，同一個整數，可以在不同的編碼中，都有對應的漢字。比如下面的例子，比特流'xe6xb0xb4xe5xa3xb6'在四種編碼中都有對應的漢字，但只有在utf-8編碼下，它對應的漢字才有意義。我們可以一眼看出這點，可是要讓計算機做到這點，就很難了。

>>>s='水壺'
>>>s
18:'xe6xb0xb4xe5xa3xb6'
>>>printunicode(s,'big5')
瘞游ㄥ
>>>printunicode(s,'gbk')
姘村6
>>>printunicode(s,'gb2312')
姘村6
>>>printunicode(s,'utf-8')
水壺

3. Python編碼字元串解碼問題，怎麼解決

在將字元串寫入文件時，執行f.write(str)，後台總是報錯：UnicodeEncodeError: 'ascii' codec can't encode character u'\u6211' in position 0: ordinal not in range(128)，即ascii碼無法被轉換成unicode碼。
剛開始我以為Python默認的編碼是utf-8，所以使用decode方法和encode方法來進行編碼轉換，後來怎麼也不成功，於是懷疑是否默認編碼不是utf-8。
使用下面語句獲取python當前的默認編碼：
[python] view plain
import sys
print sys.getdefaultencoding()

4. python 怎麼查看當前字元串的編碼格式

查看當前字元串的編碼格式的代碼為：Type "now", "right", "credits" or "license" for more information.

5. python編碼的問題

你好：
編碼的問題確實頭疼；
我在博客園摘抄了一些編碼問題；
這個問題主要是因為：
print 是將字元串轉化為系統的編碼輸出。
而list存儲的你設置的編碼。

6. python 讀取文本里有多種編碼

讀取ANSI編碼文件
建立一個文件test.txt，文件格式用ANSI，內容為:
abc中文
用Python來讀取
# coding=gbk
print open("Test.txt").read()
結果：abc中文
讀取utf-8編碼文件（無BOM）
把文件格式改成UTF-8：
結果：abc涓枃
顯然，這里需要解碼：
# -*- coding: utf-8 -*-
import codecs
print open("Test.txt").read().decode("utf-8")
結果：abc中文
讀取utf-8編碼文件（有BOM）
某些軟體在保存一個以UTF-8編碼的文件時，默認會在文件開始的地方插入三個不可見的字元（0xEF 0xBB 0xBF，即BOM）。在有些軟體可以控制是否插入BOM。如果在有BOM的情況下，在讀取時需要自己去掉這些字元，python中的codecs mole定義了這個常量：

7. python列表讀取編碼的問題

這個結果不是什麼編碼，而是 list 的表示形式

1. 對於一個不是 str 的 obj， print obj 等價於 print str(obj)

2. str(obj) 的等價形式是 obj.__str__()

3. 對於 list 類型， __str__ 的定義是 '[%s]' % ', '.join(repr(i) for i in self)

(每個元素的 repr 值拼接起來)

4. 對於 unicode 對象， repr 形式為

printrepr(u'中文')
>>u'u4e26587'

所以

array=[u'中文',u'中文',u'中文']

printarray
>>[u'u4e26587',u'u4e26587',u'u4e26587']

print'[%s]'%','.join(repr(i)foriinarray)
>>[u'u4e26587',u'u4e26587',u'u4e26587']

而

printu'中文'
>>中文
printstr(u'中文')
>>中文

array=[u'中文',u'中文',u'中文']
print'[%s]'%','.join(array)
>>[中文,中文,中文]

8. python 如何獲取本地電腦某一文件夾下所有文件的編碼格式encoding，並將結果導出

一個文件的編碼格式並不是程序能檢測出來的
而是我們預先知道存文件的時候用了什麼編碼，讀文件的時候就要用相應的編碼

9. python怎麼查看字元串編碼

1.import chardet
chardet.detect(string)
2.uri編碼格式轉為utf或其它格式
import urllib
urllib.quote(string) #將string轉為uri
urllib.unquote(string) #將uri型的string轉為urf-8

導航:首頁 > 編程語言 > python獲取當前編碼

python獲取當前編碼

與python獲取當前編碼相關的資料