python获取当前编码_python编码的问题

1. python 读取文件时能指定编码吗

代码如下:

import os
import codecs
filenames=os.listdir(os.getcwd())
out=file("name.txt","w")
for filename in filenames:
out.write(filename.decode("gb2312").encode("utf-8"))
out.close()

将执行文件的当前目录及文件名写入到name.txt文件中，以utf-8格式保存
如果采用ANSI编码保存，用如下代码写入即可：

复制代码代码如下:

out.write(filename)

打开文件并写入
引用codecs模块，对该模块目前不了解。在此记录下方法，有空掌握该模块功能及用法。

复制代码代码如下:

import codecs
file=codecs.open("lol.txt","w","utf-8")
file.write(u"我")
file.close()

读取ANSI编码的文本文件和utf-8编码的文件
读取ANSI编码文件
建立一个文件test.txt，文件格式用ANSI，内容为:

复制代码代码如下:

abc中文

用python来读取

复制代码代码如下:

# coding=gbk
print open("Test.txt").read()

结果：abc中文
读取utf-8编码文件（无BOM）
把文件格式改成UTF-8：

复制代码代码如下:

结果：abc涓枃

显然，这里需要解码：

复制代码代码如下:

# -*- coding: utf-8 -*-
import codecs
print open("Test.txt").read().decode("utf-8")

结果：abc中文
读取utf-8编码文件（有BOM）
某些软件在保存一个以UTF-8编码的文件时，默认会在文件开始的地方插入三个不可见的字符（0xEF 0xBB 0xBF，即BOM）。在有些软件可以控制是否插入BOM。如果在有BOM的情况下，在读取时需要自己去掉这些字符，python中的codecs mole定义了这个常量：

复制代码代码如下:

# -*- coding: utf-8 -*-
import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")

结果：abc中文
在看下面的例子：

复制代码代码如下:

# -*- coding: utf-8 -*-
data = open("name_utf8.txt").read()
u=data.decode("utf-8")
print u[1:]

打开utf-8格式的文件并读取utf-8字符串后，解码变成unicode对象。但是会把附加的三个字符同样进行转换，变成一个unicode字符。该字符不能被打印。所以为了正常显示，采用u[1:]的方式，过滤到第一个字符。
注意：在处理unicode中文字符串的时候，必须首先对它调用encode函数，转换成其它编码输出。
设置python默认编码
复制代码代码如下:

import sys
reload(sys)
sys.setdefaultencoding("utf-8")
print sys.getdefaultencoding()

今天碰到了 python 编码问题, 报错信息如下

复制代码代码如下:

Traceback (most recent call last):
File "ntpath.pyc", line 108, in join
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa1 in position 36: ordinal not in range(128)

显然是当前的编码为ascii, 无法解析0xa1(十进制为161, 超过上限128). 进入python console后, 发现默认编码确实是 ascii, 验证过程为:
在python2.6中无法调用sys.setdefaultencoding()函数来修改默认编码，因为python在启动的时候会调用site.py文件，在这个文件中设置完默认编码后会删除sys的setdefaultencoding方法。不能再被调用了. 在确定sys已经导入的情况下, 可以reload sys这个模块之后, 再 sys.setdefaultencoding('utf8')
复制代码代码如下:

import sys
reload(sys)
sys.setdefaultencoding("utf-8")
print sys.getdefaultencoding()

确实有效, 根据 limodou 讲解, site.py 是 python 解释器启动后, 默认加载的一个脚本. 如果使用 python -S 启动的话, 将不会自动加载 site.py.
上面写的挺啰嗦的.
==================================
如何永久地将默认编码设置为utf-8呢? 有2种方法:
==================================
第一个方法<不推荐>: 编辑site.py, 修改setencoding()函数, 强制设置为 utf-8
第二个方法<推荐>: 增加一个名为 sitecustomize.py, 推荐存放的路径为 site-packages 目录下
sitecustomize.py 是在 site.py 被import 执行的, 因为 sys.setdefaultencoding() 是在 site.py 的最后删除的, 所以, 可以在 sitecustomize.py 使用 sys.setdefaultencoding().

复制代码代码如下:

import sys
sys.setdefaultencoding('utf-8')

既然 sitecustomize.py 能被自动加载, 所以除了设置编码外, 也可以设置一些其他的东西
字符串的编码

复制代码代码如下:

s1='中文'

像上面那样直接输入的字符串是按照代码文件的编码来处理的，如果是unicode编码，有以下三种方式：

复制代码代码如下:

1 s1 = u'中文'
2 s2 = unicode('中文','gbk')
3 s3 = s1.decode('gbk')

unicode是一个内置函数，第二个参数指示源字符串的编码格式。
decode是任何字符串具有的方法，将字符串转换成unicode格式，参数指示源字符串的编码格式。
encode也是任何字符串具有的方法，将字符串转换成参数指定的格式。

2. python怎么知道一个字符串的编码方式

字符串的编码，有很多种如utf-8，gb2312，gbk，gb18030，bz2，zlib，big5，bzse64

python 对编码的处理有两个方法，decode()和 encode()方法

a='你好'
b='python'
printa.decode('utf-8').encode('gbk')##decode方法把字符串转换为unicode对象，然后通过encode方法转换为指定的编码字符串对象
printb.decode('utf-8')##decode方法把字符串转换为unicode对象

所以要让python（或者说机器）来识别字符串的编码，是一件很困难的事。编码就是汉字和整数之间的对应，同一个整数，可以在不同的编码中，都有对应的汉字。比如下面的例子，比特流'xe6xb0xb4xe5xa3xb6'在四种编码中都有对应的汉字，但只有在utf-8编码下，它对应的汉字才有意义。我们可以一眼看出这点，可是要让计算机做到这点，就很难了。

>>>s='水壶'
>>>s
18:'xe6xb0xb4xe5xa3xb6'
>>>printunicode(s,'big5')
瘗游ㄥ
>>>printunicode(s,'gbk')
姘村6
>>>printunicode(s,'gb2312')
姘村6
>>>printunicode(s,'utf-8')
水壶

3. Python编码字符串解码问题，怎么解决

在将字符串写入文件时，执行f.write(str)，后台总是报错：UnicodeEncodeError: 'ascii' codec can't encode character u'\u6211' in position 0: ordinal not in range(128)，即ascii码无法被转换成unicode码。
刚开始我以为Python默认的编码是utf-8，所以使用decode方法和encode方法来进行编码转换，后来怎么也不成功，于是怀疑是否默认编码不是utf-8。
使用下面语句获取python当前的默认编码：
[python] view plain
import sys
print sys.getdefaultencoding()

4. python 怎么查看当前字符串的编码格式

查看当前字符串的编码格式的代码为：Type "now", "right", "credits" or "license" for more information.

5. python编码的问题

你好：
编码的问题确实头疼；
我在博客园摘抄了一些编码问题；
这个问题主要是因为：
print 是将字符串转化为系统的编码输出。
而list存储的你设置的编码。

6. python 读取文本里有多种编码

读取ANSI编码文件
建立一个文件test.txt，文件格式用ANSI，内容为:
abc中文
用Python来读取
# coding=gbk
print open("Test.txt").read()
结果：abc中文
读取utf-8编码文件（无BOM）
把文件格式改成UTF-8：
结果：abc涓枃
显然，这里需要解码：
# -*- coding: utf-8 -*-
import codecs
print open("Test.txt").read().decode("utf-8")
结果：abc中文
读取utf-8编码文件（有BOM）
某些软件在保存一个以UTF-8编码的文件时，默认会在文件开始的地方插入三个不可见的字符（0xEF 0xBB 0xBF，即BOM）。在有些软件可以控制是否插入BOM。如果在有BOM的情况下，在读取时需要自己去掉这些字符，python中的codecs mole定义了这个常量：

7. python列表读取编码的问题

这个结果不是什么编码，而是 list 的表示形式

1. 对于一个不是 str 的 obj， print obj 等价于 print str(obj)

2. str(obj) 的等价形式是 obj.__str__()

3. 对于 list 类型， __str__ 的定义是 '[%s]' % ', '.join(repr(i) for i in self)

(每个元素的 repr 值拼接起来)

4. 对于 unicode 对象， repr 形式为

printrepr(u'中文')
>>u'u4e26587'

所以

array=[u'中文',u'中文',u'中文']

printarray
>>[u'u4e26587',u'u4e26587',u'u4e26587']

print'[%s]'%','.join(repr(i)foriinarray)
>>[u'u4e26587',u'u4e26587',u'u4e26587']

而

printu'中文'
>>中文
printstr(u'中文')
>>中文

array=[u'中文',u'中文',u'中文']
print'[%s]'%','.join(array)
>>[中文,中文,中文]

8. python 如何获取本地电脑某一文件夹下所有文件的编码格式encoding，并将结果导出

一个文件的编码格式并不是程序能检测出来的
而是我们预先知道存文件的时候用了什么编码，读文件的时候就要用相应的编码

9. python怎么查看字符串编码

1.import chardet
chardet.detect(string)
2.uri编码格式转为utf或其它格式
import urllib
urllib.quote(string) #将string转为uri
urllib.unquote(string) #将uri型的string转为urf-8

导航:首页 > 编程语言 > python获取当前编码

python获取当前编码

与python获取当前编码相关的资料