python中文编码方式_python有哪几种编码方式

‘壹’ python中怎么定义中文编码

在程序的第一行指定中文编码方式，并且输入字符为unicode，然后编码成gb18030方式，完整程序如下:
-------------------------------------
# -*- coding: gb18030 -*-
#!/usr/bin/python

cont = raw_input( u"请输入:".encode("gb18030") )

print cont
-------------------------------------
输入的内容也可以是中文

‘贰’ python中的sys.setdefaultencoding('utf8')是什么呢

设置默认的编码方式为utf-8 支持中文的。

‘叁’ python中如何获取中文的utf8编码

首先要表示一个汉字，至少需要2个字节码
如果需要以utf解码你的汉字，可以用如下办法

>>>unicode('人','utf-16')
u'ucbc8'

如果需要以gbk解码你的汉字，可以用如下办法

>>>unicode('人','gbk')
u'u4eba

‘肆’ python有哪几种编码方式

第一种：ASCII码。是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其他西欧语言，它是现今最通用的单字节编码系统，并等同于国际标准IS/IEC
646。
由于计算机是美国人发明的，因此，最早只有127个字母被编码到计算机李，也就是大小写英文字母、数字和一些符号，这个编码表被称为ASCII编码，比如大写字母A的编码是65，小写字母a的编码是97，后128个称为扩展ASCII码。
第二种：GBK和GB2312。能在计算机中显示中文字符是至关重要的，然而ASCII表里一个偏旁部首都没有，所以我们需要一个关于中文和数字对应的关系表，一个字节只能最多表示256个字符，用处理中文显然一个字节是不够的，所以我们需要采用两个字节来表示，所以中国制定了GB2312编码，用来将中文编写进去。
第三种：Unicode。因为各个国家都有一套自己的编码，所以无法避免冲突，因此Unicode诞生了。它可以把所有语言都统一到一套编码里，这样就不会存在乱码问题了，现代操作系统和大多数编程语言都直接支持Unicode。
第四种：UFT-8。基于节约的原则，出现了把Unicode编码转化为可变长编码的UTF-8编码。而UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成一个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节，如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间。

‘伍’ Python 编码转换与中文处理

python 中的 unicode 是让人很困惑、比较难以理解的问题. 这篇文章写的比较好， utf-8是 unicode的一种实现方式，unicode、gbk、gb2312是编码字符集.

Python 默认脚本文件都是 ANSCII 编码的，当文件中有非 ANSCII 编码范围内的字符的时候就要使用" 编码指示 "来修正一个 mole 的定义中，如果.py文件中包含中文字符（严格的说是含有非anscii字符），则需要在第一行或第二行指定编码声明： # -*- coding=utf-8 -*- 或者 #coding=utf-8
其他的编码如：gbk、gb2312也可以；否则会出现:

先说一下python中的字符串类型，在python中有两种字符串类型，分别是 str 和 unicode ，他们都是basestring的派生类；

在str的文档中有这样的一句话：

也就是说在读取一个文件的内容，或者从网络上读取到内容时，保持的对象为str类型；如果想把一个str转换成特定编码类型，需要把str转为Unicode,然后从unicode转为特定的编码类型如：utf-8、gb2312等。

unicode 转为 gb2312,utf-8等,使用 encode(encoding)

utf-8,GBK转换为 unicode 使用 unicode(s,encoding) 或者 s.decode(encoding)

普通的 str 转为 unicode,

如果直接执行s.encode('gb2312')会发生什么？

这里会发生一个异常：Python 会自动的先将 s 解码为 unicode ，然后再编码成 gb2312。因为解码是python自动进行的，我们没有指明解码方式，python 就会使用 sys.defaultencoding 指明的方式来解码。很多情况下 sys.defaultencoding 是 ANSCII，如果 s 不是这个类型就会出错。
拿上面的情况来说，我的 sys.defaultencoding 是 anscii，而 s 的编码方式和文件的编码方式一致，是 utf8 的，所以出错了:

对于这种情况，我们有两种方法来改正错误：

s = '中文'
s.decode('utf-8').encode('gb2312') ```

import sys
reload(sys) # Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法，我们需要重新载入
sys.setdefaultencoding('utf-8')
str = '中文'
str.encode('gb2312')

print open("Test.txt").read()

import codecs
print open("Test.txt").read().decode("utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
print open("Test.txt").read().decode("utf-8")
UnicodeEncodeError: 'gbk' codec can't encode character u'ufeff' in position 0: illegal multibyte sequence

import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")

s = "中文"
print unicode(s, "utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
s = unicode(s, "utf-8")
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data

s = "中文"
print unicode(s, "gbk")

s = "中文"
print unicode(s, "cp936")

热点内容

手机上用什么来编程发布：2025-03-17 07:55:52 浏览：430

华为设置为大文件夹时怎么展开发布：2025-03-17 07:54:35 浏览：860

如何打开腾讯云服务器防火墙发布：2025-03-17 07:54:29 浏览：169

电脑编程属于it吗发布：2025-03-17 07:32:01 浏览：353

如何分辨文件夹发布：2025-03-17 07:20:56 浏览：714

哪里能学懂通达信每个源码的含义发布：2025-03-17 07:20:06 浏览：833

命令式过去式形式发布：2025-03-17 07:15:55 浏览：450

车铣复合铣六角编程实例发布：2025-03-17 07:13:24 浏览：743

android通知的呼吸灯发布：2025-03-17 07:11:10 浏览：907

单片机排针的功能发布：2025-03-17 07:10:33 浏览：849

华为的服务器现在被什么公司收购发布：2025-03-17 06:53:52 浏览：285

服务器粘包怎么处理发布：2025-03-17 06:53:51 浏览：726

怎么进创意工坊的服务器发布：2025-03-17 06:51:38 浏览：786

空调压缩机加变频器发布：2025-03-17 06:45:58 浏览：968

加密货币有哪些可以玩发布：2025-03-17 06:39:21 浏览：993

腾讯云服务器如何生成备案授权码发布：2025-03-17 06:35:31 浏览：950

计算机学算法好还是人工智能发布：2025-03-17 06:28:13 浏览：500

java命令运行eclipse 发布：2025-03-17 06:27:27 浏览：979

u盘加密其他办法发布：2025-03-17 06:25:23 浏览：808

zm螺纹算法发布：2025-03-17 06:03:04 浏览：778

导航:首页 > 编程语言 > python中文编码方式

python中文编码方式

与python中文编码方式相关的资料