python显示unicode_python123汉字的unicode编码值

Ⅰ python123汉字的unicode编码值

python的默认编码是ascii，可以通过sys.setdefaultencoding('utf-8')函数设置python的默认编码。

python中可以通过encode和decode的方式改变数据的编码，比如：

>>> u'汉字'

u'\u6c49\u5b57'

>>> u'汉字'.encode('utf-8')

'\xe6\xb1\x89\xe5\xad\x97'

>>> u'汉字'.encode('utf-8').decode('utf-8')

u'\u6c49\u5b57'

我们可以通过这两个函数设置编码。

那么，python中的str是什么类型？

>>> import binascii

>>> '汉字'

'\xba\xba\xd7\xd6'

>>> type('汉字')

>>> print binascii.b2a_hex('汉字')

babad7d6

>>> print binascii.b2a_hex(u'汉字')

Traceback (most recent call last):

File "", line 1, in

UnicodeEncodeError: 'ascii' codec can't encode characters in

position 0-1: ordinal not in range(128)

>>> print binascii.b2a_hex(u'汉字'.encode('utf-8'))

e6b189e5ad97

>>> print binascii.b2a_hex(u'汉字'.encode('gbk'))

babad7d6

binascii是将数据的二进制转换成ascii，上面的解释是：‘汉字'的类型是str，二进制是babad7d6，u‘汉字'是无法转换成ascii，这样就报出了开头的第一个错误。解决办法就是把它.encode(‘utf-8')成str类型。因为我命令行是windows默认的GBK编码，所有u'汉字'.encode(‘gbk')的时候，输出结果和‘汉字'结果一样。

Ⅱ python print出unicode码怎么办

defchar_ok_but_show_messy():
"""
,withsomeencoding,
"""
#此处，当前Python文件是UTF-8编码的，所以如下的字符串，是UTf-8编码的
cnUtf8Char="我是UTF-8的中文字符串";
#所以，将UTF-8编码的字滑樱符串，打印输出到GBK编码的命令行（Windows的cmd）中，就会显示出乱码
print"cnUtf8Char=",cnUtf8Char;#cnUtf8Char=鎴戞槸UTF-8镄勪腑鏂囧瓧绗︿覆
#如果想要正确显示出中文字符，不显示乱码的话，则有两种选择：
#1.把字信磨丛符串转换为Unicode编码，则输出到GBK的命令行时，Python会自动将Unicode的字符串，编码为GBK，然后正确显示字符
decodedUnicodeChar=cnUtf8Char.decode("UTF-8");
print"decodedUnicodeChar=",decodedUnicodeChar;#decodedUnicodeChar=我是UTF-8的中文字符串
#2.让字符串的编码和输入目标（windows的cmd）的编码一致：把当前的字符串(由上述解码后得到的Unicode再次去编码)也变成GBK，然后输出到GBK的命令行时，就可以正确游吵显示了
reEncodedToGbkChar=decodedUnicodeChar.encode("GBK");
print"reEncodedToGbkChar=",reEncodedToGbkChar;#reEncodedToGbkChar=我是UTF-8的中文字符串


###############################################################################
if__name__=="__main__":
char_ok_but_show_messy();

Ⅲ 如何理解python3的unicode，以及全角半角转换

1. unicode是一个编码的standard，表明了字符与数字之间的映射，是可变长的。

2. 映射后的数据如何编码为字节？这个就是具体的编码规则：目前最主流的是UTF-8，同样，它也是变字长的。

python3中的str都是unicode的：“The default encoding for Python source code is UTF-8”

python3中的encode：按照encode()括号中的参数对字符串进行编码，就是生成bytes。

所以：

In：'中文'.encode('utf-8')
Out：b'\xe4\xb8\xad\xe6\x96\x87'

这里的b就是Byte，\x表示这个x是被转义的，意思就是0x。又如：

In: 'abc'.encode('utf-8')

Out: b'abc'

上面的b'a'其实表示的是数字97,b'a'的意思就是字符串'a'的binary数字：

[In]:'abc'.encode('utf-8')[0]

[Out]: 97

同时可以把b'\x'进行解码，即：
In：b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
Out：'中文'
除了encode('utf-8')外，用ord可以获得单个utf-8字符对应的数字：

In [60]: ord('a')
Out[60]: 97
In [61]: ord('a')＃这个是全角的a
Out[61]: 65345

除了decode('utf-8')外，用chr可以获得数字对应的utf-8字符：

In [62]: chr(97)
Out[62]: 'a'

除了unicode还有别的编码标准吗？有啊，比如我国的GBK，别名也叫cp936。

全角和半角之分，是指同样一个意义的字符，显示的大小不同．具体来说，全角和半角的编码是两个结果：

In [70]: "mn".encode('utf-8')
Out[70]: b'\xef\xbd\x8d\xef\xbd\x8e
[In]:"mn".encode('utf-8')

[Out]:b'mn'

它们有什么对应关系呢？(引自这里)

转换说明
全角半角转换说明
有规律（不含空格）：
全角字符unicode编码从65281~65374 （十六进制 0xFF01 ~ 0xFF5E）
半角字符unicode编码从33~126 （十六进制 0x21~ 0x7E）
特例：
空格比较特殊，全角为 12288（0x3000），半角为 32（0x20）
除空格外，全角/半角按unicode编码排序在顺序上是对应的（半角 + 0x7e= 全角）,所以可以直接通过用+-法来处理非空格数据，对空格单独处理。
代码在此基础上改动一下（将unichr改为chr即可，适应python3），即：

def strQ2B(ustring):
"""全角转半角"""
rstring = ""
for uchar in ustring:
inside_code=ord(uchar)
if inside_code == 12288: #全角空格直接转换
inside_code = 32
elif (inside_code >= 65281 and inside_code <= 65374): #全角字符（除空格）根据关系转化
inside_code -= 65248
rstring += chr(inside_code)
return rstring

In [69]: strQ2B('你好python')
Out[69]: '你好python'

Ⅳ python unicode麻烦帮我按句解释下，unicode（）函数作用到底是什么

UNICODE函数wei 预先编写的公式，可以对一个或多个值执行运算，并返回一个或多个值。函数可以简化和缩短工作表中的公式，尤其在用公式执行很长或复杂的计算时的公式语法和用法。如果文本包含部分代理项或数据类型无效，则UNICODE返回错误值#VALUE!。

Unicode通常用两个字节表示一个字符，原有的英文编码从单字节变成双字节，只需要把高字节全部填为0就可以。

因为Python的诞生比Unicode标准发布的时间还要早，所以最早的Python只支持ASCII编码，普通的字符串ABC在Python内部都是ASCII编码的。

(4)python显示unicode扩展阅读

Unicode为了解决传统的字符编码方案的局限而产生的，例如ISO 8859所定义的字符虽然在不同的国家中广泛地使用，可是在不同国家间却经常出现不兼容的情况。

很多传统的编码方式都有一个共同的问题，即容许电脑处理双语环境（通常使用拉丁字母以及其本地语言），但却无法同时支持多语言环境（指可同时处理多种语言混合的情况）。

Unicode编码包含了不同写法的字，如“ɑ/a”、“户/户/戸”。然而在汉字方面引起了一字多形的认定争议。

导航:首页 > 编程语言 > python显示unicode

python显示unicode

与python显示unicode相关的资料