导航:首页 > 编程语言 > python显示unicode

python显示unicode

发布时间:2023-04-04 22:54:21

python123汉字的unicode编码值

python的默认编码是ascii,可以通过sys.setdefaultencoding('utf-8')函数设置python的默认编码。

python中可以通过encode和decode的方式改变数据的编码,比如:

>>> u'汉字'

u'\u6c49\u5b57'

>>> u'汉字'.encode('utf-8')

'\xe6\xb1\x89\xe5\xad\x97'

>>> u'汉字'.encode('utf-8').decode('utf-8')

u'\u6c49\u5b57'

我们可以通过这两个函数设置编码。

那么,python中的str是什么类型?

>>> import binascii

>>> '汉字'

'\xba\xba\xd7\xd6'

>>> type('汉字')

>>> print binascii.b2a_hex('汉字')

babad7d6

>>> print binascii.b2a_hex(u'汉字')

Traceback (most recent call last):

File "", line 1, in

UnicodeEncodeError: 'ascii' codec can't encode characters in

position 0-1: ordinal not in range(128)

>>> print binascii.b2a_hex(u'汉字'.encode('utf-8'))

e6b189e5ad97

>>> print binascii.b2a_hex(u'汉字'.encode('gbk'))

babad7d6

binascii是将数据的二进制转换成ascii,上面的解释是:‘汉字'的类型是str,二进制是babad7d6,u‘汉字'是无法转换成ascii,这样就报出了开头的第一个错误。解决办法就是把它.encode(‘utf-8')成str类型。因为我命令行是windows默认的GBK编码,所有u'汉字'.encode(‘gbk')的时候,输出结果和‘汉字'结果一样。

Ⅱ python print出unicode码怎么办

defchar_ok_but_show_messy():
"""
,withsomeencoding,
"""
#此处,当前Python文件是UTF-8编码的,所以如下的字符串,是UTf-8编码的
cnUtf8Char="我是UTF-8的中文字符串";
#所以,将UTF-8编码的字滑樱符串,打印输出到GBK编码的命令行(Windows的cmd)中,就会显示出乱码
print"cnUtf8Char=",cnUtf8Char;#cnUtf8Char=鎴戞槸UTF-8镄勪腑鏂囧瓧绗︿覆
#如果想要正确显示出中文字符,不显示乱码的话,则有两种选择:
#1.把字信磨丛符串转换为Unicode编码,则输出到GBK的命令行时,Python会自动将Unicode的字符串,编码为GBK,然后正确显示字符
decodedUnicodeChar=cnUtf8Char.decode("UTF-8");
print"decodedUnicodeChar=",decodedUnicodeChar;#decodedUnicodeChar=我是UTF-8的中文字符串
#2.让字符串的编码和输入目标(windows的cmd)的编码一致:把当前的字符串(由上述解码后得到的Unicode再次去编码)也变成GBK,然后输出到GBK的命令行时,就可以正确游吵显示了
reEncodedToGbkChar=decodedUnicodeChar.encode("GBK");
print"reEncodedToGbkChar=",reEncodedToGbkChar;#reEncodedToGbkChar=我是UTF-8的中文字符串


###############################################################################
if__name__=="__main__":
char_ok_but_show_messy();

Ⅲ 如何理解python3的unicode,以及全角半角转换

1. unicode是一个编码的standard,表明了字符与数字之间的映射,是可变长的。

2. 映射后的数据如何编码为字节?这个就是具体的编码规则:目前最主流的是UTF-8,同样,它也是变字长的。

python3中的str都是unicode的:“The default encoding for Python source code is UTF-8”

python3中的encode:按照encode()括号中的参数对字符串进行编码,就是生成bytes。

所以:

In:'中文'.encode('utf-8')
Out:b'\xe4\xb8\xad\xe6\x96\x87'

这里的b就是Byte,\x表示这个x是被转义的,意思就是0x。又如:

In: 'abc'.encode('utf-8')

Out: b'abc'

上面的b'a'其实表示的是数字97,b'a'的意思就是字符串'a'的binary数字:

[In]:'abc'.encode('utf-8')[0]

[Out]: 97

同时可以把b'\x'进行解码,即:
In:b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
Out:'中文'
除了encode('utf-8')外,用ord可以获得单个utf-8字符对应的数字:

In [60]: ord('a')
Out[60]: 97
In [61]: ord('a')#这个是全角的a
Out[61]: 65345

除了decode('utf-8')外,用chr可以获得数字对应的utf-8字符:

In [62]: chr(97)
Out[62]: 'a'

除了unicode还有别的编码标准吗?有啊,比如我国的GBK,别名也叫cp936。

全角和半角之分,是指同样一个意义的字符,显示的大小不同.具体来说,全角和半角的编码是两个结果:

In [70]: "mn".encode('utf-8')
Out[70]: b'\xef\xbd\x8d\xef\xbd\x8e
[In]:"mn".encode('utf-8')

[Out]:b'mn'

它们有什么对应关系呢?(引自这里)

转换说明
全角半角转换说明
有规律(不含空格):
全角字符unicode编码从65281~65374 (十六进制 0xFF01 ~ 0xFF5E)
半角字符unicode编码从33~126 (十六进制 0x21~ 0x7E)
特例:
空格比较特殊,全角为 12288(0x3000),半角为 32(0x20)
除空格外,全角/半角按unicode编码排序在顺序上是对应的(半角 + 0x7e= 全角),所以可以直接通过用+-法来处理非空格数据,对空格单独处理。
代码在此基础上改动一下(将unichr改为chr即可,适应python3),即:

def strQ2B(ustring):
"""全角转半角"""
rstring = ""
for uchar in ustring:
inside_code=ord(uchar)
if inside_code == 12288: #全角空格直接转换
inside_code = 32
elif (inside_code >= 65281 and inside_code <= 65374): #全角字符(除空格)根据关系转化
inside_code -= 65248
rstring += chr(inside_code)
return rstring

In [69]: strQ2B('你好python')
Out[69]: '你好python'

Ⅳ python unicode麻烦帮我按句解释下,unicode()函数作用到底是什么

UNICODE函数wei 预先编写的公式,可以对一个或多个值执行运算,并返回一个或多个值。函数可以简化和缩短工作表中的公式,尤其在用公式执行很长或复杂的计算时的公式语法和用法。如果文本包含部分代理项或数据类型无效,则UNICODE返回错误值#VALUE!。

Unicode通常用两个字节表示一个字符,原有的英文编码从单字节变成双字节,只需要把高字节全部填为0就可以。

因为Python的诞生比Unicode标准发布的时间还要早,所以最早的Python只支持ASCII编码,普通的字符串ABC在Python内部都是ASCII编码的。



(4)python显示unicode扩展阅读

Unicode为了解决传统的字符编码方案的局限而产生的,例如ISO 8859所定义的字符虽然在不同的国家中广泛地使用,可是在不同国家间却经常出现不兼容的情况。

很多传统的编码方式都有一个共同的问题,即容许电脑处理双语环境(通常使用拉丁字母以及其本地语言),但却无法同时支持多语言环境(指可同时处理多种语言混合的情况)。

Unicode编码包含了不同写法的字,如“ɑ/a”、“户/户/戸”。然而在汉字方面引起了一字多形的认定争议。

阅读全文

与python显示unicode相关的资料

热点内容
php论坛实训报告 浏览:403
java日期字符串转换成日期 浏览:135
linuxsftp连接 浏览:934
光伏日发电量算法 浏览:125
小肚皮app怎么才有vip 浏览:616
php全角转换半角 浏览:927
java字符序列 浏览:539
杭州编译分布式存储区块链 浏览:575
材料压缩曲线 浏览:247
linux命令排序 浏览:151
手机热点加密为啥连接不上电脑 浏览:979
编译器合并计算 浏览:959
android音频曲线 浏览:343
linuxftp自动登录 浏览:802
运行编译后网页 浏览:70
阅读app怎么使用 浏览:319
centos防火墙命令 浏览:432
命令行变更 浏览:332
linux设备和驱动 浏览:207
加密货币骗局破案 浏览:345