导航:首页 > 编程语言 > python编码强制转换

python编码强制转换

发布时间:2023-02-09 23:02:04

python 编码转换与中文处理

python 中的 unicode 是让人很困惑、比较难以理解的问题. 这篇文章 写的比较好, utf-8是 unicode的一种实现方式,unicode、gbk、gb2312是编码字符集.

Python 默认脚本文件都是 ANSCII 编码的,当文件 中有非 ANSCII 编码范围内的字符的时候就要使用" 编码指示 "来修正一个 mole 的定义中,如果.py文件中包含中文字符(严格的说是含有非anscii字符),则需要在第一行或第二行指定编码声明: # -*- coding=utf-8 -*- 或者 #coding=utf-8
其他的编码如:gbk、gb2312也可以;否则会出现:

先说一下python中的字符串类型,在python中有两种字符串类型,分别是 str 和 unicode ,他们都是basestring的派生类;

在str的文档中有这样的一句话:

也就是说在读取一个文件的内容,或者从网络上读取到内容时,保持的对象为str类型;如果想把一个str转换成特定编码类型,需要把str转为Unicode,然后从unicode转为特定的编码类型如:utf-8、gb2312等。

unicode 转为 gb2312,utf-8等,使用 encode(encoding)

utf-8,GBK转换为 unicode 使用 unicode(s,encoding) 或者 s.decode(encoding)

普通的 str 转为 unicode,

如果直接执行s.encode('gb2312')会发生什么?

这里会发生一个异常:Python 会自动的先将 s 解码为 unicode ,然后再编码成 gb2312。因为解码是python自动进行的,我们没有指明解码方式,python 就会使用 sys.defaultencoding 指明的方式来解码。很多情况下 sys.defaultencoding 是 ANSCII,如果 s 不是这个类型就会出错。
拿上面的情况来说,我的 sys.defaultencoding 是 anscii,而 s 的编码方式和文件的编码方式一致,是 utf8 的,所以出错了:

对于这种情况,我们有两种方法来改正错误:

s = '中文'
s.decode('utf-8').encode('gb2312') ```

import sys
reload(sys) # Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法,我们需要重新载入
sys.setdefaultencoding('utf-8')
str = '中文'
str.encode('gb2312')

print open("Test.txt").read()

import codecs
print open("Test.txt").read().decode("utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
print open("Test.txt").read().decode("utf-8")
UnicodeEncodeError: 'gbk' codec can't encode character u'ufeff' in position 0: illegal multibyte sequence

import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")

s = "中文"
print unicode(s, "utf-8")

Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
s = unicode(s, "utf-8")
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data

s = "中文"
print unicode(s, "gbk")

s = "中文"
print unicode(s, "cp936")

㈡ python 编码转换

A. Usage decode/encode:

def utf2gbk(s):
''' 按utf-8解码,再按gbk编码 '''
return s.decode('utf-8').encode('gbk')

with open(fname) as handle:
for ln in handle:
print utf2gbk(ln)

B. Usage codecs:

import codecs

env_coding='gbk' # 设置一个系统环境编码
with codecs.open(fname, 'r', 'utf-8') as handle:
for ln in handle:
# print ln # 此时的ln是unicode
print ln.encode(env_coding) # 按设定系统环境编码输出

㈢ python字符编码转换

decode的作用是将其他编码的字符串转换成unicode编码,如str1.decode('gb2312'),表示将gb2312编码的字符串转换成unicode编码。

encode的作用是将unicode编码转换成其他编码的字符串,如str2.encode('gb2312'),表示将unicode编码的字符串转换成gb2312编码。

㈣ Python 怎么做强制类型转换

a=5
printstr(a)

㈤ python将八个0的字符串强制转成整型返回什么

python中强制将字符串转换为数字的方法:

1、python中可以使用int()函数将字符串转换为整型数字,int() 函数用于将一个字符串或数字转换为整型。

int() 方法的语法:class int(x, base=10)

参数

x -- 字符串或数字。

base -- 进制数,默认十进制。

返回值:返回整型数据。

示例:>>> s1 = '999'

>>> if s1.isdigit():

num1 = int(s1)

>>> type(num1)

>>> num1

999

2、使用float()函数将字符串转换为浮点数

float() 函数用于将整数和字符串转换成浮点数。

float()方法语法:class float([x])

参数

x -- 整数或字符串

返回值:返回浮点数。

示例:>>> s2 = '999.888'

>>> if s2.isdigit():

num2 = float(s2)

>>> type(num2)

Traceback (most recent call last):

File "", line 1, in

type(num2)

NameError: name 'num2' is not defined

>>>

>>> s2.isdigit()

False

>>> s2 = '999.888'

>>> num2 = float(s2)

>>> type(num2)

>>> num2

999.888

>>>

㈥ Python3强制类型转换问题,谢谢大佬解答

提示说的很清楚了,转换成int必须是字符串,但你的是列表。你的plist中的元素是列表当然不能转换成int类型,看你的第四行。

㈦ python 字符串格式的unicode编码转中文

 python对于Unicode编码可以使用decode进行转换成中文:

>>> str = b'\xe8\xb4\xb9\xe8\x84\x91\xe5\xad\x90'

>>> str.decode('utf-8')

'费脑子'

如果是字符串类型的Unicode编码没办法直接用decode进行转换:

>>> str ="\\xe8\\xb4\\xb9\\xe8\\x84\\x91\\xe5\\xad\\x90"

>>> str.decode('utf-8')

Traceback (most recent call last):

  File "<stdin>", line 1, in <mole>

AttributeError: 'str' object has no attribute 'decode'

处理方式:

>>> str = eval("b" + "\"" + str + "\"")

>>> str.decode('utf-8')

'费脑子'

㈧ python编码转换:ascii和GB2312的问题

供参考。gb312本来就是标准ascii的一种扩充,ascii可以视同为gb312的子集。所以,如果var的值全部是在ascii里面的话,转成gb312后也还是属于ascii,所以使用detect函数的时候,编码还是ascii(当然同时也属于gb312);如果var的值不是全部在ascii里面的话,语句var = var.decode('ascii')可能会出错。
只要var的值是英文(内码0-127),转换不转换,都已经是gb2312编码。

㈨ python怎么转换unicode编码

用decode()就行。decode()方法必须传入一个参数,这个参数就是当前待转码的编码,此函数方法的用意就是将当前编码为Unicode编码。

比如就你这提问的此页面:

#使用版本是python2.
importurllib
url='https://..com/question/1499967322379602619.html?entry=qb_ihome_tag&hideOtherAnswer=true&newAnswer=1'
html=urllib.urlopen(url).read()
result=html.decode('gbk')
printresult

方法是绝对可行的

此法对字符串和文档内容的解码一样有效。

阅读全文

与python编码强制转换相关的资料

热点内容
ug如何启动服务器 浏览:444
csgo防抖动命令 浏览:960
如何弄到手机app页面的源码 浏览:441
androidwindows7破解版 浏览:363
解压视频动画怎么拍 浏览:748
连涨启动源码 浏览:163
小奔运动app网络异常怎么回事 浏览:449
php开启压缩 浏览:305
服务器主机如何设置启动 浏览:284
linux配置网络命令 浏览:776
一张照片怎么制作视频app 浏览:910
pythonweb和php 浏览:978
电脑服务器地址ip地址 浏览:824
对矩阵压缩是为了 浏览:913
setfacl命令 浏览:176
linux子系统中断 浏览:344
linux查看进程ps 浏览:228
知识库系统php 浏览:626
小波变换压缩图像python 浏览:154
阿里巴巴程序员怎么月入百万 浏览:177