⑴ 如何用python将utf8编码的16进制字符串转换成对应的文字
#coding:utf-8
'''
参考用
mystery=b"xe5x88xab"
x=mystery.decode('utf-8')
print(x)
y=bytearray.fromhex(xe5x88xab).decode()
print(y)
'''
var=1
whilevar==1:
a=input('输入UTF-8的16进制编码: ')
b=list(a)
#print(b)
leng=len(b)
i=0
while(i<(1.5*leng)):
b.insert(i,'\x')
i+=3
#print(b)
c=str(''.join(b))
#print(c)
d='b'+"'"+c+"'"
#print(d)
x=eval(d).decode('utf8')
print('转换结果为: {} '.format(x))
我这个是输入没有x这种形式的,如输入“44”(代表“D”的16进制UTF8码),输出"D"
如果你需要输入形如x44这种,需要自己修改一下。
⑵ python字符串与url编码的转换实例
python字符串与url编码的转换实例
今天小编就为大家分享一篇python字符串与url编码的转换实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
主要应用的场景
爬虫生成带搜索词语的网址
1.字符串转为url编码
import urllib
poet_name = "李白"
url_code_name = urllib.quote(poet_name)
print url_code_name
#输出
#%E6%9D%8E%E7%99%BD
2.url编码转为字符串
import urllib
url_code_name = "%E6%9D%8E%E7%99%BD"
name = urllib.unquote(url_code_name)
print name
#输出
#李白
以上这篇python字符串与url编码的转换实例就是小编分享给大家的全部内容了篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助
⑶ Python处理字符串必备方法
字符串是Python中基本的数据类型,几乎在每个Python程序中都会使用到它。
▍1、Slicing
slicing切片,按照一定条件从列表或者元组中取出部分元素(比如特定范围、索引、分割值)
▍2、****strip()
strip()方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列。
在使用strip()方法时,默认去除空格或换行符,所以#号并没有去除。
可以给strip()方法添加指定字符,如下所示。
此外当指定内容不在头尾处时,并不会被去除。
第一个 前有个空格,所以只会去取尾部的换行符。
最后strip()方法的参数是剥离其值的所有组合,这个可以看下面这个案例。
最外层的首字符和尾字符参数值将从字符串中剥离。字符从前端移除,直到到达一个不包含在字符集中的字符串字符为止。
在尾部也会发生类似的动作。
▍3、****lstrip()
移除字符串左侧指定的字符(默认为空格或换行符)或字符序列。
同样的,可以移除左侧所有包含在字符集中的字符串。
▍4、rstrip()
移除字符串右侧指定的字符(默认为空格或换行符)或字符序列。
▍5、****removeprefix()
Python3.9中移除前缀的函数。
和strip()相比,并不会把字符集中的字符串进行逐个匹配。
▍6、removesuffix()
Python3.9中移除后缀的函数。
▍7、****replace()
把字符串中的内容替换成指定的内容。
▍8、****re.sub()
re是正则的表达式,sub是substitute表示替换。
re.sub则是相对复杂点的替换。
和replace()做对比,使用re.sub()进行替换操作,确实更高级点。
▍9、****split()
对字符串做分隔处理,最终的结果是一个列表。
当不指定分隔符时,默认按空格分隔。
此外,还可以指定字符串的分隔次数。
▍10、****rsplit()
从右侧开始对字符串进行分隔。
▍11、****join()
string.join(seq)。以string作为分隔符,将seq中所有的元素(的字符串表示)合并为一个新的字符串。
▍12、****upper()
将字符串中的字母,全部转换为大写。
▍13、****lower()
将字符串中的字母,全部转换为小写。
▍14、capitalize()
将字符串中的首个字母转换为大写。
▍15、****islower()
判断字符串中的所有字母是否都为小写,是则返回True,否则返回False。
▍16、isupper()
判断字符串中的所有字母是否都为大写,是则返回True,否则返回False。
▍17、****isalpha()
如果字符串至少有一个字符并且所有字符都是字母,则返回 True,否则返回 False。
▍18、isnumeric()
如果字符串中只包含数字字符,则返回 True,否则返回 False。
▍19、isalnum()
如果字符串中至少有一个字符并且所有字符都是字母或数字,则返回True,否则返回 False。
▍20、count()
返回指定内容在字符串中出现的次数。
▍21、****find()
检测指定内容是否包含在字符串中,如果是返回开始的索引值,否则返回-1。
此外,还可以指定开始的范围。
▍22、rfind()
类似于find()函数,返回字符串最后一次出现的位置,如果没有匹配项则返回 -1。
▍23、startswith()
检查字符串是否是以指定内容开头,是则返回 True,否则返回 False。
**
**
▍24、****endswith()
检查字符串是否是以指定内容结束,是则返回 True,否则返回 False。
▍25、****partition()
string.partition(str),有点像find()和split()的结合体。
从str出现的第一个位置起,把字符串string分成一个3 元素的元组(string_pre_str,str,string_post_str),如果string中不包含str则 string_pre_str==string。
▍26、center()
返回一个原字符串居中,并使用空格填充至长度width的新字符串。
▍27、ljust()
返回一个原字符串左对齐,并使用空格填充至长度width的新字符串。
▍28、rjust()
返回一个原字符串右对齐,并使用空格填充至长度width的新字符串。
▍29、f-Strings
f-string是格式化字符串的新语法。
与其他格式化方式相比,它们不仅更易读,更简洁,不易出错,而且速度更快!
▍30、swapcase()
翻转字符串中的字母大小写。
▍31、zfill()
string.zfill(width)。
返回长度为width的字符串,原字符串string右对齐,前面填充0。
参考文献: https://mp.weixin.qq.com/s/9cuO-KL3g9ldqRGGZBVnjw
⑷ Python 编码转换与中文处理
python 中的 unicode 是让人很困惑、比较难以理解的问题. 这篇文章 写的比较好, utf-8是 unicode的一种实现方式,unicode、gbk、gb2312是编码字符集.
Python 默认脚本文件都是 ANSCII 编码的,当文件 中有非 ANSCII 编码范围内的字符的时候就要使用" 编码指示 "来修正一个 mole 的定义中,如果.py文件中包含中文字符(严格的说是含有非anscii字符),则需要在第一行或第二行指定编码声明: # -*- coding=utf-8 -*- 或者 #coding=utf-8
其他的编码如:gbk、gb2312也可以;否则会出现:
先说一下python中的字符串类型,在python中有两种字符串类型,分别是 str 和 unicode ,他们都是basestring的派生类;
在str的文档中有这样的一句话:
也就是说在读取一个文件的内容,或者从网络上读取到内容时,保持的对象为str类型;如果想把一个str转换成特定编码类型,需要把str转为Unicode,然后从unicode转为特定的编码类型如:utf-8、gb2312等。
unicode 转为 gb2312,utf-8等,使用 encode(encoding)
utf-8,GBK转换为 unicode 使用 unicode(s,encoding) 或者 s.decode(encoding)
普通的 str 转为 unicode,
如果直接执行s.encode('gb2312')会发生什么?
这里会发生一个异常:Python 会自动的先将 s 解码为 unicode ,然后再编码成 gb2312。因为解码是python自动进行的,我们没有指明解码方式,python 就会使用 sys.defaultencoding 指明的方式来解码。很多情况下 sys.defaultencoding 是 ANSCII,如果 s 不是这个类型就会出错。
拿上面的情况来说,我的 sys.defaultencoding 是 anscii,而 s 的编码方式和文件的编码方式一致,是 utf8 的,所以出错了:
对于这种情况,我们有两种方法来改正错误:
s = '中文'
s.decode('utf-8').encode('gb2312') ```
import sys
reload(sys) # Python2.5 初始化后会删除 sys.setdefaultencoding 这个方法,我们需要重新载入
sys.setdefaultencoding('utf-8')
str = '中文'
str.encode('gb2312')
print open("Test.txt").read()
import codecs
print open("Test.txt").read().decode("utf-8")
Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
print open("Test.txt").read().decode("utf-8")
UnicodeEncodeError: 'gbk' codec can't encode character u'ufeff' in position 0: illegal multibyte sequence
import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")
s = "中文"
print unicode(s, "utf-8")
Traceback (most recent call last):
File "ChineseTest.py", line 3, in <mole>
s = unicode(s, "utf-8")
UnicodeDecodeError: 'utf8' codec can't decode bytes in position 0-1: invalid data
s = "中文"
print unicode(s, "gbk")
s = "中文"
print unicode(s, "cp936")
⑸ Python字符编码使用什么码
在python 2中默认编码是ASCII,而在python 3中默认编码是unicode。
⑹ Python濡备綍灏哢nicode涓鏂囧瓧绗︿覆杞鎹㈡垚 string瀛楃︿覆
Unicode瀛楃︿覆鍙浠ョ敤澶氱嶆柟寮忕紪镰佷负鏅阃氩瓧绗︿覆锛屽亣璁緐nicodestring = u"Hello world"锛屼緷镦ф墍阃夋嫨镄勭紪镰(encoding)锛屽备笅锛
1銆#灏哢nicode杞鎹㈡垚鏅阃氱殑Python瀛楃︿覆:"缂栫爜(encode)"銆
镓╁𪾢璧勬枡锛
Python杞鎹㈠瓧绗﹀拰瀛楃︿覆镄勫师锲狅细涓轰简澶勭悊涓嶉傚悎鐢ˋSCII瀛楃﹂泦琛ㄧず镄勬暟鎹銆
鍦ㄤ互ASCII镰佷负涓蹇幂殑璇瑷鍜岀幆澧冧腑锛屽瓧鑺傚拰瀛楃﹁褰揿仛鐩稿悓镄勪簨鐗┿傜敱浜庝竴涓瀛楄妭鍙鑳芥湁256涓鍊硷纴杩欎簺鐜澧冨氨鍙楅檺涓哄彧鏀鎸256涓瀛楃Unicode镰侊纴鍙︿竴鏂归溃锛屾湁鏁颁竾涓瀛楃︼纴闾f剰璋撶潃姣忎釜Unicode瀛楃﹀崰鐢ㄥ氢釜瀛楄妭锛屽洜姝わ纴浣犻渶瑕佸湪瀛楃﹀拰瀛楄妭涔嬮棿浣滃嚭鍖哄埆銆
锛1锛塙TF-8缂栫爜鑳藉勭悊浠讳綍镄刄nicode瀛楃︺傚畠涔熸槸涓峣SCII镰佸悜钖庡吋瀹圭殑锛屽洜姝や竴涓绾绮圭殑ASCII镰佹枃浠朵篃鑳借钥冭槛涓轰竴涓猆TF-8鏂囦欢锛岃屼笖涓涓纰板阀鍙浣跨敤ASCII镰佸瓧绗︾殑 UTF-8鏂囦欢鍜屾嫢链夊悓镙峰瓧绗︾殑ASCII镰佹枃浠舵槸鐩稿悓镄勚
杩欎釜鐗规т娇寰杆TF-8镄勫悜钖庡吋瀹规ч潪甯稿ソ,灏ゅ叾浣跨敤杈冩棫镄刄nix宸ュ叿镞躲俇TF-8 镞犵枒鍦版槸鍦 Unix涓婄殑鍗犱紭锷跨殑缂栫爜銆傚畠涓昏佺殑寮辩偣鏄瀵逛笢鏂规枃瀛楁槸闱炲父浣庢晥镄勚
锛2锛塙TF-16缂栫爜鍦ㄥ井杞镄勬搷浣灭郴缁熷拰Java鐜澧冧笅鍙楀埌锅忕埍銆傚畠瀵硅タ鏂硅瑷鏄姣旇缉浣庢晥,浣嗗逛簬涓沧柟璇瑷鏄镟存湁鏁堢巼镄勚备竴涓猆TF-16 镄勫彉浣撴湁镞跺彨浣淯CS-2 銆
锛3锛塈SO-8859缂栫爜绯诲垪鏄256涓瀛楃︾殑ASCII镰佺殑瓒呴泦銆备粬浠涓嶈兘澶熸敮鎻存墍链夌殑Unicode镰佸瓧绗;浠栦滑鍙鑳芥敮鎻翠竴浜涚壒鍒镄勮瑷鎴栬瑷瀹舵棌銆
ISO-8859-1,涔熸棦Latin-1,鍖呮嫭澶у氭暟镄勮タ娆у拰闱炴床璇瑷,浣嗘槸涓嶅惈阒挎媺浼璇銆侷SO-8859-2,涔熸棦Latin-2,鍖呮嫭璁稿氢笢娆х殑璇瑷,镀忔槸鍖堢堕鍒╄鍜屾尝鍏拌銆
鍙傝冭祫鏂欙细
锏惧害锏剧--Unicode