㈠ python 字元串格式的unicode編碼轉中文
python對於Unicode編碼可以使用decode進行轉換成中文:
>>> str = b'\xe8\xb4\xb9\xe8\x84\x91\xe5\xad\x90'
>>> str.decode('utf-8')
'費腦子'
如果是字元串類型的Unicode編碼沒辦法直接用decode進行轉換:
>>> str ="\\xe8\\xb4\\xb9\\xe8\\x84\\x91\\xe5\\xad\\x90"
>>> str.decode('utf-8')
Traceback (most recent call last):
File "<stdin>", line 1, in <mole>
AttributeError: 'str' object has no attribute 'decode'
處理方式:
>>> str = eval("b" + "\"" + str + "\"")
>>> str.decode('utf-8')
'費腦子'
㈡ python怎麼轉換unicode編碼
用decode()就行。decode()方法必須傳入一個參數,這個參數就是當前待轉碼的編碼,此函數方法的用意就是將當前編碼為Unicode編碼。
比如就你這提問的此頁面:
#使用版本是python2.
importurllib
url='https://..com/question/1499967322379602619.html?entry=qb_ihome_tag&hideOtherAnswer=true&newAnswer=1'
html=urllib.urlopen(url).read()
result=html.decode('gbk')
printresult
方法是絕對可行的
此法對字元串和文檔內容的解碼一樣有效。
㈢ python2 怎麼將unicode編碼轉成中文
1、python2與python3稍微有點區別
2、python2中默認的字元編碼格式都是unicode,在字元串前加'u',表示unicode 編碼
3、將unicode轉換成中文,只需要用deconde解碼就可以了!
㈣ python中怎樣將unicode轉換成原來的中文
python默認就是unicode存儲。如果是從文件讀取的,在open的參數中指定encoding關鍵字參數就行。如下:
#coding=utf-8/importjson /defLoadQuestion(): /f=open("test.json",'r') qas=json.load(f) question=qas['documents'] /returnquestion/t=LoadQuestion() /printstr(t).decode("unicode-escape")
通常python2時所有IO讀寫都是byte方式。也就是編碼後的。java也是這樣子。只有python3還有某些特定的模塊才會自動將byte重新轉換成unicode
在python2里的確可以使用s.decode('gbk','ignore')之類的變成unicode。不過在python3里應該是這樣子, s.encode('gbk','ignore')這樣就變成了byte
如果你喜歡 utf-8,可以s.encode(『utf-8','ignore')和s.decode(『utf-8','ignore')
㈤ python怎麼把字元串變成數字格式化
1. python 字元與數字如何轉換
python中字元與數字相互轉換用chr()即可。
python中的字元數字之間的轉換函數
int(x [,base ]) 將x轉換為一個整數
long(x [,base ]) 將x轉換為一個長整數
float(x ) 將x轉換到一個浮點數
plex(real [,imag ]) 創建一個復數
str(x ) 將對象 x 轉換為字元串
repr(x ) 將對象 x 轉換為表達式字元串
eval(str ) 用來計算在字元串中的有效Python表達式,並返回一個對象
tuple(s ) 將序列 s 轉換為一個元組
list(s ) 將序列 s 轉換為一個列表
chr(x ) 將一個整數轉換為一個字元
unichr(x ) 將一個整數轉換為Unicode字元
ord(x ) 將一個字元轉換為它的整數值
hex(x ) 將一個整數轉換為一個十六進制字元串
oct(x ) 將一個整數轉換為一個八進制字元串
chr(65)='A'
ord('A')=65
int('2')=2;
str(2)='2'
(5)pythonunicode格式化擴展閱讀:
python數字轉換為字元串主要包括兩種形式:第一種是str(),將值轉換為用戶便於閱讀的形式;另一種是repr(),將值轉換為合法的python表達式。
>>> print repr("Hello, world!")
'Hello, world!'
>>> print repr(10000L)
10000L
>>> print str("Hello, world!")
Hello, world!
>>> print str(10000L)
2. python怎麼實現字元串和數字的轉換
#py3
from functools import rece
DIGITS={'0':0,'1':1,'2':2,'3':3,'4':4,'5':5,'6':6,'7':7,'8':8,'9':9}
def char2num(s): #單個字元轉數字
return DIGITS[s]
def str2int(s):#整數字串轉化整數,不支持浮點數.浮點數得另寫一個
if s[0]=='-': #要判斷一下該數字有沒有符號
return -rece(lambda x,y:10*x+y,map(char2num,s[1::])) #返回負數
else:
return rece(lambda x,y:10*x+y,map(char2num,s)) #返回正數
a='-123'
print(100+str2int(a))
3. 關於python的字元串格式化
在python中也有類似於c中的printf()的格式輸出標記。
在python中格式化輸出字元串使用的是%運算符,通用的形式為格式標記字元串 % 要輸出的值組其中,左邊部分的」格式標記字元串「可以完全和c中的一致。右邊的'值組'如果有兩個及以上的值則需要用小括弧括起來,中間用短號隔開。
重點來看左邊的部分。左邊部分的最簡單形式為:%cdoe其中的code有多種,不過由於在python中,所有東西都可以轉換成string類型,因此,如果沒有什麼特殊需求完全可以全部使用'%s'來標記。
比如:'%s %s %s' % (1, 2.3, ['one', 'two', 'three'])它的輸出為'1 2.3 ['one', 'two', 'three']',就是按照%左邊的標記輸出的。雖然第一個和第二值不是string類型,一樣沒有問題。
在這個過程中,當電腦發現第一個值不是%s時,會先調用整型數的函數,把第一個值也就是1轉成string類型,然後再調用str()函數來輸出。前面說過還有一個repr()函數,如果要用這個函數,可以用%r來標記。
除了%s外,還有很多類似的code:整型數:%d無符號整型數:%u八進制:%o十六進制:%x %X浮點數:%f科學記數法: %e %E根據數值的不同自動選擇%e或%f: %g根據數值的不同自動選擇%E或%f: %G就跟前面說用\進行轉義一樣,這里用%作為格式標記的標識,也有一個%本身應該如何輸出的問題。如果要在」格式標記字元串「中輸出%本身,可以用%%來表示。
上面說的只是格式標記的最簡間的形式,來看復雜一點的:'%6.2f' % 1.235在這種形式中,在f的前面出現了一個類似小數的6.2它表示的意思是,總共輸出的長度為6個字元,其中小數2位。還有更復雜的:'%06.2f' % 1.235在6的前面多了一個0,表示如果輸出的位數不足6位就用0補足6位。
這一行的輸出為'001.24',可以看到小數也佔用一位。類似於這里0這樣的標記還有-、+。
其中,-表示左對齊,+表示在正數前面也標上+號,默認是不加的。最後來看最復雜的形式:'%(name)s:%(score)06.1f' %{'score':9.5, 'name':'newsim'}這種形式只用在要輸出的內容為dictionary(一種python的數據類型)時,小括弧中的(name)和(score)對應於後面的鍵值對中的鍵。
前面的例子可以看到,」格式標記字元串「中標記的順序和"要輸出的值組"中的值是一一對應的,有順序,一對一,二對二。而在這種形式中,則不是,每個格式標記對應哪個值由小括弧中的鍵來指定。
這行代碼的輸出為:'newsim:0009.5'。有時候在%6.2f這種形式中,6和2也不能事先指定,會在程序運行過程中再產生,那怎麼輸入呢,當然不能用%%d.%df或%d.%d%f。
可以用%*.*f的形式,當然在後面的」要輸出的值組「中包含那兩個*的值。比如:'%*.*f' % (6, 2, 2.345)就相當於'%6.2f' % 2.345。
這是這本書到此為止看起來最復雜的內容。不過如果記不住,或不想那麼耐煩,完全可以全部用%s代替,或者用多個"+"來構造類似的輸出字元串。
這里的%真有點除法的味道,怪不得設計者會選擇用%這個除號。象C 中的sprintf函數一樣,可以用「%」來格式化字元串Table 3.1. 字元串格式化代碼格式 描述%% 百分號標記%c 字元及其ASCII碼%s 字元串%d 有符號整數(十進制)%u 無符號整數(十進制)%o 無符號整數(八進制)%x 無符號整數(十六進制)%X 無符號整數(十六進制大寫字元)%e 浮點數字(科學計數法)%E 浮點數字(科學計數法,用E代替e)%f 浮點數字(用小數點符號)%g 浮點數字(根據值的大小採用%e或%f)%G 浮點數字(類似於%g)%p 指針(用十六進制列印值的內存地址)%n 存儲輸出字元的數量放進參數列表的下一個變數中。