1. python怎麼將字元串轉化為八位二進制
這是我寫的一段程序,可以實現將字元串轉為二進制。
基本思路:
1,將一個字元串轉換為字元。這里採用了迭代器__iter__()內置函數,即可實現這個方法
2,將每一個字元轉換為十進制,再轉化為二進制。bin()函數只能將一個十進制函數轉換為二進制,ord()函數可以將一個字元轉換為十進制(實質就是這個字元的unicode編號),如此就實現了不同計數方法之間的轉化
2. python怎麼轉換unicode編碼
用decode()就行。decode()方法必須傳入一個參數,這個參數就是當前待轉碼的編碼,此函數方法的用意就是將當前編碼為Unicode編碼。
比如就你這提問的此頁面:
#使用版本是python2.
importurllib
url='https://..com/question/1499967322379602619.html?entry=qb_ihome_tag&hideOtherAnswer=true&newAnswer=1'
html=urllib.urlopen(url).read()
result=html.decode('gbk')
printresult
方法是絕對可行的
此法對字元串和文檔內容的解碼一樣有效。
3. 執行python腳本出現亂碼怎麼解決
執行python腳本出現亂碼的解決方法:首先把中文解碼為unicode,具體方法如:【decode('utf-8')】;然後再轉化為gbk即可,具體方法如:【encode('gbk')】。
問題:
代碼中指定了UTF-8編碼,但是在cmd命令行窗口時列印的中文仍然會亂碼。
(推薦教程:Python入門教程)
原因:
windows下中文默認的輸出編碼為gbk ,與腳本中定義的UTF-8不一樣,所以出現了解碼失敗的情況。
解決方法:
可以先把中文解碼為unicode,然後再轉化為gbk來解決這個問題。
舉例:
運行結果:
4. 關於python中字元編碼的問題
你說的是,把字元串:
\u3232\u6674
本身,轉換為unicode字元吧?
那麼可以通過:
slashUStr = "\\u3232\\u6674";
decodedUniChars = slashUStr.decode("unicode-escape");
print "decodedUniChars=",decodedUniChars; #decodedUniChars= (有) 晴
註:(有) 是個特殊字元,如果想要在cmd(默認為gbk)中列印,會出錯的。
UnicodeEncodeError: 'gbk' codec can't encode character u'\u3232' in position 0: illegal multibyte sequence
但是,本身的確已經是轉換好了unicode字元串了。
詳情可參考:
【整理】Python中,如何將反斜杠u類型(\uXXXX)的字元串,轉換為對應的unicode的字元
(此處不能貼地址,請用google搜標題,即可找到帖子地址)
5. Python如何將Unicode中文字元串轉換成 string字元串
Unicode字元串可以用多種方式編碼為普通字元串,假設unicodestring = u"Hello world",依照所選擇的編碼(encoding),如下:
1、#將Unicode轉換成普通的Python字元串:"編碼(encode)"。
(5)python轉為unicode擴展閱讀:
Python轉換字元和字元串的原因:為了處理不適合用ASCII字元集表示的數據。
在以ASCII碼為中心的語言和環境中,位元組和字元被當做相同的事物。由於一個位元組只能有256個值,這些環境就受限為只支持256個字元Unicode碼,另一方面,有數萬個字元,那意謂著每個Unicode字元佔用多個位元組,因此,你需要在字元和位元組之間作出區別。
(1)UTF-8編碼能處理任何的Unicode字元。它也是與ASCII碼向後兼容的,因此一個純粹的ASCII碼文件也能被考慮為一個UTF-8文件,而且一個碰巧只使用ASCII碼字元的 UTF-8文件和擁有同樣字元的ASCII碼文件是相同的。
這個特性使得UTF-8的向後兼容性非常好,尤其使用較舊的Unix工具時。UTF-8 無疑地是在 Unix上的占優勢的編碼。它主要的弱點是對東方文字是非常低效的。
(2)UTF-16編碼在微軟的操作系統和Java環境下受到偏愛。它對西方語言是比較低效,但對於東方語言是更有效率的。一個UTF-16 的變體有時叫作UCS-2 。
(3)ISO-8859編碼系列是256個字元的ASCII碼的超集。他們不能夠支援所有的Unicode碼字元;他們只能支援一些特別的語言或語言家族。
ISO-8859-1,也既Latin-1,包括大多數的西歐和非洲語言,但是不含阿拉伯語。ISO-8859-2,也既Latin-2,包括許多東歐的語言,像是匈牙利語和波蘭語。
6. Python怎麼把ansi編碼的文本轉換為 unicode的文字
1.弄清楚,當前ansi的編碼是啥,比如是gbk
2。然後通過
decodedUnicodeStr = ansiGbkStr.decode("GBK");
就可以把ansiGbkStr解碼為對應的unicode字元了。
相關背景知識,可參考:
crifan 字元編碼詳解
(這里不給貼地址,所以請自己用google搜標題,即可找到帖子地址)