python中文字元串處理_python 中文亂碼問題

A. python 中文亂碼問題

記事本是用utf-8保存你下載了東西的。你下載下來的不是utf-8，保存下來中文當然就亂碼了。而gbk和utf-8里英文的編碼值都一樣，所以不受影響。

一個方法是你留意下目標頁面的charset 和 contentType，另一個方法是你復制一個目標頁面的字，放cmd里看它的編碼長度，以此來判斷它的原來編碼。

B. python瀛楃︿覆綾誨瀷鎬庝箞鎿嶄綔錛焢ython瀛楃︿覆綾誨瀷鐨勬搷浣滄柟娉

Python鏄涓闂ㄨ緝涓虹畝鍗曠殑緙栫▼璇璦銆

2.鎴戜滑鍦ㄥ彸渚х紪杈戝櫒涓榪涜岀紪杈戜唬鐮佸嚱鏁

3.鎺ヤ笅鏉ユ垜浠鍐嶇湅涓涓嬪瓧絎︿覆澶勭悊鍑芥暟錛屾彁渚涚殑鍐呯疆鍑芥暟

4.鐒跺悗鎴戜滑鐪嬩竴涓嬪瓧絎︿覆澶勭悊鏂規硶錛屾槸涓涓鍑芥暟鍙鏄璋冪敤鏂瑰紡涓嶅悓銆

5.鐪嬩竴涓嬪瓧絎︿覆澶勭悊鏂規硶璺熸弿榪拌〃鏍

6.鎴戜滑榪涜屽湪鍙充晶鐨勭紪杈戝櫒褰撲腑緙栬緫浠ｇ爜鍑芥暟

7.鎺ヤ笅鏉ョ湅涓涓嬪瓧絎︿覆澶勭悊鏂規硶錛屾煡鐪嬪瓧絎︿覆榪涜屽垎鍓茬┖鏍箋

浠ヤ笂灝辨槸鍏充簬鈥減ython瀛楃︿覆綾誨瀷鎬庝箞鎿嶄綔錛焢ython瀛楃︿覆綾誨瀷鐨勬搷浣滄柟娉曗濈殑鐩稿叧鍐呭瑰垎浜浜嗭紝甯屾湜瀵逛簬浣犵殑Python瀛︿範鏈夋墍甯鍔╋紒寰堝氬皬浼欎即闂錛歅ython鎬庝箞瀛︼紵鍏跺疄Python鎺屾彙鏄闇瑕侀樁孌墊х殑瀛︿範鐨勶紝瀛︿範Python闆跺熀紜鍔熻兘-Python緙栫▼鎶宸-Python鏍稿績鍘熺悊鍒嗘瀽寰搴忔笎榪涙柟鍙瀛︿細錛佹墍浠ワ紝鎯沖Python錛屼絾鏄鏃犱粠涓嬫墜錛屽氨鏉ョ窘鍏旓紝鐐瑰嚮閾炬帴錛

C. Python處理字元串必備方法

字元串是Python中基本的數據類型，幾乎在每個Python程序中都會使用到它。

▍1、Slicing

slicing切片，按照一定條件從列表或者元組中取出部分元素（比如特定范圍、索引、分割值）

▍2、****strip()

strip()方法用於移除字元串頭尾指定的字元（默認為空格或換行符）或字元序列。

在使用strip()方法時，默認去除空格或換行符，所以#號並沒有去除。

可以給strip()方法添加指定字元，如下所示。

此外當指定內容不在頭尾處時，並不會被去除。

第一個前有個空格，所以只會去取尾部的換行符。

最後strip()方法的參數是剝離其值的所有組合，這個可以看下面這個案例。

最外層的首字元和尾字元參數值將從字元串中剝離。字元從前端移除，直到到達一個不包含在字元集中的字元串字元為止。

在尾部也會發生類似的動作。

▍3、****lstrip()

移除字元串左側指定的字元（默認為空格或換行符）或字元序列。

同樣的，可以移除左側所有包含在字元集中的字元串。

▍4、rstrip()

移除字元串右側指定的字元（默認為空格或換行符）或字元序列。

▍5、****removeprefix()

Python3.9中移除前綴的函數。

和strip()相比，並不會把字元集中的字元串進行逐個匹配。

▍6、removesuffix()

Python3.9中移除後綴的函數。

▍7、****replace()

把字元串中的內容替換成指定的內容。

▍8、****re.sub()

re是正則的表達式，sub是substitute表示替換。

re.sub則是相對復雜點的替換。

和replace()做對比，使用re.sub()進行替換操作，確實更高級點。

▍9、****split()

對字元串做分隔處理，最終的結果是一個列表。

當不指定分隔符時，默認按空格分隔。

此外，還可以指定字元串的分隔次數。

▍10、****rsplit()

從右側開始對字元串進行分隔。

▍11、****join()

string.join(seq)。以string作為分隔符，將seq中所有的元素(的字元串表示)合並為一個新的字元串。

▍12、****upper()

將字元串中的字母，全部轉換為大寫。

▍13、****lower()

將字元串中的字母，全部轉換為小寫。

▍14、capitalize()

將字元串中的首個字母轉換為大寫。

▍15、****islower()

判斷字元串中的所有字母是否都為小寫，是則返回True，否則返回False。

▍16、isupper()

判斷字元串中的所有字母是否都為大寫，是則返回True，否則返回False。

▍17、****isalpha()

如果字元串至少有一個字元並且所有字元都是字母，則返回 True，否則返回 False。

▍18、isnumeric()

如果字元串中只包含數字字元，則返回 True，否則返回 False。

▍19、isalnum()

如果字元串中至少有一個字元並且所有字元都是字母或數字，則返回True，否則返回 False。

▍20、count()

返回指定內容在字元串中出現的次數。

▍21、****find()

檢測指定內容是否包含在字元串中，如果是返回開始的索引值，否則返回-1。

此外，還可以指定開始的范圍。

▍22、rfind()

類似於find()函數，返回字元串最後一次出現的位置，如果沒有匹配項則返回 -1。

▍23、startswith()

檢查字元串是否是以指定內容開頭，是則返回 True，否則返回 False。

**
**

▍24、****endswith()

檢查字元串是否是以指定內容結束，是則返回 True，否則返回 False。

▍25、****partition()

string.partition(str)，有點像find()和split()的結合體。

從str出現的第一個位置起,把字元串string分成一個3 元素的元組(string_pre_str,str,string_post_str)，如果string中不包含str則 string_pre_str==string。

▍26、center()

返回一個原字元串居中，並使用空格填充至長度width的新字元串。

▍27、ljust()

返回一個原字元串左對齊，並使用空格填充至長度width的新字元串。

▍28、rjust()

返回一個原字元串右對齊，並使用空格填充至長度width的新字元串。

▍29、f-Strings

f-string是格式化字元串的新語法。

與其他格式化方式相比，它們不僅更易讀，更簡潔，不易出錯，而且速度更快！

▍30、swapcase()

翻轉字元串中的字母大小寫。

▍31、zfill()

string.zfill(width)。

返回長度為width的字元串，原字元串string右對齊，前面填充0。

參考文獻： https://mp.weixin.qq.com/s/9cuO-KL3g9ldqRGGZBVnjw

導航:首頁 > 編程語言 > python中文字元串處理

python中文字元串處理

與python中文字元串處理相關的資料