A. python代碼的注釋有幾種
python代碼的注釋有兩種。B. Python2.7 中文字元編碼,使用Unicode時,選擇什麼編碼格式
終端顯示字元的編碼(windows下終端是cmd,linux下是各種terminal,遠程登錄是putty或者xshell)
shell環境的編碼。比如中文版windows用的是gbk(向下兼容gb2312),大多數linux發行版使用的是utf-8(LANG=zh_CN.UTF-8)。
文本文件的編碼。這個通常取決於你的編輯器,而且有的編輯器支持多種編碼的話,你可以在文本開頭位置指定編輯器使用特定編碼。比如# -*- coding: utf8 -*-,vim看到這行會默認將這個腳本認定為utf-8兼容編碼格式。
應用程序的內部編碼。一個字元串,作為數據只是一個位元組數組,但是作為字元的數組,就有一個解析方式。java和python的內部字元編碼是utf-16,python和java都支持用不同的編碼來對位元組數組進行decode來得到字元數組。
C. python是什麼編碼格式
python編碼總結:
1).首先python有兩種格式的字元串,str和unicode,其中unicode相當於位元組碼那樣,可以跨平台使用。
str轉化為unicode可以通過unicode(),u,str.decode三種方式
unicode轉化為str,如果有中文的話,一般通過encode的方式
2).如果代碼中有中文的話,我們一般會添加 "# coding=utf-8",這個是什麼作用呢,一般如下:
如果代碼中有中文注釋,就需要此聲明比較高級的編輯器(比如我的emacs),會根據頭部聲明,將此作為代碼文件的格式。程序會通過
頭部聲明,解碼初始化 u」人生苦短」,這樣的unicode對象,(所以頭部聲明和代碼的存儲格式要一致
所以,當我們填上編碼頭的時候,使用s="中文",實際上type(s)是一個str,是已經將unicode以utf-8格式編碼成str。
其次,如果我們在代碼中使用s=u'中文',相當於將str以utf-8解碼成unicode。
推薦學習《python教程》。
D. python encoding 哪些
在Python3中有str和byte兩種類型:
str進行編碼encode會得到byte;byte解碼decode會得到str。
str對應於文字的抽象實體,沒有編碼一說;
而byte,你不可能僅僅通過二進制數據,來確定出編碼;這句話了不那麼絕對,有專門的包chardet來推斷byte的編碼,但僅僅是推斷,還並不能保證100%正確。
E. python程序有哪些編碼規范
編碼格式聲明
通常,編碼格式聲明是必需的。如果 python 源碼文件沒有聲明編碼格式,python 解釋器會默認使用 ASCII 編碼,一旦源碼文件包含非ASCII編碼的字元,python 解釋器就會報錯。以 UTF-8 為例,以下兩種編碼格式聲明都是合乎規則的。
縮進
統一使用 4 個空格進行縮進。絕對不要用tab, 也不要tab和空格混用。對於行連接的情況,我一般使用4空格的懸掛式縮進。例如:
引號
自然語言使用雙引號
機器標識使用單引號
正則表達式使用雙引號
空行
編碼格式聲明、模塊導入、常量和全局變數聲明、頂級定義和執行代碼之間空兩行
頂級定義之間空兩行,方法定義之間空一行
在函數或方法內部,可以在必要的地方空一行以增強節奏感,但應避免連續空行
導入模塊
導入總應該放在文件頂部,位於模塊注釋和文檔字元串之後,模塊全局變數和常量之前。導入應該按照從最通用到最不通用的順序分組,分組之間空一行
標准庫導入
第三方庫導入
應用程序指定導入
命名規范
模塊盡量使用小寫命名,首字母保持小寫,盡量不要用下劃線
類名使用駝峰(CamelCase)命名風格,首字母大寫,私有類可用一個下劃線開頭
函數名一律小寫,如有多個單詞,用下劃線隔開
私有函數可用一個下劃線開頭
變數名盡量小寫, 如有多個單詞,用下劃線隔開
常量採用全大寫,如有多個單詞,使用下劃線隔開
F. Python基本編碼格式
1、一般來說,聲明編碼格式在腳本中是必需的。2、如果Python源碼文件沒有聲明編碼格式,Python解釋器會默認使用ASCII編碼。但出現非ASCII編碼的字元,Python解釋器就會報錯。
1、Python 採用代碼縮進和冒號( : )來區分代碼塊之間的層次。2、在 Python 中,對於類定義、函數定義、流程式控制制語句、異常處理語句等,行尾的冒號和下一行的縮進,表示下一個代碼塊的開始,而縮進的結束則表示此代碼塊的結束。3、Python 中實現對代碼的縮進,可以使用空格或者 Tab 鍵實現。但無論是手動敲空格,還是使用 Tab 鍵,通常情況下都是採用 4 個空格長度作為一個縮進量(默認情況下,一個 Tab 鍵就表示 4 個空格)。4、對於 Python 縮進規則,初學者可以這樣理解,Python 要求屬於同一作用域中的各行代碼,它們的縮進量必須一致,但具體縮進量為多少,並不做硬性規定。
正確示例代碼:
錯誤示例代碼:
Python中使用 # 進行注釋,我們在使用# 的時候,# 號後面要空一格在行內注釋的時候,中間應該至少加兩個空格
print("你好,世界") # 注釋
** 使用的一般性原則:**
1、在二元運算符兩邊各空一格,算術操作符兩邊的空格可靈活使用,但兩側務必要保持一致2、不要在逗號、分號、冒號前面加空格,但應該在它們後面加(除非在行尾)3、函數的參數列表中,逗號之後要有空格4、函數的參數列表中,默認值等號兩邊不要添加空格5、左括弧之後,右括弧之前不要加添加空格6、參數列表, 索引或切片的左括弧前不應加空格
使用的一般性原則:
1、編碼格式聲明、模塊導入、常量和全局變數聲明、頂級定義和執行代碼之間空兩行2、頂級定義之間空兩行,方法定義之間空一行3、在函數或方法內部,可以在必要的地方空一行以增強節奏感,但應避免連續空行
1、導入總應該放在文件頂部,位於模塊注釋和文檔字元串之後,模塊全局變數和常量之前。
2、導入應該按照從最通用到最不通用的順序分組,分組之間空一行:
3、每個 import 語句只導入一個模塊,盡量避免一次導入多個模塊
命名規范這一塊的大家應該都比較熟悉了,但是不同的編程語言之間的明明規范也是有所區別的~
Python命名建議遵循的一般性原則:
引號使用的一般性原則:
Python跟其他幾個主流編程語言的分號使用區別很大Python的代碼末尾不需要加分號,而Java和C#等都需要添加
不要在行尾添加分號,也不要用分號將兩條命令放在同一行,例如:
Python學習日記
G. python3.3中文亂碼與默認編碼格式設定。
python默認編碼格式是utf-8。在python2.7中,可以通過sys.setdefaultencoding('gbk')設定默認編碼格式,而在python3.3中sys.setdefaultencoding()這個函數已經沒有了。在python3.3中該如何設置內置的默認編碼格式啊!急求!!!
(類似於「#coding:gbk」這種就不必來說了。能讓import sys print(sys.getdefaultencoding())輸出「gbk「的大神請進!!!)
-----------------------------
python 3和2很大區別就是python本身改為默認用unicode編碼。
字元串不再區分"abc"和u"abc", 字元串"abc"默認就是unicode,不再代表本地編碼、
由於有這種內部編碼,像c#和java類似,再沒有必要在語言環境內做類似設置編碼,比如「sys.setdefaultencoding」;
也因此也python 3的代碼和包管理上打破了和2.x的兼容。2.x的擴展包要適應這種情況改寫。
另一個問題是語言環境內只有unicode怎麼輸出gbk之類的本地編碼。
答按慣例都在(序列化)輸出時才轉換成本地編碼。
比如
file.write("GBK的中文".encode("GBK"))
python環境內字元串用str.encode("GBK")方法輸出成位元組串用於和其他環境交流。
H. python 處理中文 源文件 什麼 編碼
概括、從python1.6開始就可以處理unicode字元了。
一、幾種常見的編碼格式。
1.1、ascii,用1個位元組表示。
1.2、UTF-8,用1個至三個位元組表示,表示ascii碼時只佔用1個位元組,ascii編碼是UTF-8的子集。
1.3、UTF-16,用2個位元組表示,在python中,unicode的含義就是UTF-16。
二、python源文件的編碼與解碼,我們寫的python程序從產生到執行的過程如下:
編輯器---->源代碼---->解釋器---->輸出結果
2.1、編輯器決定源代碼的編碼格式(在編輯器中設定)
2.2、也必須要解釋器知道源代碼的編碼格式(很遺憾很難從編碼的數據獲知源文件的編碼格式)
2.3、補充:在Windows下當用UltraEdit把源代碼存成UTF-8時,會在文件中記錄BOM標志(不必祥究)這樣ActivePython解釋器會自動識別源文件是UTF-8格式,但是如果用eclipse編輯源文件,雖然在編輯器中指定文件編碼為UTF-8,但是因為沒有記入BOM標志,所以必須在源文件開始處加上#coding=utf-8,用注釋來提示解釋器源文件的編碼方式挺有意思。
2.4、舉例:例如我們要向終端輸出"我是中國人"。
#coding=utf-8 告訴python解釋器用的是utf-8編碼,我用的是eclipse+pydev print "我是中國人" #源文件本身也要存成UTF-8編碼
三、編碼的轉換,兩種編碼的轉換要用UTF-16作為中轉站。
舉例:如果有一個文本文件jap.txt,裡面有內容 "私は中國人です。",編碼格式是日文編碼SHIFT_JIS,
還有一個文本文件chn.txt,內容是"中華人民共和國",編碼格式是中文編碼GB2312。
我們如何把兩個文件里的內容合並到一起並存儲到utf.txt中並且不顯示亂碼呢,可以採用把兩個文件的內容都轉成UTF-8格式,因為UTF-8里包含了中文編碼和日文編碼。
#coding=utf-8 try: JAP=open("e:/jap.txt","r") CHN=open("e:/chn.txt","r") UTF=open("e:/utf.txt","w") jap_text=JAP.readline() chn_text=CHN.readline() #先decode成UTF-16,再encode成UTF-8 jap_text_utf8=jap_text.decode("SHIFT_JIS").encode("UTF-8") #不轉成utf-8也可以 chn_text_utf8=chn_text.decode("GB2312").encode("UTF-8")#編碼方式大小寫都行utf-8也一樣 UTF.write(jap_text_utf8) UTF.write(chn_text_utf8) except IOError,e: print "open file error",e
四、Tk庫支持ascii,UTF-16,UTF-8
#coding=utf-8 from Tkinter import * try: JAP=open("e:/jap.txt","r") str1=JAP.readline() except IOError,e: print "open file error",e root=Tk() label1=Label(root,text=str1.decode("SHIFT_JIS")) #如果沒有decode則顯示亂碼 label1.grid() root.mainloop()
以上是學習python處理python編碼的基本過程
I. Python2.7 中文字元編碼,使用Unicode時,選擇什麼編碼格式
關於編碼和亂碼的問題,我簡單講一下。
通常問這類問題的人是混淆了若干個不同的概念,並且他們自己也沒有意識到自己混淆了這些概念的。
終端顯示字元的編碼(windows下終端是cmd,linux下是各種terminal,遠程登錄是putty或者xshell)
shell環境的編碼。比如中文版windows用的是gbk(向下兼容gb2312),大多數linux發行版使用的是utf-8(LANG=zh_CN.UTF-8)。
文本文件的編碼。這個通常取決於你的編輯器,而且有的編輯器支持多種編碼的話,你可以在文本開頭位置指定編輯器使用特定編碼。比如# -*- coding: utf8 -*-,vim看到這行會默認將這個腳本認定為utf-8兼容編碼格式。
應用程序的內部編碼。一個字元串,作為數據只是一個位元組數組,但是作為字元的數組,就有一個解析方式。java和python的內部字元編碼是utf-16,python和java都支持用不同的編碼來對位元組數組進行decode來得到字元數組。
拿題主的問題來解釋一下。
我在ubuntu kylin中文環境下默認terminal中做了同樣的實驗,但是結果和題主恰好相反:
題主現在弄了一個文件,在開始加上了
# -*- coding: utf8 -*-
這下編輯器看到了,知道這文件是utf-8的了。所以編輯器對讀入的一坨坨位元組用utf-8來解碼,對於輸出到磁碟的漢字也用utf-8來編碼。所以你在文件裡面看到的看上去像「漢字」的東西,就和第一種情況下想同了,當然代碼就跑得通。
順便說一下,如果編輯器無視行首這行編碼聲明,或者編輯器無法支持utf-8格式,那麼你弄好的文件在那個編輯器下就會顯示亂碼,多麼簡單的道理啊。
終端和環境的編碼一致(本機通常是一致的,不一致常常出現在遠程登錄);如果不一致就需要有編輯器或者文本閱讀器做一個兼容兩者的轉換。
編輯器能夠認識文本編碼
系統擁有能顯示這種字元的字體。
這也就是我為什麼一直反對在程序文本中使用除ascii之外的所有編碼字元的原因。環境太復雜了,繞開問題遠比解決問題輕松。
J. Python編碼聲明都有哪幾種寫法,utf
Python的默認編碼是ASCII格式:ASCII(American Standard Code for Information Interchange),是一種單位元組的編碼。計算機世界裡一開始只有英文,而單位元組可以表示256個不同的字元,可以表示所有的英文字元和許多的控制符號;源代碼文件中,如果有用到非ASCII字元,則需要在文件頭部進行字元編碼的聲明,如下:#-*- coding: UTF-8 -*-實際上Python只檢查#、coding和編碼字元串,其他的字元都是為了美觀加上的。另外,Python中可用的字元編碼有很多,並且還有許多別名,還不區分大小寫,比如UTF-8可以寫成u8。