導航:首頁 > 編程語言 > python獲得文件編碼

python獲得文件編碼

發布時間:2023-03-22 18:53:15

1. python 如何獲取本地電腦某一文件夾下所有文件的編碼格式encoding,並將結果導出

一個文件的編碼格式並不是程序能檢測出來的
而是我們預先知道存文件的時候用了什麼編碼,讀文件的時候就要用相應的編碼

2. Python:查看文件的編碼格式-chardet

其中, encoding 為檢測出的編碼, confidence 為可信度, language 是語言液裂。
另外一個例子:

檢測的編碼是GB2312,鬧祥閉注意到GBK是GB2312的超集,兩者是同一種編碼,檢測正確的宴塌概率是74%,language欄位指出的語言是'Chinese'。

注意:chardet支持檢測的編碼列表請參考官方文檔 Supported encodings 。

3. Python 讀寫文件的編碼與解碼問題

演示文件為docx文檔,內容如下:

源碼

運行源碼查看報錯信息
UnicodeDecodeError: 'gbk' codec can't decode byte 0xab in position 15: illegal multibyte sequence

上述錯誤是一種很常見的解碼錯誤,下面介紹該錯誤的解決方法

把utf-8,gbk等各種編碼方式都試了一遍,還是沒有解決問題然後仔細看報錯信息,根據UnicodeDecodeError: 'utf-8' codec can't decode byte 0xfb in position 14: invalid start byte,猜測文件中某個位元組不能解碼,打開文件一看,並沒有看出什麼問題來

open() 函數的第三個參數不是用來野唯接收編碼方式的,而磨脊信是傳入一個buffering的值,此處傳入了'gbk'字元串,所以系統提示傳一個瞎輪整型


通過調用office的API進行操作,因為在office上能完成的操作,都能通過win32完成,所以我們選擇使用win32
(Python3.5 需要安裝 win32compat,裡面含了 win32 的很多包)

4. 9. 字元編碼與Python之文件操作

注意: t和b不能單獨使用,必須跟r/w/a連用

補充: 如果文件中有特殊字元, 比如換行, 那麼r模式也會讀取並返回

補充1: w模式, 在沒有關閉文件的情況下, 連續寫入數據, 新數據會接著上一次文件指針的位置, 接著寫入, 並不會清空源文件

補充2: w模式陵返中, 每次關閉文件後, 連續寫入, 那麼每次都會把文件先清空, 文件指針回到文件開頭, 然後寫入數據, 因此, 對於重要的文件, 千萬不要用w模式打開寫入

-只追加寫, 不能讀

補充: w和a模式的使用場景

注意: r+模式下, 如果源文件非空, 那麼使用write()寫數據時, 會從文件開始位置依次覆蓋, 因為r模式打開文件時, 會把文件指針移動到文件最開始

注意: w+雖然可以讀文件了, 但是只要打開文件, 內容就會被清空.

w+和a+的特性:

a模式打開文件, 文件指針是在文尺山件末尾的, 讀不出來內容, w模式打開世轎文件會清空, 所以也讀不出來內容

總結

准備文件

補充:

准備文件

准備文件

5. python文件編碼問題

還真有些弄不明白。不過我就明白的給你說。

  1. 不要用記事本,另存改變編碼,除非你目標編碼是ANSI

  2. 只要是文字都是字元編碼,不可能是內存中的編碼格式。WINDOWS使用MBCK(類似這個名子)的內部編碼。就是多位元組編碼的方式存在內存里。但是存在文件里一定是字元串,一定是正式的國際編碼。

  3. ANSI是操作系統內的標准編碼。對於通常來說就是GB18030

  4. unicode有很多編碼方式。包括utf-8,utf-16, big-5, gbk, gb18030等。所以這里微軟說的unicode估計是給微軟程序做序列化用的格式

  5. unicode big endian同上。這個編碼應該是一個長位元組編碼用的。


順便說一下,微軟記事本的UTF-8編碼文件有問題,前面有1-2個位元組的識別用字元。如果你用python或者是其它操作系統讀取文件,可能會出問題。

6. 如何設置python的編碼格式為utf-8

python的編碼格式?
#coding=utf-8
這是文檔編碼
import sys
sys.setdefaultencoding("utf-8")
這是設置默認編碼方式為utf-8
xx.encode("utf-8")
這是字元串編碼操作
import codecs
codecs.open(xx,'r','utf-8"),這是文件編碼讀取方式

7. python打開xls文件用什麼編碼

html形式。python打開xls文如咐件用html形式編碼,Python是一種解釋型、面向對象、動態數據類型帶信的高級程序設計語言,其主要用於開渣行純發Web網站、桌面界面開發、網路爬蟲、人工智慧、自動化運維、數據分析、機器學習等。

8. python3讀文件編碼錯誤怎麼辦

在python3中系統默認編碼是unicode,讀取文件經常會編碼錯誤導致報錯。


  1. 首先先確認要讀取文件的編碼,可這樣操作:

記事本打開文本文件,點擊「文件」-「另存為」查看編碼:

importcodecs
f=codecs.open(r"test.txt","r","gbk")
print(f.read())
f.close()

(示例的文件是ANSI所以使用GBK讀取)

以上就可以正確讀取想要的文件了

9. python 讀取文件時能指定編碼嗎

代碼如下:

import os
import codecs
filenames=os.listdir(os.getcwd())
out=file("name.txt","w")
for filename in filenames:
out.write(filename.decode("gb2312").encode("utf-8"))
out.close()

將執行文件的當前目錄及文件名寫入到name.txt文件中,以utf-8格式保存
如果採用ANSI編碼保存,用如下代碼寫入即可:

復制代碼代碼如下:

out.write(filename)

打開文件並寫入
引用codecs模塊,對該模塊目前不了解。在此記錄下方法,有空掌握該模塊功能及用法。

復制代碼代碼如下:

import codecs
file=codecs.open("lol.txt","w","utf-8")
file.write(u"我")
file.close()

讀取ANSI編碼的文本文件和utf-8編碼的文件
讀取ANSI編碼文件
建立一個文件test.txt,文件格式用ANSI,內容為:

復制代碼代碼如下:

abc中文

用python來讀取

復制代碼代碼如下:

# coding=gbk
print open("Test.txt").read()

結果:abc中文
讀取utf-8編碼文件(無BOM)
把文件格式改成UTF-8:

復制代碼代碼如下:

結果:abc涓 枃

顯然,這里需要解碼:

復制代碼代碼如下:

# -*- coding: utf-8 -*-
import codecs
print open("Test.txt").read().decode("utf-8")

結果:abc中文
讀取utf-8編碼文件(有BOM)
某些軟體在保存一個以UTF-8編碼的文件時,默認會在文件開始的地方插入三個不可見的字元(0xEF 0xBB 0xBF,即BOM)。在有些軟體可以控制是否插入BOM。如果在有BOM的情況下,在讀取時需要自己去掉這些字元,python中的codecs mole定義了這個常量:

復制代碼代碼如下:

# -*- coding: utf-8 -*-
import codecs
data = open("Test.txt").read()
if data[:3] == codecs.BOM_UTF8:
data = data[3:]
print data.decode("utf-8")

結果:abc中文
在看下面的例子:

復制代碼代碼如下:

# -*- coding: utf-8 -*-
data = open("name_utf8.txt").read()
u=data.decode("utf-8")
print u[1:]

打開utf-8格式的文件並讀取utf-8字元串後,解碼變成unicode對象。但是會把附加的三個字元同樣進行轉換,變成一個unicode字元。該字元不能被列印。所以為了正常顯示,採用u[1:]的方式,過濾到第一個字元。
注意:在處理unicode中文字元串的時候,必須首先對它調用encode函數,轉換成其它編碼輸出。
設置python默認編碼
復制代碼代碼如下:

import sys
reload(sys)
sys.setdefaultencoding("utf-8")
print sys.getdefaultencoding()

今天碰到了 python 編碼問題, 報錯信息如下

復制代碼代碼如下:

Traceback (most recent call last):
File "ntpath.pyc", line 108, in join
UnicodeDecodeError: 'ascii' codec can't decode byte 0xa1 in position 36: ordinal not in range(128)

顯然是當前的編碼為ascii, 無法解析0xa1(十進制為161, 超過上限128). 進入python console後, 發現默認編碼確實是 ascii, 驗證過程為:
在python2.6中無法調用sys.setdefaultencoding()函數來修改默認編碼,因為python在啟動的時候會調用site.py文件,在這個文件中設置完默認編碼後會刪除sys的setdefaultencoding方法。不能再被調用了. 在確定sys已經導入的情況下, 可以reload sys這個模塊之後, 再 sys.setdefaultencoding('utf8')
復制代碼代碼如下:

import sys
reload(sys)
sys.setdefaultencoding("utf-8")
print sys.getdefaultencoding()

確實有效, 根據 limodou 講解, site.py 是 python 解釋器啟動後, 默認載入的一個腳本. 如果使用 python -S 啟動的話, 將不會自動載入 site.py.
上面寫的挺啰嗦的.
==================================
如何永久地將默認編碼設置為utf-8呢? 有2種方法:
==================================
第一個方法<不推薦>: 編輯site.py, 修改setencoding()函數, 強制設置為 utf-8
第二個方法<推薦>: 增加一個名為 sitecustomize.py, 推薦存放的路徑為 site-packages 目錄下
sitecustomize.py 是在 site.py 被import 執行的, 因為 sys.setdefaultencoding() 是在 site.py 的最後刪除的, 所以, 可以在 sitecustomize.py 使用 sys.setdefaultencoding().

復制代碼代碼如下:

import sys
sys.setdefaultencoding('utf-8')

既然 sitecustomize.py 能被自動載入, 所以除了設置編碼外, 也可以設置一些其他的東西
字元串的編碼

復制代碼代碼如下:

s1='中文'

像上面那樣直接輸入的字元串是按照代碼文件的編碼來處理的,如果是unicode編碼,有以下三種方式:

復制代碼代碼如下:

1 s1 = u'中文'
2 s2 = unicode('中文','gbk')
3 s3 = s1.decode('gbk')

unicode是一個內置函數,第二個參數指示源字元串的編碼格式。
decode是任何字元串具有的方法,將字元串轉換成unicode格式,參數指示源字元串的編碼格式。
encode也是任何字元串具有的方法,將字元串轉換成參數指定的格式。

10. Python怎麼獲取HDFS文件的編碼格式

你好,你可以利用python3的python3-magic來獲得文賣漏舉件的編碼格式。下面是對中碧應的代碼搜陪
import magic

blob = open('unknown-file').read()

m = magic.open(magic.MAGIC_MIME_ENCODING)

m.load()

encoding = m.buffer(blob) # "utf-8" "us-ascii" etc

閱讀全文

與python獲得文件編碼相關的資料

熱點內容
蘋果8p手機加密 瀏覽:747
ipad建文件夾怎麼弄 瀏覽:833
iphone13對wap3加密 瀏覽:555
pdf文件打開失敗 瀏覽:913
dubbo怎麼調用不同伺服器介面 瀏覽:40
全能解壓王app歷史版本 瀏覽:75
優先隊列與拓撲排序演算法 瀏覽:281
pdf轉換formacbook 瀏覽:871
pdf文件內容怎麼編輯 瀏覽:48
134壓縮機排氣溫度多少 瀏覽:256
unity等待編譯後 瀏覽:806
黑鯊手機鎖屏視頻在哪個文件夾 瀏覽:781
wow地圖解壓後怎麼壓縮 瀏覽:821
有pdf卻打不開 瀏覽:460
七星彩軟體app怎麼下載 瀏覽:217
32單片機的重映射哪裡改 瀏覽:816
為什麼前端不用刷演算法題 瀏覽:708
對稱加密系統和公鑰加密系統 瀏覽:428
歷史地理pdf 瀏覽:606
物聯網雲伺服器框架 瀏覽:648