python寫入大文件_python 讀取大文件數據怎麼快速讀取

⑴ python 處理大文件並用pickle保存

1、當一個文件太大，例如余咐豎幾個 G，電腦配置限制，無法一次性讀入內存，可以分簡森塊讀入。豎大例如：

2、讀取之後使用pickle 模塊進行持久化

⑵ 用Python寫入文件，若該行數據存在則不寫入；若不存在，則寫入。怎麼才能在寫入之前判斷該數據是否存在

用open,該函數創建一個文件對象，這將用來調用與之關聯的其他支持方式即可：

file object = open(file_name [, access_mode][, buffering])

file_name: file_name參數是一個字元串值，包含要訪問的文件的名稱。

access_mode: access_mode決定了文件必須被打開，即，讀，寫，追加等的可能值是下表中給定的一個完整的列表的模式。這是可選參數，默認文件存取方式為read (r)。

(2)python寫入大文件擴展閱讀：

file命令的函數意義：

file 命令讀取用 File 參數或者 FileList 變數指定的文件，在每個文件上執行一系列測試，然後將它們按照類型分類。然後此命令將文件類型寫入標准輸出。文件可以是常規文件、目錄、FIFO（指定的管道）、塊特殊文件、字元特別文件、符號鏈接或者套接字類型。

1、對於長度為零的常規文件，將識別為空文件。

2、對於符號鏈接文件，預設情況下此鏈接後跟符號鏈接引用的文件。

如果文件是 ASCII 碼的格式，則 file 命令將檢查前 1024 個位元組然後確定文件類型。如果文件不是 ASCII 格式，則 file 命令將嘗試區分二進制數據文件和包含擴展字元的文本文件。

⑶ Python中的文件讀寫-理論知識

Python處理兩種不同類型的文件：二進制文件和文本文件。了解兩者之間的差異很重要，因為它們的處理方式不同。

二進制文件

在正常計算機使用期間使用的大多數文件實際上是二進制文件，而不是文本。比如：Microsoft Word .doc文件實際上是一個二進制文件，即使它只有文本。

二進制文件的其他示例包括：

圖像文件，包括.jpg，.png，.bmp，.gif，等。

資料庫文件包括.mdb，.frm和.sqlite

文件，包括.doc，.xls，.pdf或者其他文件。

那是因為這些文件都有特殊處理的要求，需要特定類型的軟體來打開它。例如，您需要Excel來打開.xls文件，並使用資料庫程序來打開.sqlite文件。

文本文件

一方面，沒有特定的編碼，可以通過沒有任何特殊處理的標准文本編輯器打開。但是，每個文本文件都必須遵守一組規則：

文本文件必須是可讀的。他們可以（並且經常會）包含許多特殊編碼，尤其是在HTML或其他標記語言中，但您仍然可以說出它的含義

文本文件中的數據按行組織。在大多數情況下，每一行都是一個獨特的元素，無論是指令行還是命令。

此外，文本文件在每行的末尾都有一個看不見的字元，這使文本編輯器知道應該有一個新行。通過編程與這些文件交互時，您可以利用該字元。在Python中，它用「 n」表示。

在哪裡可以找到Python的文件I / O工具

在Python中工作時，您不必擔心導入任何特定的外部庫來處理文件。Python附帶有「文件庫」，文件I / O工具和實用程序是核心語言的內置部分。

但是在其他語言（如C ++）中，要處理文件，您必須通過包含正確的頭文件來啟用文件I / O工具#include <fstream>。如果您使用java編寫代碼，則需要使用該import java.io.*語句。

使用Python，就沒有必要這樣做，這是因為Python有一組內置函數，可以處理讀取和寫入文件所需的所有內容。

⑷ 如何用python快速讀取幾G以上的大文件

如果你沒那麼大的內存解決方法有幾個：

使用swap 一次性read()讀取
系統層面分割大文件為數個小於系統內存的小文件，分別讀取
使用python 按數據大小逐塊讀取，使用完數據即釋放該部分內存：

whileTrue:
chunk_data=file_object.read(chunk_size)
ifnotchunk_data:
break
yieldchunk_data

⑸ Python 寫入到文件的問題

代碼如下：

#coding=utf-8

importxlwt

list1=[
['致我們單純的小美好','致我們單純的小美好
鏈接：https','1'],
['新白娘子傳奇','新白娘子傳奇鏈接：https:','1']
]

workbook=xlwt.Workbook()

sheet=workbook.add_sheet('sheet1')

col=0
row=0

style=xlwt.easyxf('align:wrapon')

foriteminlist1:

col=0

forsubiteminitem:

print(row,col,subitem)
sheet.write(row,col,subitem,style)

col=col+1

row=row+1

workbook.save('test.xls')

⑹ python對文本文件的讀有哪些方法,寫有哪些方法

1 文件讀取全文本操作
在一定場景下我們需要把文本全部內容讀取出來，進行處理。python提供三種函數讀取文件，分別是read readline readlines，
read()：讀取文件的全部內容，加上參數可以指定讀取的字元。
readline()：讀取文件的一行。
readlines()：讀取文件的所有行到內存中。
不同場景下我們可以選擇不同函數對文件進行讀取。
1.1 方法一
file_name = input("請輸入你要打開的文件的完整路徑及名稱")
file= open(file_name, "r")
txt=file.read()
# 全文本的處理
file.close()
使用read函數將文件中的內容全部讀取，放在字元串變數txt中。這樣操作適合於文本較小，處理簡單的情況，當文件較大時，這種方式處理時不合適的。一次性讀取較大的文件到內存中，會耗費較多的時間和資源。這時候分批處理效果更好。
1.2 方法二
file_name = input("請輸入你要打開的文件的完整路徑及名稱")
file= open(file_name, "r")
txt= file.read(4)
# 文本的處理while txt != ""txt= file.read(4)
# 批量文本處理
file.close()
這種方法適合於分批處理文本信息，每次批量讀入，批量處理，不會對內存造成較大的壓力。
1.3 方法三
file_name = input("請輸入你要打開的文件的完整路徑及名稱")
file= open(file_name, "r")for line infile.readlines():
# 處理每一行數據
file.close()
這種處理方式適合處理以行為分割特點的文本，並且文本較小，因為這種處理方式需要一次性把文件所有內容讀取到內存中。
1.4 方法四
file_name = input("請輸入你要打開的文件的完整路徑及名稱")
file= open(file_name, "r") # 這里的file時文件句柄for line infile:
# 處理每一行數據
file.close()
這種方式和方法三中的區別是分行讀入，逐行處理，不會一次性把文件所有內容都讀入到內存中，對一些大文件的處理是很有效的。
2 文件寫入文本操作
文件寫入有兩種寫入函數和一種輔助支持。
write()：向文件中寫入一個字元或者位元組流
writelines()：將一個元素全為字元串的列表寫入到文件中需要注意的是，writelines寫入列表元素的時候會把列表元素的內容拼接到一起寫入，不會有換行和空格。
seek()：輔助寫入函數offset偏移量參數代表含義如下
0 - 文件開頭
1 - 當前位置
2 - 文件結尾
2.1 方法一
file_name = input("output.txt", "w+")
text= "hello world!"file_name.write(text)
file.close()
2.2 方法二
file_name = input("output.txt", "w+")
list= ["中午","早上","晚上"]
file_name.writelines(list)for line infile:
# 讀取寫入的數據，這時候發現是沒有任何內容的
file.close()
我們增加一行代碼就可以讀取到寫入的文件內容，利用seek()函數調整寫操作指針的位置，可以實現寫操作之後的正常讀取。
file_name = input("output.txt", "w+")
list= ["中午","早上","晚上"]
file_name.readlines(list)
file_name.seek(0) # 調整寫的指針到文件的開始位置for line infile:
# 讀取寫入的數據，這時候會讀出一行寫入的數據。
file.close()

⑺ python讀寫文件

讀文件

1）使用open()方法打開文件，返回一個文件對象

原型：open(file, mode='r', buffering=None, encoding=None, errors=None, newline=None, closefd=True)

舉例：f = open('test.txt', 'r')

test.txt表示文件路徑(包含文件名，這個file參數可以是絕對或者相對路徑)

      r表示是讀文本文件，rb是讀二進制文本文件。（這個mode參數默認值就是r）

    2）使用close()方法關閉文件

      f.close()

打開後的文件必須關閉，因為文件對象會佔用系統資源，系統打開文件數量也就有限了

  3）打開文件時的異常處理

      f=open('test.txt', 'r')

f.read()

f.close()

        FileNotFoundError: [Errno 2] No such file or directory: 'test.txt'

        文件讀寫時都有可能產生異常IOError(比如文件不存在)，這樣其後面的f.read()，f.close()就不會調用。為保證無論是否異常都可以關閉文件，一般使用try ... finally來處理：

      try:

        f = open('test.txt', 'r')

f.read()

        finally:

        if f:

        f.close()

        但這種寫法過於繁瑣，所以Python引入了with語句來自動調用close()方法：

        with open('test.txt', 'r') as f:

            f.read()

4）讀文件 - read()、readline() 和 readlines()

        read() 一次讀取整個文件，它通常用於將文件內容放到一個字元串變數中。如果文件過大，內存不夠，可以通過反復調用read(size)方法，每次最多讀取size個位元組的內容。

        readline() 一次讀取文件中一行內容，可反復調用

        readlines() 一次讀取所有內容並按行返回列表，該列表可以由for ... in ... 結構再進一步處理。

特別注意：

        這三種方法是把每行末尾的'\n'也讀進來了，如有需要就得我們手動去掉'\n'

        with open('test.txt', 'r') as f:

        list = f.readlines()

        for i in range(0, len(list)):

        list[i] = list[i].rstrip('\n')

寫文件

1）寫文件和讀文件是一樣的，唯一區別是open文件時，傳入標識符不同，即'w'或者'wb'表示寫文本文件或寫二進制文件

    f = open('test.txt', 'w')

    f = open('test.txt', 'wb')

    f = open('test.txt', 'a')

f.close()

特別注意：

1. 如果沒有這個文件，會自動創建一個新文件；如果有，就會先把原文件的內容清空再寫入；若不想清空原來的內容而是直接在後面追加新的內容，就用'a'這個模式

2. 寫文件，操作系統往往不會立刻把數據寫入磁碟，而是放到內存緩存起來，空閑的時候再慢慢寫入。只有調用close()方法時，操作系統才保證把沒有寫入的數據全部寫入磁碟。忘記調用close()的後果是數據可能只寫了一部分到磁碟，剩下的丟失了。

  2）寫文件 - write()、writelines()

  write()方法和read()、readline()方法對應，是將字元串寫入到文件中。

    writelines()方法和readlines()方法對應，也是針對列表的操作。它接收一個字元串列表作為參數，將他們寫入到文件中。

特別注意：

換行符不會自動的加入，需要顯式的加入換行符。

  f = open('test.txt', 'w')

    f.writelines(["111\n", "222\n", "333\n"])

補充說明：

1）對於非默認編碼(utf-8)的文件，需要open時添加encording參數，選擇對應的編碼方式

2）r+, w+, a+，可讀可寫

3）seek()方法，移動文件指針

seek(offset[, whence]) ，offset是相對於某個位置的偏移量。位置由whence決定，默認whence=0，從開頭起；whence=1，從當前位置算起；whence=2相對於文件末尾移動，通常offset取負值。

⑻ 用python將內容寫入文件,寫入數據出現重復多次

代碼file.open("file","a/r/w")，修改第二參數
a是添加內容到以前的文件最後面
r是只讀無法寫
w是重新寫,把之前的內容全部覆蓋的.

⑼ python 讀取大文件數據怎麼快速讀取

python中讀取數據的時候有幾種方法，無非是read，readline，readlings和xreadlines幾種方法，在幾種方法中，read和xreadlines可以作為迭代器使用，從而在讀取大數據的時候比較有效果.

在測試中，先創建一個大文件，大概1GB左右，使用的程序如下：

[python] view plainprint?
import os.path
import time
while os.path.getsize('messages') <1000000000:
f = open('messages','a')
f.write('this is a file/n')
f.close()

print 'file create complted'

在這里使用循環判斷文件的大小，如果大小在1GB左右，那麼結束創建文件。--需要花費好幾分鍾的時間。

測試代碼如下：

[python] view plainprint?
#22s
start_time = time.time()
f = open('messages','r')
for i in f:
end_time = time.time()
print end_time - start_time
break
f.close()

#22s
start_time = time.time()
f = open('messages','r')
for i in f.xreadlines():
end_time = time.time()
print end_time - start_time
break
f.close()

start_time = time.time()
f = open('messages','r')
k= f.readlines()
f.close()
end_time = time.time()
print end_time - start_time

使用迭代器的時候，兩者的時間是差不多的，內存消耗也不是很多，使用的時間大概在22秒作用
在使用完全讀取文件的時候，使用的時間在40s，並且內存消耗相當嚴重，大概使用了1G的內存。。

其實，在使用跌倒器的時候，如果進行連續操作，進行print或者其他的操作，內存消耗還是不可避免的，但是內存在那個時候是可以釋放的，從而使用迭代器可以節省內存，主要是可以釋放。
而在使用直接讀取所有數據的時候，數據會保留在內存中，是無法釋放這個內存的，從而內存卡死也是有可能的。

在使用的時候，最好是直接使用for i in f的方式來使用，在讀取的時候，f本身就是一個迭代器，其實也就是f.read方法

導航:首頁 > 編程語言 > python寫入大文件

python寫入大文件

與python寫入大文件相關的資料