導航:首頁 > 編程語言 > 如何用python讀取數據科學

如何用python讀取數據科學

發布時間:2022-10-10 00:32:32

Ⅰ 如何利用 python 讀取數據科學中常見幾種文件

前言
如果你是數據行業的一份子,那麼你肯定會知道和不同的數據類型打交道是件多麼麻煩的事。不同數據格式、不同壓縮演算法、不同系統下的不同解析方法——很快就會讓你感到抓狂!噢!我還沒提那些非結構化數據和半結構化數據呢。
對於所有數據科學家和數據工程師來說,和不同的格式打交道都乏味透頂!但現實情況是,人們很少能得到整齊的列表數據。因此,熟悉不同的文件格式、了解處理它們時會遇到的困難以及處理某類數據時的最佳/最高效的方法,對於任何一個數據科學家(或者數據工程師)而言都必不可少。
在本篇文章中,你會了解到數據科學家或數據工程師必須知道的幾種常規格式。我會先向你介紹數據行業里常用的幾種不同的文件格式。隨後,我會向大家介紹如何在 Python 里讀取這些文件格式。
PS:在後文中提到的數據科學家,同樣也包括數據工程師以及所有的數據科學專家。
目錄
文件格式是什麼。數據科學家應當了解各種不同文件格式的原因。不同的文件格式以及從 Python 中讀取這些文件的方法。
1. 逗號分隔值
2. XLSX
3. ZIP
4. 純文本(txt)
5. JSON
6. XML
7. HTML
8. 圖像
9. 分層數據格式
10. PDF
11. DOCX
12. MP3
13. MP4
1. 文件格式是什麼。
文件格式是計算機為了存儲信息而使用的對信息的特殊編碼方式。首先,文件格式代表著文件的類型,如二進制文件或者 ASCII 文件等。其次,它體現了信息組織的方式。比如,逗號分隔值(CSV)文件格式用純文本來儲存列表數據。

為了識別一個文件的格式,你通常會去看這個文件的擴展名。比如,一個以「CSV」格式保存的名為「Data」的文件下方的文件名會顯示為「Data.csv」。看到「.csv」這個擴展名,我們就會清楚地知道這是一個「CSV」文件,並且還可以知道其中的數據是以表格的形式儲存的。
2. 數據科學家應當了解各種不同文件格式的原因。
通常,你碰到的文件類型取決於你當下構造的應用。舉個例子,在一個圖像處理系統中,你需要把圖像作為輸入和輸出。所以,你所見到的文件大都是jpeg、gif 或者 png 格式的。
作為一個數據科學家,你需要了解各種文件格式的底層結構以及相應的優勢和劣勢。只有了解了數據的底層結構,你才能夠進一步去探索它,或者決定如何來儲存相關的數據。
選擇一個最理想的文件格式來儲存數據能夠提升你的模型在處理數據時的性能。
現在,讓我們討論一下下方這些文件格式以及如何在 Python 中讀取它們:
逗號分隔值(CSV)XLSXZIP純文本(txt)JSONXMLHTML圖像分層數據格式PDFDOCXMP3MP4
3. 不同的文件格式以及從 Python 中讀取這些文件的方法。
3.1 逗號分隔值
逗號分隔值文件格式屬於電子表格文件格式的一種。
什麼是電子表格文件格式?
在電子表格文件格式中,數據被儲存在單元格里。每個單元格都處於特定的行和列中。電子表格文件中的列擁有不同的類型。比如說,它可以是字元串型的、日期型的或者整數型的。最常用的電子表格文件格式包括:逗號分隔值(CSV)、Microsoft Excel 電子表格(xls)以及 Microsoft Excel Open XML 電子表格(xlsx)。
CSV 文件中的每一行都代表一份觀察報告,或者也可以說是一條記錄。每一個記錄都包含一個或者更多由逗號分隔的欄位。
有時你看你會遇到用製表符而非逗號來分隔欄位的文件。這種文件格式被稱為 TSV(製表符分隔值)文件格式。
下面是一個用 Notepad 打開的 CSV 文件。

在Python 中從 CSV 文件里讀取數據
現在讓我們看看如何在 Python 中讀取一個 CSV 文件。你可以用 Python 中的「pandas」庫來載入數據。import pandas as pd
df = pd.read_csv(「/home/Loan_Prediction/train.csv」)
上方的代碼將會把 train.csv 文件載入進 DataFrame df 中。
3.2 XLSX文件
XLSX 是 Microsoft Excel Open XML 的文件格式,它同樣可以歸入電子表格文件格式這一類中。它是由 Microsoft Excel 開發的一種基於 XML 文件格式。Microsoft Office 2007 最先採用 XLSX 格式來儲存數據。
在XLSX 中,數據被放在工作表的單元格和列當中。每個 XLSX 文件可能包含一個或者更多工作表,所以一個工作簿中可能會包含多個工作表。
下面是一個在 Microsoft Excel 中打開的「xlsx」文件。

上圖顯示的這個文件里包含多個工作表,這些工作表的名稱分別為 Customers、Employees、Invoice 和 Order。圖片中顯示的是其中一個工作表——「Invoice」——中的數據。
從XLSX 文件讀取數據
讓我們一起來載入一下來自 XLSX 文件的數據並且定義一下相關工作表的名稱。此時,你可以用 Python 中的「pandas」庫來載入這些數據。import pandas as pd
df = pd.read_excel(「/home/Loan_Prediction/train.xlsx」,sheetname = 「Invoice」)
上方的代碼將會把來自「train.xlsx」文件的工作表「Invoice」載入進 DataFrame df 中。
3.3 ZIP 文件
ZIP 格式是一種歸檔文件格式。
什麼是歸檔文件格式?
在歸檔文件格式中,你可以創建一個包含多個文件和元數據的文件。歸檔文件格式通常用於將多個數據文件放入一個文件中的過程。這么做是為了方便對這些文件進行壓縮從而減少儲存它們所需的存儲空間。
有很多種常用的電腦數據歸檔格式可以創建歸檔文件。Zip、RAR 和 Tar 是最常用的3種用於壓縮數據的歸檔文件格式。
因此,ZIP 文件格式是一種無損壓縮格式,這意味著如果你用 ZIP 格式壓縮了多個文件,那麼在解壓縮之後你能夠完全恢復這些數據。ZIP 文件格式使用多種壓縮演算法來壓縮文件。你可以通過 .zip 這個擴展名輕易地識別出一個 ZIP 文件。
在Python 中讀取 .ZIP 文件
你可以通過導入「zipfile」包來讀取 zip 文件。下方的代碼可以實現讀取「T.zip」中的「train.csv」文件。import zipfile
在這里我已經討論了其中一種最常用的歸檔格式,也已經討論了如何在 python 中打開這種歸檔格式。我不會再對其他的歸檔格式進行展開討論。如果你想了解不同類型的歸檔格式並且想對其做出比較

Ⅱ python數據分析-科學計數法

用python進行數據分析時,查看數據,經常發生數據被自動顯示成科學記數法的模式,或者多行多列數據只顯示前後幾行幾列,中間都是省略號的情形。

import numpy as npnp.set_printoptions(suppress=True, threshold=np.nan)

suppress=True 取消科學記數法

threshold=np.nan 完整輸出(沒有省略號)

display.[max_categories, max_columns, max_colwidth, max_info_columns, max_info_rows, max_rows, max_seq_items, memory_usage, multi_sparse, notebook_repr_html, pprint_nest_depth, precision, show_dimensions]

詳細介紹文檔: pd.set_option

可以在pd.set_option設置display.float_format參數來以政策小數顯示,比如下面設置顯示到小數點後3位

pd.set_option('display.float_format', lambda x: '%.3f' % x)

set_option中還有其它一些控制設置,包括默認顯示列數,行數等等

pd.set_option('display.max_columns',5, 'display.max_rows', 100)

import pandas as pdpd.set_option('display.max_columns', 10000, 'display.max_rows', 10000)

display.max_columns 顯示最大列數

display.max_rows 顯示最大行數

1、pd.set_option(『expand_frame_repr』, False)

True就是可以換行顯示。設置成False的時候不允許換行

2、pd.set_option(『display.max_rows』, 10)

pd.set_option(『display.max_columns』, 10)

顯示的最大行數和列數,如果超額就顯示省略號,這個指的是多少個dataFrame的列。如果比較多又不允許換行,就會顯得很亂。

3、pd.set_option(『precision』, 5)

顯示小數點後的位數

4、pd.set_option(『large_repr』, A)

truncate表示截斷,info表示查看信息,一般選truncate

5、pd.set_option(『max_colwidth』, 5)

列長度

6、pd.set_option(『chop_threshold』, 0.5)

絕對值小於0.5的顯示0.0

7、pd.set_option(『colheader_justify』, 『left』)

顯示居中還是左邊,

8、pd.set_option(『display.width』, 200)

橫向最多顯示多少個字元, 一般80不適合橫向的屏幕,平時多用200.

np.set_printoptions(precision=None, threshold=None, edgeitems=None, linewidth=None, suppress=None, nanstr=None, infstr=None, formatter=None)

參數:

precision 設置浮點數的精度 (默認值:8)

threshold 設置顯示的數目(超出部分省略號顯示, np.nan是完全輸出,默認值:1000)

edgeitems 設置顯示前幾個,後幾個 (默認值:3)

suppress 設置是否科學記數法顯示 (默認值:False)

示例如下:

import numpy as npnp.set_printoptions(precision=4, threshold=8, edgeitems=4, linewidth=75, suppress=True, nanstr='nan', infstr='inf')print("precision=4, 浮點數精確小數點後4位: ", np.array([1.23446789]))print("threshold=8, edgeitems=4, 顯示8個,前4後4: ", np.arange(10))np.set_printoptions(formatter={'all': lambda x :'int:'+str(-x)})print("formatter, 格式化輸出: ", np.arange(5))

輸出如下:

[圖片上傳失敗...(image-15f596-1587702700460)]

注意:precision自動四捨五入

詳細介紹文檔: np.set_printoptions

pd.set_option

pd.set_option(pat, value)

Ⅲ 如何利用 Python 讀取數據科學中常見幾種文件

filename=open('i:\\install\\test.txt','r+')#讀取xx路徑xx文件;r+代表的是讀寫並存方式
print filename.read()#讀取所有的文件

Ⅳ 如何利用python語言進行數據分析

隨著互聯網的不斷發展,數據分析已經成為指導我們工作方向的主要依據之一,而今天我們就一起來了解一下,如何利用python編程開發來進行數據分析,下面電腦培訓http://www.kmbdqn.com/就開始今天的主要內容吧。

為什麼要學習Python進行數據分析?

Python作為一種用於數據分析的語言,近引起了廣泛的興趣。我以前學過Python的基礎知識。下面是一些支持學習Python的原因:

開源-免費安裝

很棒的在線社區

簡單易學

可以成為數據科學和基於web的分析產品生成的通用語言

不用說,它也有一些缺點:

它是一種解釋語言而不是編譯語言——因此可能會佔用更多的CPU時間。但是,考慮到節省了程序員的時間(由於易於學習),它仍然是一個不錯的選擇。

Python 2.7 和 3.4

這是Python中受爭議的話題之一。您一定會遇到它,特別是如果您是初學者的話。這里沒有正確/錯誤的選擇。這完全取決於情況和你的需要。我會試著給你一些建議來幫助你做出明智的選擇。

為什麼Python 2.7 ?

很棒的社區支持!這是你早年需要的東西。Python 2於2000年末發布,已經使用了超過15年。

過多的三方庫!雖然許多庫都提供了3.x支持,但仍然有很多模塊只能在2.x版本上工作。如果您計劃將Python用於特定的應用程序,比如高度依賴外部模塊的web開發,那麼使用2.7可能會更好。


Ⅳ 如何利用python進行數據分析

作者Wes McKinney是pandas庫的主要作者,所以本書也可以作為利用Python實現數據密集型應用的科學計算實踐指南。本書適合剛剛接觸Python的分析人員以及剛剛接觸科學計算的Python程序員。
•將IPython這個互動式Shell作為你的首要開發環境。
•學習NumPy(Numerical Python)的基礎和高級知識。
•從pandas庫的數據分析工具開始。
•利用高性能工具對數據進行載入、清理、轉換、合並以及重塑。
•利用matplotlib創建散點圖以及靜態或互動式的可視化結果。
•利用pandas的groupby功能對數據集進行切片、切塊和匯總操作。
•處理各種各樣的時間序列數據。
•通過詳細的案例學習如何解決Web分析、社會科學、金融學以及經•濟學等領域的問題。

Ⅵ 如何用python進行數據分析

利用python進行數據分析

鏈接: https://pan..com/s/15VdW4dcuPuIUEPrY3RehtQ

?pwd=3nfn 提取碼: 3nfn

本書也可以作為利用Python實現數據密集型應用的科學計算實踐指南。本書適合剛剛接觸Python的分析人員以及剛剛接觸科學計算的Python程序員。


閱讀全文

與如何用python讀取數據科學相關的資料

熱點內容
程序員和施工員哪個有前途 瀏覽:614
浙江百兆伺服器雲空間 瀏覽:827
php和html5學哪個比較好 瀏覽:388
瑜伽pdf下載地址 瀏覽:252
小花貓app改名叫什麼 瀏覽:837
編程器固件修改 瀏覽:523
沈陽技校有程序員嗎 瀏覽:300
各行app的基金有什麼不一樣嗎 瀏覽:62
python編譯器怎麼裝 瀏覽:73
新浪php筆試題 瀏覽:138
新時達伺服器如何自學習 瀏覽:27
程序中什麼命令用來輸入單字元 瀏覽:59
php是否有數據 瀏覽:141
虛擬雲伺服器是什麼意思 瀏覽:279
vb是編譯性語言嗎 瀏覽:209
json格式用什麼編譯器 瀏覽:319
word轉pdf代碼 瀏覽:802
單片機中如何編程 瀏覽:739
cad常見的快捷命令 瀏覽:625
伺服器端有什麼 瀏覽:325