Ⅰ 1 如何用python導入Excel以及csv數據集
Excel是一個二進制文件,它保存有關工作簿中所有工作表的信息
CSV代表Comma Separated Values 。這是一個純文本格式,用逗號分隔一系列值
Excel不僅可以存儲數據,還可以對數據進行操作
CSV文件只是一個文本文件,它存儲數據,但不包含格式,公式,宏等。它也被稱為平面文件
Excel是一個電子表格,將文件保存為自己的專有格式,即xls或xlsx
CSV是將表格信息保存為擴展名為.csv的分隔文本文件的格式
保存在excel中的文件不能被文本編輯器打開或編輯
CSV文件可以通過文本編輯器(如記事本)打開或編輯
excel中會有若干個表單,每個表單都會這些屬性:
行數(nrows) 列數(ncols) 名稱(name) 索引(number)
import xlrd //執行操作前需要導入xlrd庫
#讀取文件
excel = xlrd.open_workexcel("文件地址") //這里表格名稱為excel,文件的地址可以從文件的屬性中看到
#讀取表格表單數量
sheet_num= excel.nsheets // sheet_num為變數,其值為表格表單數量
#讀取表格表單名稱
sheet_name = excel.sheet_names() // sheet_name為變數,其值為表格表單名稱
#如果想要看到上述兩個變數,可以使用print()函數將它們列印出來
#想要讀取某個表單的數據,首先獲取表單 excel.sheet_by_index(0)
//表單索引從0開始,獲取第一個表單對象 excel.sheet_by_name('xxx')
// 獲取名為」xxx」的表單對象 excel.sheets()
// 獲取所有的表單對象 獲取單元格的內容:使用cell_value 方法 這里有兩個參數:行號和列號,用來讀取指定的單元格內容。
第一行的內容是:sheet.row_values(rowx=0)
第一列的內容是:sheet.col_values(colx=0)
CSV是英文Comma Separate Values(逗號分隔值)的縮寫,文檔的內容是由 「,」 分隔的一列列的數據構成的。在python數據處理中也經常用到。
import csv //執行操作前需要導入csv庫
#csv讀取
遍歷其中數據 csv_file = csv.reader(open(『文件地址』,』r』)) for x in csv_file print(x)
Ⅱ 新手學習Python,求教Python中如何導入excel數據
讀excel要用到xlrd模塊,官網安裝(http://pypi.python.org/pypi/xlrd)。然後就可以跟著裡面的例子稍微試一下就知道怎麼用了。大概的流程是這樣的:
1、導入模塊
import xlrd
2、打開Excel文件讀取數據
data = xlrd.open_workbook('excel.xls')
3、獲取一個工作表
① table = data.sheets()[0] #通過索引順序獲取
② table = data.sheet_by_index(0) #通過索引順序獲取
③ table = data.sheet_by_name(u'Sheet1')#通過名稱獲取
4、獲取整行和整列的值(返回數組)
table.row_values(i)
table.col_values(i)
5、獲取行數和列數
table.nrows
table.ncols
6、獲取單元格
table.cell(0,0).value
table.cell(2,3).value
就我自己使用的時候覺得還是獲取cell最有用,這就相當於是給了你一個二維數組,餘下你就可以想怎麼干就怎麼幹了。得益於這個十分好用的庫代碼很是簡潔。但是還是有若干坑的存在導致話了一定時間探索。現在列出來供後人參考吧:
1、首先就是我的統計是根據姓名統計各個表中的信息的,但是調試發現不同的表中各個名字貌似不能夠匹配,開始懷疑過編碼問題,不過後來發現是因為空格。因為在excel中輸入的時候很可能會順手在一些名字後面加上幾個空格或是tab鍵,這樣看起來沒什麼差別,但是程序處理的時候這就是兩個完全不同的串了。我的解決方法是給每個獲取的字元串都加上strip()處理一下。效果良好
2、還是字元串的匹配,在判斷某個單元格中的字元串(中文)是否等於我所給出的的時候發現無法匹配,並且各種unicode也不太奏效,網路過一些解決方案,但是都比較復雜或是沒用。最後我採用了一個比較變通的方式:直接從excel中獲取我想要的值再進行比較,效果是不錯就是通用行不太好,個呢不能問題還沒解決。
二、寫excel表
寫excel表要用到xlwt模塊,官網下載(http://pypi.python.org/pypi/xlwt)。大致使用流程如下:
1、導入模塊
復制代碼代碼如下:
import xlwt
2、創建workbook(其實就是excel,後來保存一下就行)
復制代碼代碼如下:
workbook = xlwt.Workbook(encoding = 'ascii')
3、創建表
復制代碼代碼如下:
worksheet = workbook.add_sheet('My Worksheet')
4、往單元格內寫入內容
復制代碼代碼如下:
worksheet.write(0, 0, label = 'Row 0, Column 0 Value')
5、保存
復制代碼代碼如下:
workbook.save('Excel_Workbook.xls')
Ⅲ python疫情數據分析怎麼和excel連接
爬取國內疫情數據。data_download(),引用包requests、json。1)訪問網站獲取數據;2)保存數據成json文件
將數據轉存到excel。cpdata_toexcel(),引用包openpyxl、json。
1)從json文件中抽取所需數據,欄位需求:省份、地市、總確診人數、總疑似病例、總死亡人數。
2)創建Excel表,數據保存。
讀取文件數據畫疫情地圖。show_data(),引用包pandas、pyecharts。
Ⅳ 數據分析員用python做數據分析是怎麼回事,需要用到python中的那些內容,具體是怎麼操作的
大數據!大數據!其實是離不開數據二字,但是總體來講,自己之前對數據的認知是不太夠的,更多是在關注技術的提升上。換句話講,自己是在做技術,這些技術處理的是數據,而不能算是自己是在做數據的。大規模數據的處理是一個非常大的課題,但是這一點更偏向於是搞技術的。
與數據分析相關的Python庫很多,比如Numpy、pandas、matplotlib、scipy等,數據分析的操作包括數據的導入和導出、數據篩選、數據描述、數據處理、統計分析、可視化等等。接下來我們看一下如何利用Python完成數據的分析。
生成數據表
常見的生成方法有兩種,第一種是導入外部數據,第二種是直接寫入數據,Python支持從多種類型的數據導入。在開始使用Python進行數據導入前需要先導入pandas庫,為了方便起見,我們也同時導入Numpy庫。代碼是最簡模式,裡面有很多可選參數設置,例如列名稱、索引列、數據格式等等。
檢查數據表
Python中使用shape函數來查看數據表的維度,也就是行數和列數。你可以使用info函數查看數據表的整體信息,使用dtypes函數來返回數據格式。Isnull是Python中檢驗空值的函數,你可以對整個數據表進行檢查,也可以單獨對某一列進行空值檢查,返回的結果是邏輯值,包含空值返回True,不包含則返回False。使用unique函數查看唯一值,使用Values函數用來查看數據表中的數值。
數據表清洗
Python中處理空值的方法比較靈活,可以使用Dropna函數用來刪除數據表中包含空值的數據,也可以使用fillna函數對空值進行填充。Python中dtype是查看數據格式的函數,與之對應的是astype函數,用來更改數據格式,Rename是更改列名稱的函數,drop_plicates函數刪除重復值,replace函數實現數據替換。
數據預處理
數據預處理是對清洗完的數據進行整理以便後期的統計和分析工作,主要包括數據表的合並、排序、數值分列、數據分組及標記等工作。在Python中可以使用merge函數對兩個數據表進行合並,合並的方式為inner,此外還有left、right和outer方式。使用ort_values函數和sort_index函數完成排序,使用where函數完成數據分組,使用split函數實現分列。
數據提取
主要是使用三個函數:loc、iloc和ix,其中loc函數按標簽值進行提取,iloc按位置進行提取,ix可以同時按標簽和位置進行提取。除了按標簽和位置提起數據以外,還可以按具體的條件進行數據,比如使用loc和isin兩個函數配合使用,按指定條件對數據進行提取。
數據篩選匯總
Python中使用loc函數配合篩選條件來完成篩選功能,配合sum和 count函數還能實現excel中sumif和countif函數的功能。Python中使用的主要函數是groupby和pivot_table。groupby是進行分類匯總的函數,使用方法很簡單,制定要分組的列名稱就可以,也可以同時制定多個列名稱,groupby 按列名稱出現的順序進行分組。
Ⅳ 分析excel和python在處理數據時各自的優劣點
兩者都是數據分析處理工具,excel上手簡單,操作界面人性化,小批量數據處理神器;
python需要點編程基礎,安裝步驟、導入庫、編譯器、語法讓很多人不懂了,但它在擴展性強,存在大量外部擴展庫,什麼批量合並excel工作簿、批量發送郵件、自動化生成報表之類,雖然這些excel都可以,但涉及到VB語言,遠不及python語法簡單;但是如果一份幾百條數據,需要統計一個結果,excel插入透視表,分類匯總兩步搞定,你非要用python,先是導入pandas/numpy,又是xlrd,接著又是groupby,一頓操作猛如虎,看著十分高大上,人家excel2秒鍾早已搞定;
數據處理:兩者都很熟練的情況下,不考慮數據數量,基本平分秋色,excel成熟體系的快捷鍵、功能;python豐富的各類外部庫;
數據分析:這個的話excel雖然有規劃求解、方差分析、T檢驗之類的工具,但是你要搞個k-mean聚類、決策樹之類的,excel是不行的,還有就是處理數據級與運行效率的問題,excel單表100W,能處理得差不多就二三十萬,多了就卡死了,python就不存在這個問題。
總而言之,公司日常報表,財務類、考勤類、部門小組業績類,這些基本excel就可以搞定,但你要搞大數據分析,隨隨便便幾百萬條數據,excel表示心有餘而力不足。
Ⅵ Python中操作Excel最好用的模塊是
Python中的模塊也稱為庫,在Python中操作Excel的模塊有很多。
優缺點如下:
**1、Pandas模塊**
Pandas是Python的一一個開源數據分析模塊,可用於數據挖掘和數據分析,同時也提供數據清洗功能,可以說它是日前Python數據分析的必備工具之一。Pandas能夠處理類似電子表格的數據,用於數據快速載入、操作、對齊、合並、數據預處理等。
Pandas通過對Excel文件的讀寫實現數據輸入、輸出,Pandas支持.xls和.xlsx格式文件的讀寫,支持只載入每個表的單一工作頁。
import pandas as pd
df=pd.read_excel(r'E:ban.xlsx') #pandas 導入庫獲取excel表的數據內容
df`
**2、xlwings模塊**
xlwings模塊可以實現Python中調用Excel,也可以從Excel調用Python,這個模塊支持支持.xls和.xlsx格式文件的讀寫,支持對這類文件的操作,還支持使用VBA,具有強大的轉換功能,並且可以處理大部分數據類型。
**3、Xlrd模塊**
xlrd模塊可以讀取Excel文件,其對Excel文件的讀取可以實現比較精細的控制。雖然現在使用Pandas模塊讀取和保存Excel文件往往更加方便快捷,但在某些場景下,依然需要xlrd這種更底層的模塊來實現對Excel文件讀取的控制。
xlrd模塊支持.xls、.xlsx格式文件的讀取,但不支持寫信息。
**4、xlwt模塊**
前面xlrd模塊可以讀取Excel文件,但不能寫。而xlwt模塊可以寫、可以修改Excel文件,但不能讀,且只支持.xls格式文件的寫操作。
**5、xlutils模塊**
xlutils也是一個處理Excel文件的模塊,但它不能對Excel文件進行讀和寫的操作,但依賴於xlrd模塊和xlwt模塊。xlutils模塊支持.xls格式文件,不支持.xlsx格式文件。
**6、openpyxl模塊**
openpyxl模塊可以對.xlsx格式的Excel文件進行讀寫操作,特點是讀取快、寫入慢,且不能操作.xls格式文件。
**7、xlsxwriter模塊**
xlsxwriter模塊支持多種Excel功能,可以寫.xlsx格式的Excel文件,而且速度快、佔用內存空間小,但不支持讀或者修改現有的Excel文件。
**8、win32com模塊**
win32com模塊支持.xls、.xlsx格式的Excel文件的讀、寫和修改,讀寫速度快。但win32com模塊存在於pywin32的模塊中,自身沒有完善的文檔,使用起來不太方便。
**9、分析總結**
Pandas模塊把Excel當作數據讀寫的容器,為其強大的數據分析服務,因此讀寫性能的表現中規中矩。xlwings和win32com這兩個模塊都擁有很好的讀寫性能,強大的轉換器可以處理大部分數據類型,同時,可以在程序運行時,在打開的Excel文件中進行實時操作,實現過程的可視化。另外,xlwings模塊的數據結構轉換器使其可以快速地為Excel文件添加二維數據結構,而不需要在Excel文件中重定位數據的行和列,因此筆者認為,從讀寫的便捷性來看,xlwings模塊比較好用一些。