導航:首頁 > 編程語言 > python圖片表格數據處理

python圖片表格數據處理

發布時間:2022-12-27 02:20:32

python處理EXCEL數據

能提供一個樣例文件或截個圖看下具體是怎樣的格式

㈡ python之excel操作

在數據處理方面,Python 一直扮演著重要的角色,對於 Excel 操作,它有著完整且成熟的第三方庫,使用也較為簡單。

Python 中常用 Excel 操作庫如下:

向 Excel 中寫入一些數據。

通過 pip install xlwt 命令安裝。

執行結果:

通過 pip install XlsxWriter 命令安裝。

XlsxWriter 可以很方便的生成圖表。

執行結果:

我們使用 xlrd 讀取之前寫入的數據,使用 pip install xlrd 命令安裝。

之前寫入的數據還有一個平均年齡是空著的,我們先讀取之前寫入的數據,再計算出平均值,最後將平均值寫入。這里要用到 xlutils 模塊,使用 pip install xlutils 安裝。

執行結果:

㈢ 利用Python處理Excel數據

如果數據沒有標題行,可用pandas添加默認的列名

不讀取哪裡數據,可用skiprows=[i],跳過文件的第i行不讀取

第一次出現的保留,其餘刪除

最後一次出現的保留,其餘刪除

** 對客戶聊天記錄進行分組 **

** 對符合多個條件進行分組**

需要對每一行進行權重設置,列錶行數少可行,過多不可行
假設有4行數據,設置采樣權重

自動生成數據的數量,均值,標准差等數據

相關系數在-1到1之間,接近1為正相關,接近-1為負相關,0為不相關

參考書籍:
《利用pythonj進行數據分析》
《從Excel到Python——數據分析進階指南》

㈣ Python利器:如何處理pdf表格數據

大家好,我是Peter~

在很多情況下,我們都需要處理PDF格式的文件。尤其當我們遇到PDF表格數據需要進行提取,真的是一個令人頭疼的問題。

因為PDF文件不能像Word那樣直接復制,即使復制了再黏貼也可能會出現格式排版錯亂甚至亂碼問題。如何從一個PDF文件提取出表格數據?本文提供兩個解決方案:

首先提供的一種方法是從文字 PDF 中提取表格信息的工具:Camelot,它能夠直接將大部分表格轉換為 Pandas 的 Dataframe。

更多的詳細信息,請參考項目地址: https://github.com/camelot-dev/camelot

camelot的安裝有多種方式。如果有報錯,網上一般有解決方式:

1、通過conda安裝

2、使用pip進行安裝

3、通過GitHub進行安裝

首先將項目復制到本地:

然後進入文件中進行安裝:

下面通過一個案例來講解如何使用camelot。假設我們現在有一個只有一頁的PDF文件test.pdf:

1、先讀取文件

導出成csv格式的數據(方式1)

查看tables的相關信息:

導出方式2:

將數據轉換成DataFrame:

tabula的功能比camelot更加強大,可以同時對多個表格數據進行提取。項目的具體地址請參考: https://github.com/chezou/tabula-py

tabula的安裝是非常簡單的:

安裝之後檢驗這個庫是否安裝成功:

通過tabula這個庫來讀取PDF文件:

然後我們發現列表中唯一的一個元素就是dataframe:

將讀取到的數據輸出成CSV格式的文件:

上面讀取的PDF文件是比較簡單的,只有一頁,而且剛好是一個很標準的表格形式的數據,下面看一個比較復雜的例子:

下面是第一頁,第一列可以看成是索引:

在第二頁中有兩份表格,而且中間有很多的空白行:

第三頁的數據比較標准:

這3頁是在同一個PDF文件中,這3頁是在同一個PDF文件中,這3頁是在同一個PDF文件中

上面的紅色提示中我們看到:當沒有指定pages參數的時候,只會默認讀取第一頁的數據,所以列表的長度為1。

轉成dataframe後將原來的索引變成新的一列 (部分數據)

通過pages來讀取全部數據:

通過指定pages="all":

同時獲取兩個表格的數據:

通過area參數來指定:

刪除在讀取的表格中我們不需要的欄位信息

可以將得到的數據輸出成不同格式的文件,以json格式為例:

我們可以看到

㈤ python可以處理excel數據嗎

python處理excel數據的方法:1、使用xlrd來處理;2、使用【xlutils+xlrd】來處理;3、使用xlwt來處理;4、使用pyExcelerator來處理;5、使用Pandas庫來處理。

㈥ python處理圖片數據

目錄

1.機器是如何存儲圖像的?

2.在Python中讀取圖像數據

3.從圖像數據中提取特徵的方法#1:灰度像素值特徵

4.從圖像數據中提取特徵的方法#2:通道的平均像素值

5.從圖像數據中提取特徵的方法#3:提取邊緣
是一張數字8的圖像,仔細觀察就會發現,圖像是由小方格組成的。這些小方格被稱為像素。

但是要注意,人們是以視覺的形式觀察圖像的,可以輕松區分邊緣和顏色,從而識別圖片中的內容。然而機器很難做到這一點,它們以數字的形式存儲圖像。請看下圖:

機器以數字矩陣的形式儲存圖像,矩陣大小取決於任意給定圖像的像素數。

假設圖像的尺寸為180 x 200或n x m,這些尺寸基本上是圖像中的像素數(高x寬)。

這些數字或像素值表示像素的強度或亮度,較小的數字(接近0)表示黑色,較大的數字(接近255)表示白色。通過分析下面的圖像,讀者就會弄懂到目前為止所學到的知識。

下圖的尺寸為22 x 16,讀者可以通過計算像素數來驗證:

圖片源於機器學習應用課程

剛才討論的例子是黑白圖像,如果是生活中更為普遍的彩色呢?你是否認為彩色圖像也以2D矩陣的形式存儲?

彩色圖像通常由多種顏色組成,幾乎所有顏色都可以從三原色(紅色,綠色和藍色)生成。

因此,如果是彩色圖像,則要用到三個矩陣(或通道)——紅、綠、藍。每個矩陣值介於0到255之間,表示該像素的顏色強度。觀察下圖來理解這個概念:

圖片源於機器學習應用課程

左邊有一幅彩色圖像(人類可以看到),而在右邊,紅綠藍三個顏色通道對應三個矩陣,疊加三個通道以形成彩色圖像。

請注意,由於原始矩陣非常大且可視化難度較高,因此這些不是給定圖像的原始像素值。此外,還可以用各種其他的格式來存儲圖像,RGB是最受歡迎的,所以筆者放到這里。讀者可以在此處閱讀更多關於其他流行格式的信息。

用Python讀取圖像數據

下面開始將理論知識付諸實踐。啟動Python並載入圖像以觀察矩陣:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from skimage.io import imread, imshow
image = imread('image_8_original.png', as_gray=True)
imshow(image)

#checking image shape
image.shape, image

(28,28)

矩陣有784個值,而且這只是整個矩陣的一小部分。用一個LIVE編碼窗口,不用離開本文就可以運行上述所有代碼並查看結果。

下面來深入探討本文背後的核心思想,並探索使用像素值作為特徵的各種方法。

方法#1:灰度像素值特徵

從圖像創建特徵最簡單的方法就是將原始的像素用作單獨的特徵。

考慮相同的示例,就是上面那張圖(數字『8』),圖像尺寸為28×28。

能猜出這張圖片的特徵數量嗎?答案是與像素數相同!也就是有784個。

那麼問題來了,如何安排這784個像素作為特徵呢?這樣,可以簡單地依次追加每個像素值從而生成特徵向量。如下圖所示:

下面來用Python繪制圖像,並為該圖像創建這些特徵:

image = imread('puppy.jpeg', as_gray=True)

image.shape, imshow(image)

(650,450)

該圖像尺寸為650×450,因此特徵數量應為297,000。可以使用NumPy中的reshape函數生成,在其中指定圖像尺寸:

#pixel features

features = np.reshape(image, (660*450))

features.shape, features

(297000,)
array([0.96470588, 0.96470588, 0.96470588, ..., 0.96862745, 0.96470588,
0.96470588])

這里就得到了特徵——長度為297,000的一維數組。很簡單吧?在實時編碼窗口中嘗試使用此方法提取特徵。

但結果只有一個通道或灰度圖像,對於彩色圖像是否也可以這樣呢?來看看吧!

方法#2:通道的平均像素值

在讀取上一節中的圖像時,設置了參數『as_gray = True』,因此在圖像中只有一個通道,可以輕松附加像素值。下面刪除參數並再次載入圖像:

image = imread('puppy.jpeg')
image.shape

(660, 450, 3)

這次,圖像尺寸為(660,450,3),其中3為通道數量。可以像之前一樣繼續創建特徵,此時特徵數量將是660*450*3 = 891,000。

或者,可以使用另一種方法:

生成一個新矩陣,這個矩陣具有來自三個通道的像素平均值,而不是分別使用三個通道中的像素值。

下圖可以讓讀者更清楚地了解這一思路:

這樣一來,特徵數量保持不變,並且還能考慮來自圖像全部三個通道的像素值。

image = imread('puppy.jpeg')
feature_matrix = np.zeros((660,450))
feature_matrix.shape

(660, 450)

現有一個尺寸為(660×450×3)的三維矩陣,其中660為高度,450為寬度,3是通道數。為獲取平均像素值,要使用for循環:

for i in range(0,iimage.shape[0]):
for j in range(0,image.shape[1]):
feature_matrix[i][j] = ((int(image[i,j,0]) + int(image[i,j,1]) + int(image[i,j,2]))/3)

新矩陣具有相同的高度和寬度,但只有一個通道。現在,可以按照與上一節相同的步驟進行操作。依次附加像素值以獲得一維數組:

features = np.reshape(feature_matrix, (660*450))
features.shape

(297000,)

方法#3:提取邊緣特徵

請思考,在下圖中,如何識別其中存在的對象:

識別出圖中的對象很容易——狗、汽車、還有貓,那麼在區分的時候要考慮哪些特徵呢?形狀是一個重要因素,其次是顏色,或者大小。如果機器也能像這樣識別形狀會怎麼樣?

類似的想法是提取邊緣作為特徵並將其作為模型的輸入。稍微考慮一下,要如何識別圖像中的邊緣呢?邊緣一般都是顏色急劇變化的地方,請看下圖:

筆者在這里突出了兩個邊緣。這兩處邊緣之所以可以被識別是因為在圖中,可以分別看到顏色從白色變為棕色,或者由棕色變為黑色。如你所知,圖像以數字的形式表示,因此就要尋找哪些像素值發生了劇烈變化。

假設圖像矩陣如下:

圖片源於機器學習應用課程

該像素兩側的像素值差異很大,於是可以得出結論,該像素處存在顯著的轉變,因此其為邊緣。現在問題又來了,是否一定要手動執行此步驟?

當然不!有各種可用於突出顯示圖像邊緣的內核,剛才討論的方法也可以使用Prewitt內核(在x方向上)來實現。以下是Prewitt內核:

獲取所選像素周圍的值,並將其與所選內核(Prewitt內核)相乘,然後可以添加結果值以獲得最終值。由於±1已經分別存在於兩列之中,因此添加這些值就相當於獲取差異。

還有其他各種內核,下面是四種最常用的內核:

圖片源於機器學習應用課程

現在回到筆記本,為同一圖像生成邊緣特徵:

#importing the required libraries
import numpy as np
from skimage.io import imread, imshow
from skimage.filters import prewitt_h,prewitt_v
import matplotlib.pyplot as plt
%matplotlib inline

#reading the image
image = imread('puppy.jpeg',as_gray=True)

#calculating horizontal edges using prewitt kernel
edges_prewitt_horizontal = prewitt_h(image)
#calculating vertical edges using prewitt kernel
edges_prewitt_vertical = prewitt_v(image)

imshow(edges_prewitt_vertical, cmap='gray')

㈦ python 處理excel

使用xlrd讀取文件,使用xlwt生成Excel文件(可以控制Excel中單元格的格式)。但是用xlrd讀取excel是不能對其進行操作的;而xlwt生成excel文件是不能在已有的excel文件基礎上進行修改的,如需要修改文件就要使用xluntils模塊。pyExcelerator模塊與xlwt類似,也可以用來生成excel文件。
[代碼]test_xlrd.py **
#coding=utf-8
#######################################################
#filename:test_xlrd.py
#author:defias
#date:xxxx-xx-xx
#function:讀excel文件中的數據
#######################################################
import xlrd
#打開一個workbook
workbook = xlrd.open_workbook('E:\\Code\\Python\\testdata.xls')
#抓取所有sheet頁的名稱
worksheets = workbook.sheet_names()
print('worksheets is %s' %worksheets)
#定位到sheet1
worksheet1 = workbook.sheet_by_name(u'Sheet1')
"""
#通過索引順序獲取
worksheet1 = workbook.sheets()[0]
#或
worksheet1 = workbook.sheet_by_index(0)
"""
"""
#遍歷所有sheet對象
for worksheet_name in worksheets:
worksheet = workbook.sheet_by_name(worksheet_name)
"""
#遍歷sheet1中所有行row
num_rows = worksheet1.nrows
for curr_row in range(num_rows):
row = worksheet1.row_values(curr_row)
print('row%s is %s' %(curr_row,row))
#遍歷sheet1中所有列col
num_cols = worksheet1.ncols
for curr_col in range(num_cols):
col = worksheet1.col_values(curr_col)
print('col%s is %s' %(curr_col,col))
#遍歷sheet1中所有單元格cell
for rown in range(num_rows):
for coln in range(num_cols):
cell = worksheet1.cell_value(rown,coln)
print cell
"""
#其他寫法:
cell = worksheet1.cell(rown,coln).value
print cell
#或
cell = worksheet1.row(rown)[coln].value
print cell
#或
cell = worksheet1.col(coln)[rown].value
print cell
#獲取單元格中值的類型,類型 0 empty,1 string, 2 number, 3 date, 4 boolean, 5 error
cell_type = worksheet1.cell_type(rown,coln)
print cell_type
"""
**2. [代碼]test_xlwt.py **
#coding=utf-8
#######################################################
#filename:test_xlwt.py
#author:defias
#date:xxxx-xx-xx
#function:新建excel文件並寫入數據
#######################################################
import xlwt
#創建workbook和sheet對象
workbook = xlwt.Workbook() #注意Workbook的開頭W要大寫
sheet1 = workbook.add_sheet('sheet1',cell_overwrite_ok=True)
sheet2 = workbook.add_sheet('sheet2',cell_overwrite_ok=True)
#向sheet頁中寫入數據
sheet1.write(0,0,'this should overwrite1')
sheet1.write(0,1,'aaaaaaaaaaaa')
sheet2.write(0,0,'this should overwrite2')
sheet2.write(1,2,'bbbbbbbbbbbbb')
"""
#-----------使用樣式-----------------------------------
#初始化樣式
style = xlwt.XFStyle()
#為樣式創建字體
font = xlwt.Font()
font.name = 'Times New Roman'
font.bold = True
#設置樣式的字體
style.font = font
#使用樣式
sheet.write(0,1,'some bold Times text',style)
"""
#保存該excel文件,有同名文件時直接覆蓋
workbook.save('E:\\Code\\Python\\test2.xls')
print '創建excel文件完成!'
**3. [代碼]test_xlutils.py **
#coding=utf-8
#######################################################
#filename:test_xlutils.py
#author:defias
#date:xxxx-xx-xx
#function:向excel文件中寫入數據
#######################################################
import xlrd
import xlutils.
#打開一個workbook
rb = xlrd.open_workbook('E:\\Code\\Python\\test1.xls')
wb = xlutils..(rb)
#獲取sheet對象,通過sheet_by_index()獲取的sheet對象沒有write()方法
ws = wb.get_sheet(0)
#寫入數據
ws.write(1, 1, 'changed!')
#添加sheet頁
wb.add_sheet('sheetnnn2',cell_overwrite_ok=True)
#利用保存時同名覆蓋達到修改excel文件的目的,注意未被修改的內容保持不變
wb.save('E:\\Code\\Python\\test1.xls')
**4. [代碼]test_pyExcelerator_read.py **
#coding=utf-8
#######################################################
#filename:test_pyExcelerator_read.py
#author:defias
#date:xxxx-xx-xx
#function:讀excel文件中的數據
#######################################################
import pyExcelerator
#parse_xls返回一個列表,每項都是一個sheet頁的數據。
#每項是一個二元組(表名,單元格數據)。其中單元格數據為一個字典,鍵值就是單元格的索引(i,j)。如果某個單元格無數據,那麼就不存在這個值
sheets = pyExcelerator.parse_xls('E:\\Code\\Python\\testdata.xls')
print sheets
**5. [代碼]test_pyExcelerator.py **
#coding=utf-8
#######################################################
#filename:test_pyExcelerator.py
#author:defias
#date:xxxx-xx-xx
#function:新建excel文件並寫入數據
#######################################################
import pyExcelerator
#創建workbook和sheet對象
wb = pyExcelerator.Workbook()
ws = wb.add_sheet(u'第一頁')
#設置樣式
myfont = pyExcelerator.Font()
myfont.name = u'Times New Roman'
myfont.bold = True
mystyle = pyExcelerator.XFStyle()
mystyle.font = myfont
#寫入數據,使用樣式
ws.write(0,0,u'ni hao 帕索!',mystyle)
#保存該excel文件,有同名文件時直接覆蓋
wb.save('E:\\Code\\Python\\mini.xls')
print '創建excel文件完成!'

㈧ Python 數據處理(十八)—— HTML 表格

頂級 read_html() 函數可以接受 HTML 字元串、文件或URL,並將 HTML 表解析為 pandas DataFrames 列表。

注意 :即使 HTML 內容中僅包含一個表, read_html 也會返回 DataFrame 對象的列表

讓我們看幾個例子

讀入 banklist.html 文件的內容,並將其作為字元串傳遞給 read_html

如果願意,您甚至可以傳入 StringIO 的實例

讀取 URL 並匹配包含特定文本的表

指定一個標題行(默認情況下 <th> 或 <td> 位於 <thead> 中的元素用於形成列索引,如果 <thead> 中包含多個行,那麼創建一個多索引)

指定索引列

指定要跳過的行數:

使用列表指定要跳過的行數( range 函數也適用)

指定一個 HTML 屬性

指定應轉換為 NaN 的值

指定是否保持默認的 NaN 值集

可以為列指定轉換器。這對於具有前導零的數字文本數據很有用。

默認情況下,將數字列轉換為數字類型,並且前導零會丟失。為了避免這種情況,我們可以將這些列轉換為字元串

組合上面的選項

讀取 to_html 的輸出(會損失浮點數的精度)

當只提供了一個解析器時,如果解析失敗, lxml 解析器會拋出異常,最好的方式是指定一個解析器列表

但是,如果安裝了 bs4 和 html5lib 並傳入 None 或 ['lxml','bs4'] ,則解析很可能會成功。

DataFrame 對象有一個實例方法 to_html ,它將 DataFrame 的內容呈現為 html 表格。

函數參數與上面描述的方法 to_string 相同。

columns 參數將限制顯示的列

float_format 參數控制浮點值的精度

bold_rows 默認情況下將使行標簽加粗,但你可以關閉它

classes 參數提供了給 HTML 表 設置 CSS 類的能力。

請注意,這些類附加到現有的 dataframe 類之後

render_links 參數提供了向包含 url 的單元格添加超鏈接的能力

最後, escape 參數允許您控制 HTML 結果中是否轉義了 "<" 、 ">" 和 "&" 字元(默認情況下為 True )。

因此,要獲得沒有轉義字元的 HTML ,請傳遞 escape=False

轉義

不轉義

在某些瀏覽器上這兩個 HTML 表可能並不會顯示出差異。

在頂級 pandas io 函數 read_html 中,用於解析 HTML 表的庫存在一些問題

㈨ python中如何將表中的數據做成一張表,然後再從中取出數據

第一部分是生成數據表,常見的生成方法有兩種,第一種是導入外部數據,第二種是直接寫入數據。 Excel 中的文件菜單中提供了獲取外部數據的功能,支持資料庫和文本文件和頁面的多種數據源導入。
獲取外部數據
python 支持從多種類型的數據導入。在開始使用 python 進行數據導入前需要先導入 pandas 庫,為了方便起見,我們也同時導入 numpy 庫。
1 import numpy as np
2 import pandas as pd
導入數據表
下面分別是從 excel 和 csv 格式文件導入數據並創建數據表的方法。代碼是最簡模式,裡面有很多可選參數設置,例如列名稱,索引列,數據格式等等。感興趣的朋友可以參考 pandas 的
官方文檔。

1 df=pd.DataFrame(pd.read_csv(『name.csv』,header=1))

2 df=pd.DataFrame(pd.read_excel(『name.xlsx』))

創建數據表
另一種方法是通過直接寫入數據來生成數據表,excel 中直接在單元格中輸入數據就可以,python 中通過下面的代碼來實現。生成數據表的函數是 pandas 庫中的 DateFrame 函數,數據表一共有 6 行數據,每行有 6 個欄位。在數據中我們特意設置了一些 NA 值和有問題的欄位,例如包含空格等。後面將在數據清洗步驟進行處理。後面我們將統一以 DataFrame 的簡稱 df 來命名數據表。
1 df = pd.DataFrame({『id』:[1001,1002,1003,1004,1005,1006],
2 『date』:pd.date_range(『20130102』, periods=6),
3 『city』:['Beijing ', 『SH』, 』 guangzhou ', 『Shenzhen』, 『shanghai』, 'BEIJING '],
4 『age』:[23,44,54,32,34,32],
5 『category』:[『100-A』,『100-B』,『110-A』,『110-C』,『210-A』,『130-F』],
6 『price』:[1200,np.nan,2133,5433,np.nan,4432]},

7 columns =[『id』,『date』,『city』,『category』,『age』,『price』])

這是剛剛創建的數據表,我們沒有設置索引列,price 欄位中包含有 NA 值,city 欄位中還包含了一些臟數據。

數據表檢查
python 中處理的數據量通常會比較大,所以就需要我們對數據表進行檢查。比如我們之前的文章中介紹的紐約計程車數據和 Citibike 的騎行數據,數據量都在千萬級,我們無法一目瞭然的了解數據表的整體情況,必須要通過一些方法來獲得數據表的關鍵信息。數據表檢查的另一個目的是了解數據的概況,例如整個數據表的大小,所佔空間,數據格式,是否有空值和重復項和具體的數據內容。為後面的清洗和預處理做好准備。
數據維度(行列)

Excel 中可以通過 CTRL 向下的游標鍵,和 CTRL 向右的游標鍵來查看行號和列號。Python 中使用 shape 函數來查看數據表的維度,也就是行數和列數,函數返回的結果(6,6)表示數據表有 6 行,6 列。下面是具體的代碼。

1 #查看數據表的維度

2 df.shape

3 (6, 6)

數據表信息

使用 info 函數查看數據表的整體信息,這里返回的信息比較多,包括數據維度,列名稱,數據格式和所佔空間等信息。

1 #數據表信息

2 df.info()

4 <class 『pandas.core.frame.DataFrame』>

5 RangeIndex: 6 entries, 0 to 5

6 Data columns (total 6 columns):

7 id 6 non-null int64

8 date 6 non-null datetime64[ns]

9 city 6 non-null object

10 category 6 non-null object

11 age 6 non-null int64

12 price 4 non-null float64

13 dtypes: datetime64ns, float64(1), int64(2), object(2)

14 memory usage: 368.0 bytes

查看數據格式

Excel 中通過選中單元格並查看開始菜單中的數值類型來判斷數據的格式。Python 中使用 dtypes 函數來返回數據格式。

Dtypes 是一個查看數據格式的函數,可以一次性查看數據表中所有數據的格式,也可以指定一列來單獨查看。
1#查看數據表各列格式
2df.dtypes
3

4id int64

5date datetime64[ns]

6city object

7category object

8age int64

9price float64

10dtype: object

11

12#查看單列格式

13df[『B』].dtype

14

15dtype(『int64』)

查看空值

Excel 中查看空值的方法是使用「定位條件」功能對數據表中的空值進行定位。「定位條件」在「開始」目錄下的「查找和選擇」目錄中。

Isnull 是 Python 中檢驗空值的函數,返回的結果是邏輯值,包含空值返回 True,不包含則返回 False。可以對整個數據表進行檢查,也可以單獨對某一列進行空值檢查。

df_isnull

1#檢查特定列空值

2df[『price』].isnull()

3

40 False

51 True
62 False
73 False

84 True

95 False

10Name: price, dtype: bool

查看唯一值

Excel 中查看唯一值的方法是使用「條件格式」對唯一值進行顏色標記。Python 中使用 unique 函數查看唯一值。

Unique 是查看唯一值的函數,只能對數據表中的特定列進行檢查。下面是代碼,返回的結果是該列中的唯一值。類似與 Excel 中刪除重復項後的結果。

1 #查看 city 列中的唯一值

2 df[『city』].unique()34array(['Beijing ', 『SH』, 』 guangzhou ', 『Shenzhen』, 『shanghai』, 'BEIJING '], dtype=object)

查看數據表數值

Python 中的 Values 函數用來查看數據表中的數值。以數組的形式返回,不包含表頭信息。

1#查看數據表的值

2df.values

3
4array([[1001, Timestamp(『2013-01-02 00:00:00』), 'Beijing ', 『100-A』, 23,
5 1200.0],

6 [1002, Timestamp(『2013-01-03 00:00:00』), 『SH』, 『100-B』, 44, nan],

7 [1003, Timestamp(『2013-01-04 00:00:00』), 』 guangzhou ', 『110-A』, 54,

8 2133.0],

9 [1004, Timestamp(『2013-01-05 00:00:00』), 『Shenzhen』, 『110-C』, 32,

10 5433.0],

11 [1005, Timestamp(『2013-01-06 00:00:00』), 『shanghai』, 『210-A』, 34,
12 nan],

13 [1006, Timestamp(『2013-01-07 00:00:00』), 'BEIJING ', 『130-F』, 32,

14 4432.0]], dtype=object)

查看列名稱

Colums 函數用來單獨查看數據表中的列名稱。

1 #查看列名稱

2 df.columns

3

4 Index([『id』, 『date』, 『city』, 『category』, 『age』, 『price』], dtype=『object』)

查看前 10 行數據

Head 函數用來查看數據表中的前 N 行數據,默認 head()顯示前 10 行數據,可以自己設置參數值來確定查看的行數。下面的代碼中設置查看前 3 行的數據。

1#查看前 3 行數據``df.head(``3``)

Tail 行數與 head 函數相反,用來查看數據表中後 N 行的數據,默認 tail()顯示後 10 行數據,可以自己設置參數值來確定查看的行數。下面的代碼中設置查看後 3 行的數據。

1#查看最後 3 行df.tail(3)

㈩ Python處理Excel效率高十倍(下篇)通篇硬幹貨,再也不用加班啦

《用Python處理Excel表格》下篇來啦!

身為工作黨或學生黨的你,平日里肯定少不了與Excel表格打交道的機會。當你用Excel處理較多數據時,還在使用最原始的人工操作嗎?現在教你如何用Python處理Excel,從此處理表格再也不加班,時間縮短數十倍!

上篇我們進行了一些事前准備,目的是用Python提取Excel表中的數據。而這一篇便是在獲取數據的基礎上,對Excel表格的實操處理。

第9行代碼用來指定創建的excel的活動表的名字:
·不寫第9行,默認創建sheet
·寫了第9行,創建指定名字的sheet表

第9行代碼,通過給單元格重新賦值,來修改單元格的值
第9行代碼的另一種寫法sheet['B1'].value = 'age'
第10行代碼,保存時如果使用原來的(第7行)名字,就直接保存;如果使用了別的名字,就會另存為一個新文件

插入有效數據
使用append()方法,在原來數據的後面,按行插入數據

·insert_rows(idx=數字編號, amount=要插入的行數),插入的行數是在idx行數的下方插入
·insert_cols(idx=數字編號, amount=要插入的列數),插入的位置是在idx列數的左側插入

·delete_rows(idx=數字編號, amount=要刪除的行數)
·delete_cols(idx=數字編號, amount=要刪除的列數)

move_range(「數據區域」,rows=,cols=):正整數為向下或向右、負整數為向左或向上

舉個例子:

openpyxl.styles.Font(name=字體名稱,size=字體大小,bold=是否加粗,italic=是否斜體,color=字體顏色)
其中,字體顏色中的color是RGB的16進製表示

再者,可以使用for循環,修改多行多列的數據,在這里介紹了獲取的方法

Alignment(horizontal=水平對齊模式,vertical=垂直對齊模式,text_rotation=旋轉角度,wrap_text=是否自動換行)
水平對齊:『distributed』,『justify』,『center』,『left』, 『centerContinuous』,'right,『general』
垂直對齊:『bottom』,『distributed』,『justify』,『center』,『top』

當然,你仍舊可以調用for循環來實現對多行多列的操作

設置行列的寬高:
·row_dimensions[行編號].height = 行高
·column_dimensions[列編號].width = 列寬

合並單元格有下面兩種方法,需要注意的是,如果要合並的格子中有數據,即便python沒有報錯,Excel打開的時候也會報錯。
merge_cells(待合並的格子編號)
merge_cells(start_row=起始行號,start_column=起始列號,end_row=結束行號,end_column=結束列號)

拆分單元格的方法同上
unmerge_cells(待合並的格子編號)
unmerge_cells(start_row=起始行號,start_column=起始列號,end_row=結束行號,end_column=結束列號)

create_sheet(「新的sheet名」):創建一個新的sheet表

第11行,使用title修改sheet表的名字

remove(「sheet名」):刪除某個sheet表
要刪除某sheet表,需要激活這個sheet表,即:將其作為活動表(關於活動表的定義請看前面文章開頭寫的有)下面8~11行代碼展示了原始活動表與手動更換活動表,第13行代碼刪掉活動表

背景知識
numpy與pandas
NumPy是 Python 語言的一個擴展程序庫,支持大量的維度數組與矩陣運算,此外也針對數組運算提供大量的數學函數庫;pandas 是基於NumPy 的一種工具,該工具是為解決數據分析任務而創建的,我們需要利用Pandas進行Excel的合並

1.下面的代碼生成了一個5行3列的包含15個字元的嵌套列表
(注意,第4行代碼:15是等於35的,如果是15對應43,或者16對應5*3都會報錯)
(注意,第5行代碼,雖然5行3列是15個數據,但是可以指定數據從1開頭,到16結束)

2.添加表頭
使用pandas庫的DataFrame來添加表頭。關於列印的結果,把最左側的一列去掉之後會發現結果很和諧,這是因為最左側的一列代錶行號。此時xx變數的類型是

xlsxwriter模塊一般是和xlrd模塊搭配使用的,
xlsxwriter:負責寫入數據,
xlrd:負責讀取數據。

1.創建一個工作簿

2.創建sheet表

3.寫入數據

閱讀全文

與python圖片表格數據處理相關的資料

熱點內容
dvd光碟存儲漢子演算法 瀏覽:757
蘋果郵件無法連接伺服器地址 瀏覽:962
phpffmpeg轉碼 瀏覽:671
長沙好玩的解壓項目 瀏覽:144
專屬學情分析報告是什麼app 瀏覽:564
php工程部署 瀏覽:833
android全屏透明 瀏覽:736
阿里雲伺服器已開通怎麼辦 瀏覽:803
光遇為什麼登錄時伺服器已滿 瀏覽:302
PDF分析 瀏覽:484
h3c光纖全工半全工設置命令 瀏覽:143
公司法pdf下載 瀏覽:381
linuxmarkdown 瀏覽:350
華為手機怎麼多選文件夾 瀏覽:683
如何取消命令方塊指令 瀏覽:349
風翼app為什麼進不去了 瀏覽:778
im4java壓縮圖片 瀏覽:362
數據查詢網站源碼 瀏覽:150
伊克塞爾文檔怎麼進行加密 瀏覽:892
app轉賬是什麼 瀏覽:163