python圖片表格數據處理_python處理圖片數據

㈠ python處理EXCEL數據

能提供一個樣例文件或截個圖看下具體是怎樣的格式

㈡ python之excel操作

在數據處理方面，Python 一直扮演著重要的角色，對於 Excel 操作，它有著完整且成熟的第三方庫，使用也較為簡單。

Python 中常用 Excel 操作庫如下：

向 Excel 中寫入一些數據。

通過 pip install xlwt 命令安裝。

執行結果：

通過 pip install XlsxWriter 命令安裝。

XlsxWriter 可以很方便的生成圖表。

執行結果：

我們使用 xlrd 讀取之前寫入的數據，使用 pip install xlrd 命令安裝。

之前寫入的數據還有一個平均年齡是空著的，我們先讀取之前寫入的數據，再計算出平均值，最後將平均值寫入。這里要用到 xlutils 模塊，使用 pip install xlutils 安裝。

執行結果：

㈢利用Python處理Excel數據

如果數據沒有標題行，可用pandas添加默認的列名

不讀取哪裡數據，可用skiprows=[i]，跳過文件的第i行不讀取

第一次出現的保留，其餘刪除

最後一次出現的保留，其餘刪除

** 對客戶聊天記錄進行分組 **

** 對符合多個條件進行分組**

需要對每一行進行權重設置，列錶行數少可行，過多不可行
假設有4行數據，設置采樣權重

自動生成數據的數量，均值，標准差等數據

相關系數在-1到1之間，接近1為正相關，接近-1為負相關，0為不相關

參考書籍：
《利用pythonj進行數據分析》
《從Excel到Python——數據分析進階指南》

㈣ Python利器：如何處理pdf表格數據

大家好，我是Peter~

在很多情況下，我們都需要處理PDF格式的文件。尤其當我們遇到PDF表格數據需要進行提取，真的是一個令人頭疼的問題。

因為PDF文件不能像Word那樣直接復制，即使復制了再黏貼也可能會出現格式排版錯亂甚至亂碼問題。如何從一個PDF文件提取出表格數據？本文提供兩個解決方案：

首先提供的一種方法是從文字 PDF 中提取表格信息的工具：Camelot，它能夠直接將大部分表格轉換為 Pandas 的 Dataframe。

更多的詳細信息，請參考項目地址： https://github.com/camelot-dev/camelot

camelot的安裝有多種方式。如果有報錯，網上一般有解決方式：

1、通過conda安裝

2、使用pip進行安裝

3、通過GitHub進行安裝

首先將項目復制到本地：

然後進入文件中進行安裝：

下面通過一個案例來講解如何使用camelot。假設我們現在有一個只有一頁的PDF文件test.pdf：

1、先讀取文件

導出成csv格式的數據（方式1）

查看tables的相關信息：

導出方式2：

將數據轉換成DataFrame：

tabula的功能比camelot更加強大，可以同時對多個表格數據進行提取。項目的具體地址請參考： https://github.com/chezou/tabula-py

tabula的安裝是非常簡單的：

安裝之後檢驗這個庫是否安裝成功：

通過tabula這個庫來讀取PDF文件：

然後我們發現列表中唯一的一個元素就是dataframe：

將讀取到的數據輸出成CSV格式的文件：

上面讀取的PDF文件是比較簡單的，只有一頁，而且剛好是一個很標準的表格形式的數據，下面看一個比較復雜的例子：

下面是第一頁，第一列可以看成是索引：

在第二頁中有兩份表格，而且中間有很多的空白行：

第三頁的數據比較標准：

這3頁是在同一個PDF文件中，這3頁是在同一個PDF文件中，這3頁是在同一個PDF文件中

上面的紅色提示中我們看到：當沒有指定pages參數的時候，只會默認讀取第一頁的數據，所以列表的長度為1。

轉成dataframe後將原來的索引變成新的一列 （部分數據）

通過pages來讀取全部數據：

通過指定pages="all"：

同時獲取兩個表格的數據：

通過area參數來指定：

刪除在讀取的表格中我們不需要的欄位信息

可以將得到的數據輸出成不同格式的文件，以json格式為例：

我們可以看到

㈤ python可以處理excel數據嗎

python處理excel數據的方法：1、使用xlrd來處理；2、使用【xlutils+xlrd】來處理；3、使用xlwt來處理；4、使用pyExcelerator來處理；5、使用Pandas庫來處理。

㈥ python處理圖片數據

目錄

1.機器是如何存儲圖像的？

2.在Python中讀取圖像數據

3.從圖像數據中提取特徵的方法#1：灰度像素值特徵

4.從圖像數據中提取特徵的方法#2：通道的平均像素值

5.從圖像數據中提取特徵的方法#3：提取邊緣
是一張數字8的圖像，仔細觀察就會發現，圖像是由小方格組成的。這些小方格被稱為像素。

但是要注意，人們是以視覺的形式觀察圖像的，可以輕松區分邊緣和顏色，從而識別圖片中的內容。然而機器很難做到這一點，它們以數字的形式存儲圖像。請看下圖：

機器以數字矩陣的形式儲存圖像，矩陣大小取決於任意給定圖像的像素數。

假設圖像的尺寸為180 x 200或n x m，這些尺寸基本上是圖像中的像素數（高x寬）。

這些數字或像素值表示像素的強度或亮度，較小的數字（接近0）表示黑色，較大的數字（接近255）表示白色。通過分析下面的圖像，讀者就會弄懂到目前為止所學到的知識。

下圖的尺寸為22 x 16，讀者可以通過計算像素數來驗證：

圖片源於機器學習應用課程

剛才討論的例子是黑白圖像，如果是生活中更為普遍的彩色呢？你是否認為彩色圖像也以2D矩陣的形式存儲？

彩色圖像通常由多種顏色組成，幾乎所有顏色都可以從三原色（紅色，綠色和藍色）生成。

因此，如果是彩色圖像，則要用到三個矩陣（或通道）——紅、綠、藍。每個矩陣值介於0到255之間，表示該像素的顏色強度。觀察下圖來理解這個概念：

圖片源於機器學習應用課程

左邊有一幅彩色圖像（人類可以看到），而在右邊，紅綠藍三個顏色通道對應三個矩陣，疊加三個通道以形成彩色圖像。

請注意，由於原始矩陣非常大且可視化難度較高，因此這些不是給定圖像的原始像素值。此外，還可以用各種其他的格式來存儲圖像，RGB是最受歡迎的，所以筆者放到這里。讀者可以在此處閱讀更多關於其他流行格式的信息。

用Python讀取圖像數據

下面開始將理論知識付諸實踐。啟動Python並載入圖像以觀察矩陣：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
from skimage.io import imread, imshow
image = imread('image_8_original.png', as_gray=True)
imshow(image)

#checking image shape
image.shape, image

（28，28）

矩陣有784個值，而且這只是整個矩陣的一小部分。用一個LIVE編碼窗口，不用離開本文就可以運行上述所有代碼並查看結果。

下面來深入探討本文背後的核心思想，並探索使用像素值作為特徵的各種方法。

方法#1：灰度像素值特徵

從圖像創建特徵最簡單的方法就是將原始的像素用作單獨的特徵。

考慮相同的示例，就是上面那張圖（數字『8』），圖像尺寸為28×28。

能猜出這張圖片的特徵數量嗎？答案是與像素數相同！也就是有784個。

那麼問題來了，如何安排這784個像素作為特徵呢？這樣，可以簡單地依次追加每個像素值從而生成特徵向量。如下圖所示：

下面來用Python繪制圖像，並為該圖像創建這些特徵：

image = imread('puppy.jpeg', as_gray=True)

image.shape, imshow(image)

（650，450）

該圖像尺寸為650×450，因此特徵數量應為297,000。可以使用NumPy中的reshape函數生成，在其中指定圖像尺寸：

#pixel features

features = np.reshape(image, (660*450))

features.shape, features

(297000,)
array([0.96470588, 0.96470588, 0.96470588, ..., 0.96862745, 0.96470588,
0.96470588])

這里就得到了特徵——長度為297,000的一維數組。很簡單吧？在實時編碼窗口中嘗試使用此方法提取特徵。

但結果只有一個通道或灰度圖像，對於彩色圖像是否也可以這樣呢？來看看吧！

方法#2：通道的平均像素值

在讀取上一節中的圖像時，設置了參數『as_gray = True』，因此在圖像中只有一個通道，可以輕松附加像素值。下面刪除參數並再次載入圖像：

image = imread('puppy.jpeg')
image.shape

(660, 450, 3)

這次，圖像尺寸為（660，450，3），其中3為通道數量。可以像之前一樣繼續創建特徵，此時特徵數量將是660*450*3 = 891,000。

或者，可以使用另一種方法：

生成一個新矩陣，這個矩陣具有來自三個通道的像素平均值，而不是分別使用三個通道中的像素值。

下圖可以讓讀者更清楚地了解這一思路：

這樣一來，特徵數量保持不變，並且還能考慮來自圖像全部三個通道的像素值。

image = imread('puppy.jpeg')
feature_matrix = np.zeros((660,450))
feature_matrix.shape

(660, 450)

現有一個尺寸為（660×450×3）的三維矩陣，其中660為高度，450為寬度，3是通道數。為獲取平均像素值，要使用for循環：

for i in range(0,iimage.shape[0]):
for j in range(0,image.shape[1]):
feature_matrix[i][j] = ((int(image[i,j,0]) + int(image[i,j,1]) + int(image[i,j,2]))/3)

新矩陣具有相同的高度和寬度，但只有一個通道。現在，可以按照與上一節相同的步驟進行操作。依次附加像素值以獲得一維數組：

features = np.reshape(feature_matrix, (660*450))
features.shape

(297000,)

方法#3：提取邊緣特徵

請思考，在下圖中，如何識別其中存在的對象：

識別出圖中的對象很容易——狗、汽車、還有貓，那麼在區分的時候要考慮哪些特徵呢？形狀是一個重要因素，其次是顏色，或者大小。如果機器也能像這樣識別形狀會怎麼樣？

類似的想法是提取邊緣作為特徵並將其作為模型的輸入。稍微考慮一下，要如何識別圖像中的邊緣呢？邊緣一般都是顏色急劇變化的地方，請看下圖：

筆者在這里突出了兩個邊緣。這兩處邊緣之所以可以被識別是因為在圖中，可以分別看到顏色從白色變為棕色，或者由棕色變為黑色。如你所知，圖像以數字的形式表示，因此就要尋找哪些像素值發生了劇烈變化。

假設圖像矩陣如下：

圖片源於機器學習應用課程

該像素兩側的像素值差異很大，於是可以得出結論，該像素處存在顯著的轉變，因此其為邊緣。現在問題又來了，是否一定要手動執行此步驟？

當然不！有各種可用於突出顯示圖像邊緣的內核，剛才討論的方法也可以使用Prewitt內核（在x方向上）來實現。以下是Prewitt內核：

獲取所選像素周圍的值，並將其與所選內核（Prewitt內核）相乘，然後可以添加結果值以獲得最終值。由於±1已經分別存在於兩列之中，因此添加這些值就相當於獲取差異。

還有其他各種內核，下面是四種最常用的內核：

圖片源於機器學習應用課程

現在回到筆記本，為同一圖像生成邊緣特徵：

#importing the required libraries
import numpy as np
from skimage.io import imread, imshow
from skimage.filters import prewitt_h,prewitt_v
import matplotlib.pyplot as plt
%matplotlib inline

#reading the image
image = imread('puppy.jpeg',as_gray=True)

#calculating horizontal edges using prewitt kernel
edges_prewitt_horizontal = prewitt_h(image)
#calculating vertical edges using prewitt kernel
edges_prewitt_vertical = prewitt_v(image)

imshow(edges_prewitt_vertical, cmap='gray')

㈦ python 處理excel

使用xlrd讀取文件，使用xlwt生成Excel文件（可以控制Excel中單元格的格式）。但是用xlrd讀取excel是不能對其進行操作的；而xlwt生成excel文件是不能在已有的excel文件基礎上進行修改的，如需要修改文件就要使用xluntils模塊。pyExcelerator模塊與xlwt類似，也可以用來生成excel文件。
[代碼]test_xlrd.py **
#coding=utf-8
#######################################################
#filename:test_xlrd.py
#author:defias
#date:xxxx-xx-xx
#function：讀excel文件中的數據
#######################################################
import xlrd
#打開一個workbook
workbook = xlrd.open_workbook('E:\\Code\\Python\\testdata.xls')
#抓取所有sheet頁的名稱
worksheets = workbook.sheet_names()
print('worksheets is %s' %worksheets)
#定位到sheet1
worksheet1 = workbook.sheet_by_name(u'Sheet1')
"""
#通過索引順序獲取
worksheet1 = workbook.sheets()[0]
#或
worksheet1 = workbook.sheet_by_index(0)
"""
"""
#遍歷所有sheet對象
for worksheet_name in worksheets:
worksheet = workbook.sheet_by_name(worksheet_name)
"""
#遍歷sheet1中所有行row
num_rows = worksheet1.nrows
for curr_row in range(num_rows):
row = worksheet1.row_values(curr_row)
print('row%s is %s' %(curr_row,row))
#遍歷sheet1中所有列col
num_cols = worksheet1.ncols
for curr_col in range(num_cols):
col = worksheet1.col_values(curr_col)
print('col%s is %s' %(curr_col,col))
#遍歷sheet1中所有單元格cell
for rown in range(num_rows):
for coln in range(num_cols):
cell = worksheet1.cell_value(rown,coln)
print cell
"""
#其他寫法：
cell = worksheet1.cell(rown,coln).value
print cell
#或
cell = worksheet1.row(rown)[coln].value
print cell
#或
cell = worksheet1.col(coln)[rown].value
print cell
#獲取單元格中值的類型，類型 0 empty,1 string, 2 number, 3 date, 4 boolean, 5 error
cell_type = worksheet1.cell_type(rown,coln)
print cell_type
"""
**2. [代碼]test_xlwt.py **
#coding=utf-8
#######################################################
#filename:test_xlwt.py
#author:defias
#date:xxxx-xx-xx
#function：新建excel文件並寫入數據
#######################################################
import xlwt
#創建workbook和sheet對象
workbook = xlwt.Workbook() #注意Workbook的開頭W要大寫
sheet1 = workbook.add_sheet('sheet1',cell_overwrite_ok=True)
sheet2 = workbook.add_sheet('sheet2',cell_overwrite_ok=True)
#向sheet頁中寫入數據
sheet1.write(0,0,'this should overwrite1')
sheet1.write(0,1,'aaaaaaaaaaaa')
sheet2.write(0,0,'this should overwrite2')
sheet2.write(1,2,'bbbbbbbbbbbbb')
"""
#-----------使用樣式-----------------------------------
#初始化樣式
style = xlwt.XFStyle()
#為樣式創建字體
font = xlwt.Font()
font.name = 'Times New Roman'
font.bold = True
#設置樣式的字體
style.font = font
#使用樣式
sheet.write(0,1,'some bold Times text',style)
"""
#保存該excel文件,有同名文件時直接覆蓋
workbook.save('E:\\Code\\Python\\test2.xls')
print '創建excel文件完成！'
**3. [代碼]test_xlutils.py **
#coding=utf-8
#######################################################
#filename:test_xlutils.py
#author:defias
#date:xxxx-xx-xx
#function：向excel文件中寫入數據
#######################################################
import xlrd
import xlutils.
#打開一個workbook
rb = xlrd.open_workbook('E:\\Code\\Python\\test1.xls')
wb = xlutils..(rb)
#獲取sheet對象，通過sheet_by_index()獲取的sheet對象沒有write()方法
ws = wb.get_sheet(0)
#寫入數據
ws.write(1, 1, 'changed!')
#添加sheet頁
wb.add_sheet('sheetnnn2',cell_overwrite_ok=True)
#利用保存時同名覆蓋達到修改excel文件的目的,注意未被修改的內容保持不變
wb.save('E:\\Code\\Python\\test1.xls')
**4. [代碼]test_pyExcelerator_read.py **
#coding=utf-8
#######################################################
#filename:test_pyExcelerator_read.py
#author:defias
#date:xxxx-xx-xx
#function：讀excel文件中的數據
#######################################################
import pyExcelerator
#parse_xls返回一個列表，每項都是一個sheet頁的數據。
#每項是一個二元組(表名,單元格數據)。其中單元格數據為一個字典，鍵值就是單元格的索引(i,j)。如果某個單元格無數據，那麼就不存在這個值
sheets = pyExcelerator.parse_xls('E:\\Code\\Python\\testdata.xls')
print sheets
**5. [代碼]test_pyExcelerator.py **
#coding=utf-8
#######################################################
#filename:test_pyExcelerator.py
#author:defias
#date:xxxx-xx-xx
#function：新建excel文件並寫入數據
#######################################################
import pyExcelerator
#創建workbook和sheet對象
wb = pyExcelerator.Workbook()
ws = wb.add_sheet(u'第一頁')
#設置樣式
myfont = pyExcelerator.Font()
myfont.name = u'Times New Roman'
myfont.bold = True
mystyle = pyExcelerator.XFStyle()
mystyle.font = myfont
#寫入數據，使用樣式
ws.write(0,0,u'ni hao 帕索！',mystyle)
#保存該excel文件,有同名文件時直接覆蓋
wb.save('E:\\Code\\Python\\mini.xls')
print '創建excel文件完成！'

㈧ Python 數據處理（十八）—— HTML 表格

頂級 read_html() 函數可以接受 HTML 字元串、文件或URL，並將 HTML 表解析為 pandas DataFrames 列表。

注意：即使 HTML 內容中僅包含一個表， read_html 也會返回 DataFrame 對象的列表

讓我們看幾個例子

讀入 banklist.html 文件的內容，並將其作為字元串傳遞給 read_html

如果願意，您甚至可以傳入 StringIO 的實例

讀取 URL 並匹配包含特定文本的表

指定一個標題行(默認情況下 <th> 或 <td> 位於 <thead> 中的元素用於形成列索引，如果 <thead> 中包含多個行，那麼創建一個多索引)

指定索引列

指定要跳過的行數：

使用列表指定要跳過的行數（ range 函數也適用）

指定一個 HTML 屬性

指定應轉換為 NaN 的值

指定是否保持默認的 NaN 值集

可以為列指定轉換器。這對於具有前導零的數字文本數據很有用。

默認情況下，將數字列轉換為數字類型，並且前導零會丟失。為了避免這種情況，我們可以將這些列轉換為字元串

組合上面的選項

讀取 to_html 的輸出（會損失浮點數的精度）

當只提供了一個解析器時，如果解析失敗， lxml 解析器會拋出異常，最好的方式是指定一個解析器列表

但是，如果安裝了 bs4 和 html5lib 並傳入 None 或 ['lxml'，'bs4'] ，則解析很可能會成功。

DataFrame 對象有一個實例方法 to_html ，它將 DataFrame 的內容呈現為 html 表格。

函數參數與上面描述的方法 to_string 相同。

columns 參數將限制顯示的列

float_format 參數控制浮點值的精度

bold_rows 默認情況下將使行標簽加粗，但你可以關閉它

classes 參數提供了給 HTML 表設置 CSS 類的能力。

請注意，這些類附加到現有的 dataframe 類之後

render_links 參數提供了向包含 url 的單元格添加超鏈接的能力

最後， escape 參數允許您控制 HTML 結果中是否轉義了 "<" 、 ">" 和 "&" 字元（默認情況下為 True ）。

因此，要獲得沒有轉義字元的 HTML ，請傳遞 escape=False

轉義

不轉義

在某些瀏覽器上這兩個 HTML 表可能並不會顯示出差異。

在頂級 pandas io 函數 read_html 中，用於解析 HTML 表的庫存在一些問題

㈨ python中如何將表中的數據做成一張表,然後再從中取出數據

第一部分是生成數據表，常見的生成方法有兩種，第一種是導入外部數據，第二種是直接寫入數據。 Excel 中的文件菜單中提供了獲取外部數據的功能，支持資料庫和文本文件和頁面的多種數據源導入。
獲取外部數據
python 支持從多種類型的數據導入。在開始使用 python 進行數據導入前需要先導入 pandas 庫，為了方便起見，我們也同時導入 numpy 庫。
1 import numpy as np
2 import pandas as pd
導入數據表
下面分別是從 excel 和 csv 格式文件導入數據並創建數據表的方法。代碼是最簡模式，裡面有很多可選參數設置，例如列名稱，索引列，數據格式等等。感興趣的朋友可以參考 pandas 的
官方文檔。

1 df=pd.DataFrame(pd.read_csv(『name.csv』,header=1))

2 df=pd.DataFrame(pd.read_excel(『name.xlsx』))

創建數據表
另一種方法是通過直接寫入數據來生成數據表，excel 中直接在單元格中輸入數據就可以，python 中通過下面的代碼來實現。生成數據表的函數是 pandas 庫中的 DateFrame 函數，數據表一共有 6 行數據，每行有 6 個欄位。在數據中我們特意設置了一些 NA 值和有問題的欄位，例如包含空格等。後面將在數據清洗步驟進行處理。後面我們將統一以 DataFrame 的簡稱 df 來命名數據表。
1 df = pd.DataFrame({『id』:[1001,1002,1003,1004,1005,1006],
2 『date』:pd.date_range(『20130102』, periods=6),
3 『city』:['Beijing ', 『SH』, 』 guangzhou ', 『Shenzhen』, 『shanghai』, 'BEIJING '],
4 『age』:[23,44,54,32,34,32],
5 『category』:[『100-A』,『100-B』,『110-A』,『110-C』,『210-A』,『130-F』],
6 『price』:[1200,np.nan,2133,5433,np.nan,4432]},

7 columns =[『id』,『date』,『city』,『category』,『age』,『price』])

這是剛剛創建的數據表，我們沒有設置索引列，price 欄位中包含有 NA 值，city 欄位中還包含了一些臟數據。

數據表檢查
python 中處理的數據量通常會比較大，所以就需要我們對數據表進行檢查。比如我們之前的文章中介紹的紐約計程車數據和 Citibike 的騎行數據，數據量都在千萬級，我們無法一目瞭然的了解數據表的整體情況，必須要通過一些方法來獲得數據表的關鍵信息。數據表檢查的另一個目的是了解數據的概況，例如整個數據表的大小，所佔空間，數據格式，是否有空值和重復項和具體的數據內容。為後面的清洗和預處理做好准備。
數據維度(行列)

Excel 中可以通過 CTRL 向下的游標鍵，和 CTRL 向右的游標鍵來查看行號和列號。Python 中使用 shape 函數來查看數據表的維度，也就是行數和列數，函數返回的結果(6,6)表示數據表有 6 行，6 列。下面是具體的代碼。

1 #查看數據表的維度

2 df.shape

3 (6, 6)

數據表信息

使用 info 函數查看數據表的整體信息，這里返回的信息比較多，包括數據維度，列名稱，數據格式和所佔空間等信息。

1 #數據表信息

2 df.info()

4 <class 『pandas.core.frame.DataFrame』>

5 RangeIndex: 6 entries, 0 to 5

6 Data columns (total 6 columns):

7 id 6 non-null int64

8 date 6 non-null datetime64[ns]

9 city 6 non-null object

10 category 6 non-null object

11 age 6 non-null int64

12 price 4 non-null float64

13 dtypes: datetime64ns, float64(1), int64(2), object(2)

14 memory usage: 368.0 bytes

查看數據格式

Excel 中通過選中單元格並查看開始菜單中的數值類型來判斷數據的格式。Python 中使用 dtypes 函數來返回數據格式。

Dtypes 是一個查看數據格式的函數，可以一次性查看數據表中所有數據的格式，也可以指定一列來單獨查看。
1#查看數據表各列格式
2df.dtypes
3

4id int64

5date datetime64[ns]

6city object

7category object

8age int64

9price float64

10dtype: object

11

12#查看單列格式

13df[『B』].dtype

14

15dtype(『int64』)

查看空值

Excel 中查看空值的方法是使用「定位條件」功能對數據表中的空值進行定位。「定位條件」在「開始」目錄下的「查找和選擇」目錄中。

Isnull 是 Python 中檢驗空值的函數，返回的結果是邏輯值，包含空值返回 True，不包含則返回 False。可以對整個數據表進行檢查，也可以單獨對某一列進行空值檢查。

df_isnull

1#檢查特定列空值

2df[『price』].isnull()

3

40 False

51 True
62 False
73 False

84 True

95 False

10Name: price, dtype: bool

查看唯一值

Excel 中查看唯一值的方法是使用「條件格式」對唯一值進行顏色標記。Python 中使用 unique 函數查看唯一值。

Unique 是查看唯一值的函數，只能對數據表中的特定列進行檢查。下面是代碼，返回的結果是該列中的唯一值。類似與 Excel 中刪除重復項後的結果。

1 #查看 city 列中的唯一值

2 df[『city』].unique()34array(['Beijing ', 『SH』, 』 guangzhou ', 『Shenzhen』, 『shanghai』, 'BEIJING '], dtype=object)

查看數據表數值

Python 中的 Values 函數用來查看數據表中的數值。以數組的形式返回，不包含表頭信息。

1#查看數據表的值

2df.values

3
4array([[1001, Timestamp(『2013-01-02 00:00:00』), 'Beijing ', 『100-A』, 23,
5 1200.0],

6 [1002, Timestamp(『2013-01-03 00:00:00』), 『SH』, 『100-B』, 44, nan],

7 [1003, Timestamp(『2013-01-04 00:00:00』), 』 guangzhou ', 『110-A』, 54,

8 2133.0],

9 [1004, Timestamp(『2013-01-05 00:00:00』), 『Shenzhen』, 『110-C』, 32,

10 5433.0],

11 [1005, Timestamp(『2013-01-06 00:00:00』), 『shanghai』, 『210-A』, 34,
12 nan],

13 [1006, Timestamp(『2013-01-07 00:00:00』), 'BEIJING ', 『130-F』, 32,

14 4432.0]], dtype=object)

查看列名稱

Colums 函數用來單獨查看數據表中的列名稱。

1 #查看列名稱

2 df.columns

3

4 Index([『id』, 『date』, 『city』, 『category』, 『age』, 『price』], dtype=『object』)

查看前 10 行數據

Head 函數用來查看數據表中的前 N 行數據，默認 head()顯示前 10 行數據，可以自己設置參數值來確定查看的行數。下面的代碼中設置查看前 3 行的數據。

1#查看前 3 行數據``df.head(``3``)

Tail 行數與 head 函數相反，用來查看數據表中後 N 行的數據，默認 tail()顯示後 10 行數據，可以自己設置參數值來確定查看的行數。下面的代碼中設置查看後 3 行的數據。

1#查看最後 3 行df.tail(3)

㈩ Python處理Excel效率高十倍(下篇)通篇硬幹貨，再也不用加班啦

《用Python處理Excel表格》下篇來啦！

身為工作黨或學生黨的你，平日里肯定少不了與Excel表格打交道的機會。當你用Excel處理較多數據時，還在使用最原始的人工操作嗎？現在教你如何用Python處理Excel，從此處理表格再也不加班，時間縮短數十倍！

上篇我們進行了一些事前准備，目的是用Python提取Excel表中的數據。而這一篇便是在獲取數據的基礎上，對Excel表格的實操處理。

第9行代碼用來指定創建的excel的活動表的名字：
·不寫第9行，默認創建sheet
·寫了第9行，創建指定名字的sheet表

第9行代碼，通過給單元格重新賦值，來修改單元格的值
第9行代碼的另一種寫法sheet['B1'].value = 'age'
第10行代碼，保存時如果使用原來的（第7行）名字，就直接保存；如果使用了別的名字，就會另存為一個新文件

插入有效數據
使用append()方法，在原來數據的後面，按行插入數據

·insert_rows(idx=數字編號, amount=要插入的行數)，插入的行數是在idx行數的下方插入
·insert_cols(idx=數字編號, amount=要插入的列數)，插入的位置是在idx列數的左側插入

·delete_rows(idx=數字編號, amount=要刪除的行數)
·delete_cols(idx=數字編號, amount=要刪除的列數)

move_range(「數據區域」,rows=,cols=)：正整數為向下或向右、負整數為向左或向上

舉個例子：

openpyxl.styles.Font(name=字體名稱,size=字體大小,bold=是否加粗,italic=是否斜體,color=字體顏色)
其中，字體顏色中的color是RGB的16進製表示

再者，可以使用for循環，修改多行多列的數據，在這里介紹了獲取的方法

Alignment(horizontal=水平對齊模式,vertical=垂直對齊模式,text_rotation=旋轉角度,wrap_text=是否自動換行)
水平對齊：『distributed』，『justify』，『center』，『left』，『centerContinuous』，'right，『general』
垂直對齊：『bottom』，『distributed』，『justify』，『center』，『top』

當然，你仍舊可以調用for循環來實現對多行多列的操作

設置行列的寬高：
·row_dimensions[行編號].height = 行高
·column_dimensions[列編號].width = 列寬

合並單元格有下面兩種方法，需要注意的是，如果要合並的格子中有數據，即便python沒有報錯，Excel打開的時候也會報錯。
merge_cells(待合並的格子編號)
merge_cells(start_row=起始行號，start_column=起始列號，end_row=結束行號，end_column=結束列號)

拆分單元格的方法同上
unmerge_cells(待合並的格子編號)
unmerge_cells(start_row=起始行號，start_column=起始列號，end_row=結束行號，end_column=結束列號)

create_sheet(「新的sheet名」)：創建一個新的sheet表

第11行，使用title修改sheet表的名字

remove(「sheet名」)：刪除某個sheet表
要刪除某sheet表，需要激活這個sheet表，即：將其作為活動表（關於活動表的定義請看前面文章開頭寫的有）下面8~11行代碼展示了原始活動表與手動更換活動表，第13行代碼刪掉活動表

背景知識
numpy與pandas
NumPy是 Python 語言的一個擴展程序庫，支持大量的維度數組與矩陣運算，此外也針對數組運算提供大量的數學函數庫；pandas 是基於NumPy 的一種工具，該工具是為解決數據分析任務而創建的，我們需要利用Pandas進行Excel的合並

1.下面的代碼生成了一個5行3列的包含15個字元的嵌套列表
（注意，第4行代碼：15是等於35的，如果是15對應43，或者16對應5*3都會報錯）
（注意，第5行代碼，雖然5行3列是15個數據，但是可以指定數據從1開頭，到16結束）

2.添加表頭
使用pandas庫的DataFrame來添加表頭。關於列印的結果，把最左側的一列去掉之後會發現結果很和諧，這是因為最左側的一列代錶行號。此時xx變數的類型是

xlsxwriter模塊一般是和xlrd模塊搭配使用的，
xlsxwriter：負責寫入數據，
xlrd：負責讀取數據。

1.創建一個工作簿

2.創建sheet表

3.寫入數據

導航:首頁 > 編程語言 > python圖片表格數據處理

python圖片表格數據處理

與python圖片表格數據處理相關的資料