python動態數據統計_如何高效地使用Python統計數據的頻率

『壹』 python 數據可視化：數據分布統計圖和熱圖

本課將繼續介紹 Seaborn 中的統計圖。一定要牢記，Seaborn 是對 Matplotlib 的高級封裝，它優化了很多古老的做圖過程，因此才會看到一個函數解決問題的局面。

在統計學中，研究數據的分布情況，也是一個重要的工作，比如某些數據是否為正態分布——某些機器學習模型很在意數據的分布情況。

在 Matplotlib 中，可以通過繪制直方圖將數據的分布情況可視化。在 Seaborn 中，也提供了繪制直方圖的函數。

輸出結果：

sns.distplot 函數即實現了直方圖，還順帶把曲線畫出來了——曲線其實代表了 KDE。

除了 sns.distplot 之外，在 Seaborn 中還有另外一個常用的繪制數據分布的函數 sns.kdeplot，它們的使用方法類似。

首先看這樣一個示例。

輸出結果：

① 的作用是設置所得圖示的背景顏色，這樣做的目的是讓下面的 ② 繪制的圖像顯示更清晰，如果不設置 ①，在顯示的圖示中看到的就是白底圖像，有的部分看不出來。

② 最終得到的是坐標網格，而且在圖中分為三部分，如下圖所示。

相對於以往的坐標網格，多出了 B 和 C 兩個部分。也就是說，不僅可以在 A 部分繪制某種統計圖，在 B 和 C 部分也可以繪制。

繼續操作：

輸出結果：

語句 ③ 實現了在坐標網格中繪制統計圖的效果，jp.plot 方法以兩個繪圖函數為參數，分別在 A 部分繪制了回歸統計圖，在 B 和 C 部分繪制了直方圖，而且直方圖分別表示了對應坐標軸數據的分布，即：

我們把有語句 ② 和 ③ 共同實現的統計圖，稱為聯合統計圖。除了用 ② ③ 兩句可以繪制這種圖之外，還有一個函數也能夠「兩步並作一步」，具體如下：

輸出結果：

『貳』如何高效地使用Python統計數據的頻率

之前用 Python 寫過一個腳本，用來處理上千萬用戶的一些數據，其中有一個需求是統計用戶的某一數據的去重數量。為了加快程序的速度，我啟用了多進程。但不幸的是，程序跑了近一個星期，還沒處理完。這時，我感覺到了不對，於是開始查看程序的性能瓶頸。
對於統計去重數，我是將用戶的數據放到一個列表中，然後用 len(set(data)) 去統計去重數量。剛開始我以為這的數據量並不大，每個用戶的數據不會過百，我並沒有注意到有的用戶會有上萬條的數據，因此消耗了大量的時間（其實我的腳本消耗時間最大的地方是因為從遠程 redis 中取大量數據時發生長時間的阻塞，甚至連接超時，最後我採用的方式分而治之，每次取少量的數據，這樣大大的提高了性能）。
為了做優化，我開始尋求高效的方法。我發現，有大量的人認為採用字典效率會更高，即：
data_unique = {}.fromkeys(data).keys() len(data_unique)

於是，我做了下測試：
In [1]: import random In [2]: data = [random.randint(0, 1000) for _ in xrange(1000000)] In [3]: %timeit len(set(data)) 10 loops, best of 3: 39.7 ms per loop In [4]: %timeit len({}.fromkeys(data).keys()) 10 loops, best of 3: 43.5 ms per loop

由此可見，採用字典和採用集合的性能是差不多的，甚至可能還要慢些。
在 Python 中其實有很多高效的庫，例如用 numpy、pandas 來處理數據，其性能接近於 C 語言。那麼，我們就用 numpy 和 pandas 來解決這個問題，這里我還比較了獲取去重數據的性能，代碼如下：
import collections import random as py_random import timeit import numpy.random as np_random import pandas as pd DATA_SIZE = 10000000 def py_cal_len(): data = [py_random.randint(0, 1000) for _ in xrange(DATA_SIZE)] len(set(data)) def pd_cal_len(): data = np_random.randint(1000, size=DATA_SIZE) data = pd.Series(data) data_unique = data.value_counts() data_unique.size def py_count(): data = [py_random.randint(0, 1000) for _ in xrange(DATA_SIZE)] collections.Counter(data) def pd_count(): data = np_random.randint(1000, size=DATA_SIZE) data = pd.Series(data) data.value_counts() # Script starts from here if __name__ == "__main__": t1 = timeit.Timer("py_cal_len()", setup="from __main__ import py_cal_len") t2 = timeit.Timer("pd_cal_len()", setup="from __main__ import pd_cal_len") t3 = timeit.Timer("py_count()", setup="from __main__ import py_count") t4 = timeit.Timer("pd_count()", setup="from __main__ import pd_count") print t1.timeit(number=1) print t2.timeit(number=1) print t3.timeit(number=1) print t4.timeit(number=1)

運行結果：
12.438587904 0.435907125473 14.6431810856 0.258564949036

利用 pandas 統計數據的去重數和去重數據，其性能是 Python 原生函數的 10 倍以上。

『叄』 Python 數據可視化：分類特徵統計圖

上一課已經體驗到了 Seaborn 相對 Matplotlib 的優勢，本課將要介紹的是 Seaborn 對分類數據的統計，也是它的長項。

針對分類數據的統計圖，可以使用 sns.catplot 繪制，其完整參數如下：

本課使用演繹的方式來學習，首先理解這個函數的基本使用方法，重點是常用參數的含義。

其他的參數，根據名稱也能基本理解。

下面就依據 kind 參數的不同取值，分門別類地介紹各種不同類型的分類統計圖。

讀入數據集：

然後用這個數據集制圖，看看效果：

輸出結果：

毫無疑問，這里繪制的是散點圖。但是，該散點圖的橫坐標是分類特徵 time 中的三個值，並且用 hue='kind' 又將分類特徵插入到圖像中，即用不同顏色的的點代表又一個分類特徵 kind 的值，最終得到這些類別組合下每個記錄中的 pulse 特徵值，並以上述圖示表示出來。也可以理解為，x='time', hue='kind' 引入了圖中的兩個特徵維度。

語句 ① 中，就沒有特別聲明參數 kind 的值，此時是使用默認值 'strip'。

與 ① 等效的還有另外一個對應函數 sns.stripplot。

輸出結果：

② 與 ① 的效果一樣。

不過，在 sns.catplot 中的兩個參數 row、col，在類似 sns.stripplot 這樣的專有函數中是沒有的。因此，下面的圖，只有用 sns.catplot 才能簡潔直觀。

輸出結果：

不過，如果換一個叫角度來說，類似 sns.stripplot 這樣的專有函數，表達簡單，參數與 sns.catplot 相比，有所精簡，使用起來更方便。

仔細比較，sns.catplot 和 sns.stripplot 兩者還是稍有區別的，雖然在一般情況下兩者是通用的。

因此，不要追求某一個是萬能的，各有各的用途，存在即合理。

不過，下面的聲明請注意： 如果沒有非常的必要，比如繪制分區圖，在本課中後續都演示如何使用專有名稱的函數。

前面已經初步解釋了這個函數，為了格式完整，這里再重復一下，即 sns.catplot 中參數 kind='strip'。

如果非要將此函數翻譯為漢語，可以稱之為「條狀散點圖」。以分類特徵為一坐標軸，在另外一個坐標軸上，根據分類特徵，將該分類特徵數據所在記錄中的連續值沿坐標軸描點。

從語句 ② 的結果圖中可以看到，這些點雖然縱軸的數值有相同的，但是沒有將它們重疊。因此，我們看到的好像是「一束」散點，實際上，所有點的橫坐標都應該是相應特徵分類數據，也不要把分類特徵的值理解為一個范圍，分散開僅僅是為了圖示的視覺需要。

輸出結果：

④ 相對 ② 的圖示，在於此時同一縱軸值的都重合了——本來它們的橫軸值都是一樣的。實現此效果的參數是 jitter=0，它可以表示點的「振動」，如果默認或者 jitter=True，意味著允許描點在某個范圍振動——語句 ② 的效果；還可設置為某個 0 到 1 的浮點，表示許可振動的幅度。請對比下面的操作。

輸出結果：

語句 ② 中使用 hue='kind' 參數向圖中提供了另外一個分類特徵，但是，如果感覺圖有點亂，還可以這樣做：

輸出結果：

dodge=True 的作用就在於將 hue='kind' 所引入的特徵數據分開，相對 ② 的效果有很大差異。

並且，在 ⑤ 中還使用了 paletter='Set2' 設置了色彩方案。

sns.stripplot 函數中的其他有關參數，請讀者使用幫助文檔了解。

此函數即 sns.catplot 的參數 kind='swarm'。

輸出結果：

再繪制一張簡單的圖，一遍研究這種圖示的本質。

輸出結果：

此圖只使用了一個特徵的數據，簡化表象，才能探究 sns.swarmplot 的本質。它同樣是將該特徵中的數據，依據其他特徵的連續值在圖中描點，並且所有點在默認情況下不彼此重疊——這方面與 sns.stripplot 一樣。但是，與之不同的是，這些點不是隨機分布的，它們經過調整之後，均勻對稱分布在分類特徵數值所在直線的兩側，這樣能很好地表示數據的分布特點。但是，這種方式不適合「大數據」。

sns.swarmplot 的參數似乎也沒有什麼太特殊的。下面使用幾個，熟悉一番基本操作。

在分類維度上還可以再引入一個維度，用不同顏色的點表示另外一種類別，即使用 hue 參數來實現。

輸出結果：

這里用 hue = 'smoker' 參數又引入了一個分類特徵，在圖中用不同顏色來區分。

如果覺得會 smoker 特徵的值都混在一起有點亂，還可以使用下面方式把他們分開——老調重彈。

輸出結果：

生成此效果的參數就是 dodge=True，它的作用就是當 hue 參數設置了特徵之後，將 hue 的特徵數據進行分類。

sns.catplot 函數的參數 kind 可以有三個值，都是用於繪制分類的分布圖：

下面依次對這三個專有函數進行闡述。

『肆』如何用python進行數據分析

1、Python數據分析流程及學習路徑

數據分析的流程概括起來主要是：讀寫、處理計算、分析建模和可視化四個部分。在不同的步驟中會用到不同的Python工具。每一步的主題也包含眾多內容。

根據每個部分需要用到的工具，Python數據分析的學習路徑如下：

導航:首頁 > 編程語言 > python動態數據統計

python動態數據統計

與python動態數據統計相關的資料