導航:首頁 > 編程語言 > python直方圖統計

python直方圖統計

發布時間:2023-11-07 12:00:36

python 數據可視化:繪制箱線圖、餅圖和直方圖

上一課介紹了柱形圖和條形圖,本課將介紹另外幾種統計圖表。

Box Plot 有多種翻譯,盒須圖、盒式圖、盒狀圖或箱線圖、箱形圖等,不管什麼名稱,它的基本結構是這樣的:

這種圖是由美國著名統計學家約翰·圖基(John Tukey)於 1977 年發明的,它能顯示出一組數據的上限、下限、中位數及上下四分位數。

為了更深入理解箱線圖的含義,假設有這樣一組數據:[1, 3, 5, 8, 10,11, 16, 98 ],共有 8 個數字。

首先要計算箱線圖中的「四分位數」,注意不是 4 個數:

對於已經排序的數據 [1, 3, 5, 8, 10,11, 16, 98 ],下四分位數(Q1)的位置是數列中從小到大第 2.25 個數,當然是不存在這個數字的——如果是第 2 個或者第 3 個,則存在。但是,可以用下面的原則,計算出此位置的數值。

四分位數等於與該位置兩側的兩個整數的加權平均數,此權重取決於相對兩側整數的距離遠近,距離越近,權重越大,距離越遠,權重越小,權數之和等於 1。

根據這個原則,可以分別計算本例中數列的 3 個四分位數。

在此計算基礎上,還可以進一步計算四分位間距和上限、下限的數值。

先看一個簡單示例,了解基本的流程。

輸出結果:

這里繪制了兩張箱線圖,一張沒有顯示平均值,另外一張顯示了平均值,所使用的方法就是 boxplot,其完整參數列表為:

參數很多,不要擔心記憶問題,更別擔心理解問題。首先很多參數都是可以「望文生義」的,再有,與以前所使用的其他方法(函數)的參數含義也大同小異。

輸出結果:

所謂的「凹槽」,不是簡單形狀的改變,左右折線的上限區間表示了數據分布的置信區間,橫線依然是上限和下限。

② Python數據分析:可視化

本文是《數據蛙三個月強化課》的第二篇總結教程,如果想要了解 數據蛙社群 ,可以閱讀 給DataFrog社群同學的學習建議 。溫馨提示:如果您已經熟悉python可視化內容,大可不必再看這篇文章,或是之挑選部分文章

對於我們數據分析師來說,不僅要自己明白數據背後的含義,而且還要給老闆更直觀的展示數據的意義。所以,對於這項不可缺少的技能,讓我們來一起學習下吧。

畫圖之前,我們先導入包和生成數據集

我們先看下所用的數據集

折線圖是我們觀察趨勢常用的圖形,可以看出數據隨著某個變數的變化趨勢,默認情況下參數 kind="line" 表示圖的類型為折線圖。

對於分類數據這種離散數據,需要查看數據是如何在各個類別之間分布的,這時候就可以使用柱狀圖。我們為每個類別畫出一個柱子。此時,可以將參數 kind 設置為 bar 。

條形圖就是將豎直的柱狀圖翻轉90度得到的圖形。與柱狀圖一樣,條形圖也可以有一組或多種多組數據。

水平條形圖在類別名稱很長的時候非常方便,因為文字是從左到右書寫的,與大多數用戶的閱讀順序一致,這使得我們的圖形容易閱讀。而柱狀圖在類別名稱很長的時候是沒有辦法很好的展示的。

直方圖是柱形圖的特殊形式,當我們想要看數據集的分布情況時,選擇直方圖。直方圖的變數劃分至不同的范圍,然後在不同的范圍中統計計數。在直方圖中,柱子之間的連續的,連續的柱子暗示數值上的連續。

箱線圖用來展示數據集的描述統計信息,也就是[四分位數],線的上下兩端表示某組數據的最大值和最小值。箱子的上下兩端表示這組數據中排在前25%位置和75%位置的數值。箱中間的橫線表示中位數。此時可以將參數 kind 設置為 box。

如果想要畫出散點圖,可以將參數 kind 設置為 scatter,同時需要指定 x 和 y。通過散點圖可以探索變數之間的關系。

餅圖是用面積表示一組數據的佔比,此時可以將參數 kind 設置為 pie。

我們剛開始學習的同學,最基本應該明白什麼數據應該用什麼圖形來展示,同學們來一起總結吧。

③ python繪圖篇

1,xlable,ylable設置x,y軸的標題文字。

2,title設置標題。

3,xlim,ylim設置x,y軸顯示範圍。

plt.show()顯示繪圖窗口,通常情況下,show()會阻礙程序運行,帶-wthread等參數的環境下,窗口不會關閉。

plt.saveFig()保存圖像。

面向對象繪圖

1,當前圖表和子圖可以用gcf(),gca()獲得。

subplot()繪制包含多個圖表的子圖。

configure subplots,可調節子圖與圖表邊框距離。

可以通過修改配置文件更改對象屬性。

圖標顯示中文

1,在程序中直接指定字體。

2, 在程序開始修改配置字典reParams.

3,修改配置文件。

Artist對象

1,圖標的繪制領域。

2,如何在FigureCanvas對象上繪圖。

3,如何使用Renderer在FigureCanvas對象上繪圖。

FigureCanvas和Render處理底層圖像操作,Artist處理高層結構。

分為簡單對象和容器對象,簡單的Aritist是標準的繪圖元件,例如Line 2D,Rectangle,Text,AxesImage等,而容器類型包含許多簡單的的 Aritist對象,使他們構成一個整體,例如Axis,Axes,Figure等。

直接創建Artist對象進項繪圖操作步奏:

1,創建Figure對象(通過figure()函數,會進行許多初始化操作,不建議直接創建。)

2,為Figure對象創建一個或多個Axes對象。

3,調用Axes對象的方法創建各類簡單的Artist對象。

Figure容器

如何找到指定的Artist對象。

1,可調用add_subplot()和add_axes()方法向圖表添加子圖。

2,可使用for循環添加柵格。

3,可通過transform修改坐標原點。

Axes容器

1,patch修改背景。

2,包含坐標軸,坐標網格,刻度標簽,坐標軸標題等內容。

3,get_ticklabels(),,get-ticklines獲得刻度標簽和刻度線。

1,可對曲線進行插值。

2,fill_between()繪制交點。

3,坐標變換。

4,繪制陰影。

5,添加註釋。

1,繪制直方圖的函數是

2,箱線圖(Boxplot)也稱箱須圖(Box-whisker Plot),是利用數據中的五個統計量:最小值、第一四分位

數、中位數、第三四分位數與最大值來描述數據的一種方法,它可以粗略地看出數據是否具有對稱性以及分

布的分散程度等信息,特別可以用於對幾個樣本的比較。

3,餅圖就是把一個圓盤按所需表達變數的觀察數劃分為若干份,每一份的角度(即面積)等價於每個觀察

值的大小。

4,散點圖

5,QQ圖

低層繪圖函數

類似於barplot(),dotchart()和plot()這樣的函數採用低層的繪圖函數來畫線和點,來表達它們在頁面上放置的位置以及其他各種特徵。

在這一節中,我們會描述一些低層的繪圖函數,用戶也可以調用這些函數用於繪圖。首先我們先講一下R怎麼描述一個頁面;然後我們講怎麼在頁面上添加點,線和文字;最後講一下怎麼修改一些基本的圖形。

繪圖區域與邊界

R在繪圖時,將顯示區域劃分為幾個部分。繪制區域顯示了根據數據描繪出來的圖像,在此區域內R根據數據選擇一個坐標系,通過顯示出來的坐標軸可以看到R使用的坐標系。在繪制區域之外是邊沿區,從底部開始按順時針方向分別用數字1到4表示。文字和標簽通常顯示在邊沿區域內,按照從內到外的行數先後顯示。

添加對象

在繪制的圖像上還可以繼續添加若干對象,下面是幾個有用的函數,以及對其功能的說明。

•points(x, y, ...),添加點

•lines(x, y, ...),添加線段

•text(x, y, labels, ...),添加文字

•abline(a, b, ...),添加直線y=a+bx

•abline(h=y, ...),添加水平線

•abline(v=x, ...),添加垂直線

•polygon(x, y, ...),添加一個閉合的多邊形

•segments(x0, y0, x1, y1, ...),畫線段

•arrows(x0, y0, x1, y1, ...),畫箭頭

•symbols(x, y, ...),添加各種符號

•legend(x, y, legend, ...),添加圖列說明

④ python繪制直方圖設置y數量

python繪制直方圖設置y數量需要用到matplotlib_pyplot_hist方法。Python由荷蘭數學和計算機科學研究學會的吉多·范羅蘇姆於1990年代初設計,作為一門叫做ABC語言的替代品。Python提供了高效的高級數據結構,還能簡單有效地面向對象編程。Python語法和動態類型,以及解釋型語言的本質,使它成為多數平台上寫腳本和快速開發應用的編程語言,隨著版本的不斷更新和語言新功能的添加,逐漸被用於獨立的、大型項目的開發。

⑤ python可視化數據分析常用圖大集合(收藏)

python數據分析常用圖大集合:包含折線圖、直方圖、垂直條形圖、水平條形圖、餅圖、箱線圖、熱力圖、散點圖、蜘蛛圖、二元變數分布、面積圖、六邊形圖等12種常用可視化數據分析圖,後期還會不斷的收集整理,請關注更新!

以下默認所有的操作都先導入了numpy、pandas、matplotlib、seaborn

一、折線圖

折線圖可以用來表示數據隨著時間變化的趨勢

Matplotlib

plt.plot(x, y)

plt.show()

Seaborn

df = pd.DataFrame({'x': x, 'y': y})

sns.lineplot(x="x", y="y", data=df)

plt.show()

二、直方圖

直方圖是比較常見的視圖,它是把橫坐標等分成了一定數量的小區間,然後在每個小區間內用矩形條(bars)展示該區間的數值

Matplotlib

Seaborn

三、垂直條形圖

條形圖可以幫我們查看類別的特徵。在條形圖中,長條形的長度表示類別的頻數,寬度表示類別。

Matplotlib

Seaborn

1plt.show()

四、水平條形圖

五、餅圖

六、箱線圖

箱線圖由五個數值點組成:最大值 (max)、最小值 (min)、中位數 (median) 和上下四分位數 (Q3, Q1)。

可以幫我們分析出數據的差異性、離散程度和異常值等。

Matplotlib

Seaborn

七、熱力圖

力圖,英文叫 heat map,是一種矩陣表示方法,其中矩陣中的元素值用顏色來代表,不同的顏色代表不同大小的值。通過顏色就能直觀地知道某個位置上數值的大小。

通過 seaborn 的 heatmap 函數,我們可以觀察到不同年份,不同月份的乘客數量變化情況,其中顏色越淺的代表乘客數量越多

八、散點圖

散點圖的英文叫做 scatter plot,它將兩個變數的值顯示在二維坐標中,非常適合展示兩個變數之間的關系。

Matplotlib

Seaborn

九、蜘蛛圖

蜘蛛圖是一種顯示一對多關系的方法,使一個變數相對於另一個變數的顯著性是清晰可見

十、二元變數分布

二元變數分布可以看兩個變數之間的關系

十一、面積圖

面積圖又稱區域圖,強調數量隨時間而變化的程度,也可用於引起人們對總值趨勢的注意。

堆積面積圖還可以顯示部分與整體的關系。折線圖和面積圖都可以用來幫助我們對趨勢進行分析,當數據集有合計關系或者你想要展示局部與整體關系的時候,使用面積圖為更好的選擇。

十二、六邊形圖

六邊形圖將空間中的點聚合成六邊形,然後根據六邊形內部的值為這些六邊形上色。

原文至:https://www.py.cn/toutiao/16894.html

⑥ Python 數據可視化:數據分布統計圖和熱圖

本課將繼續介紹 Seaborn 中的統計圖。一定要牢記,Seaborn 是對 Matplotlib 的高級封裝,它優化了很多古老的做圖過程,因此才會看到一個函數解決問題的局面。

在統計學中,研究數據的分布情況,也是一個重要的工作,比如某些數據是否為正態分布——某些機器學習模型很在意數據的分布情況。

在 Matplotlib 中,可以通過繪制直方圖將數據的分布情況可視化。在 Seaborn 中,也提供了繪制直方圖的函數。

輸出結果:

sns.distplot 函數即實現了直方圖,還順帶把曲線畫出來了——曲線其實代表了 KDE。

除了 sns.distplot 之外,在 Seaborn 中還有另外一個常用的繪制數據分布的函數 sns.kdeplot,它們的使用方法類似。

首先看這樣一個示例。

輸出結果:

① 的作用是設置所得圖示的背景顏色,這樣做的目的是讓下面的 ② 繪制的圖像顯示更清晰,如果不設置 ①,在顯示的圖示中看到的就是白底圖像,有的部分看不出來。

② 最終得到的是坐標網格,而且在圖中分為三部分,如下圖所示。

相對於以往的坐標網格,多出了 B 和 C 兩個部分。也就是說,不僅可以在 A 部分繪制某種統計圖,在 B 和 C 部分也可以繪制。

繼續操作:

輸出結果:

語句 ③ 實現了在坐標網格中繪制統計圖的效果,jp.plot 方法以兩個繪圖函數為參數,分別在 A 部分繪制了回歸統計圖,在 B 和 C 部分繪制了直方圖,而且直方圖分別表示了對應坐標軸數據的分布,即:

我們把有語句 ② 和 ③ 共同實現的統計圖,稱為聯合統計圖。除了用 ② ③ 兩句可以繪制這種圖之外,還有一個函數也能夠「兩步並作一步」,具體如下:

輸出結果:

⑦ python畫hist直方圖

簡單說下圖形選擇啦,通常我們最常用的圖形是折線圖、扇形圖、條形圖,它們的功能簡單概括為:
折線圖:表示變化情況;
扇形圖:表示各類別的分布佔比情況;
條形圖:表示具體數值;

接下來要說的直方圖是以條形圖的形式展現的,在統計學中, 直方圖 (英語:Histogram)是一種對數據分布情況的圖形表示。

以下展示了python畫直方圖的幾種方式,這里涉及到了3個包:matplotlib、pandas、seanborn。
1、使用 matplotlib.pyplot.hist 函數(本文主要講解該方法畫直方圖)

2、使用 pandas.DataFrame.plot.hist 函數

3、使用 pandas.DataFrame.hist 函數

4、使用 seaborn.distplot 函數

以下為 matplotlib.pyplot.hist 函數介紹:

參數:

返回值:

模擬真實場景:我們通過分析打分,給1000個客戶進行了排名,排名越靠前,說明客戶越優異,為了找到特定的200個客戶的排名處於這1000個客戶中的位置,使用了直方圖對比的方式。以下使用的數據是為模擬場景,隨機出來的結果排名比較靠後,所以這些客戶質量並不高:

hist: https://my.oschina.net/u/2474629/blog/1793008
matplotlib中文亂碼: https://www.jianshu.com/p/c0f19f87036f

⑧ 如何在Python中實現這五類強大的概率分布

R編程語言已經成為統計分析中的事實標准。但在這篇文章中,我將告訴你在Python中實現統計學概念會是如此容易。我要使用Python實現一些離散和連續的概率分布。雖然我不會討論這些分布的數學細節,但我會以鏈接的方式給你一些學習這些統計學概念的好資料。在討論這些概率分布之前,我想簡單說說什麼是隨機變數(random variable)。隨機變數是對一次試驗結果的量化。

舉個例子,一個表示拋硬幣結果的隨機變數可以表示成

Python

1

2

X = {1 如果正面朝上,

2 如果反面朝上}

隨機變數是一個變數,它取值於一組可能的值(離散或連續的),並服從某種隨機性。隨機變數的每個可能取值的都與一個概率相關聯。隨機變數的所有可能取值和與之相關聯的概率就被稱為概率分布(probability distributrion)。

我鼓勵大家仔細研究一下scipy.stats模塊。

概率分布有兩種類型:離散(discrete)概率分布和連續(continuous)概率分布。

離散概率分布也稱為概率質量函數(probability mass function)。離散概率分布的例子有伯努利分布(Bernoulli distribution)、二項分布(binomial distribution)、泊松分布(Poisson distribution)和幾何分布(geometric distribution)等。

連續概率分布也稱為概率密度函數(probability density function),它們是具有連續取值(例如一條實線上的值)的函數。正態分布(normal distribution)、指數分布(exponential distribution)和β分布(beta distribution)等都屬於連續概率分布。

若想了解更多關於離散和連續隨機變數的知識,你可以觀看可汗學院關於概率分布的視頻。

二項分布(Binomial Distribution)

服從二項分布的隨機變數X表示在n個獨立的是/非試驗中成功的次數,其中每次試驗的成功概率為p。

E(X) =np, Var(X) =np(1−p)

如果你想知道每個函數的原理,你可以在IPython筆記本中使用help file命令。E(X)表示分布的期望或平均值。

鍵入stats.binom?了解二項分布函數binom的更多信息。

二項分布的例子:拋擲10次硬幣,恰好兩次正面朝上的概率是多少?

假設在該試驗中正面朝上的概率為0.3,這意味著平均來說,我們可以期待有3次是硬幣正面朝上的。我定義擲硬幣的所有可能結果為k = np.arange(0,11):你可能觀測到0次正面朝上、1次正面朝上,一直到10次正面朝上。我使用stats.binom.pmf計算每次觀測的概率質量函數。它返回一個含有11個元素的列表(list),這些元素表示與每個觀測相關聯的概率值。

結語(Conclusion)

概率分布就像蓋房子的藍圖,而隨機變數是對試驗事件的總結。我建議你去看看哈佛大學數據科學課程的講座,Joe Blitzstein教授給了一份摘要,包含了你所需要了解的關於統計模型和分布的全部。

閱讀全文

與python直方圖統計相關的資料

熱點內容
如何復制usb加密狗 瀏覽:799
哪個app看你微笑時很美 瀏覽:908
mac啟動命令 瀏覽:602
ngc伺服器是什麼的簡稱 瀏覽:73
深度系統如何創建文件夾 瀏覽:846
臨汾單片機步進電機驅動電路 瀏覽:76
全新勝達天窗能編程嗎 瀏覽:320
ug常用命令 瀏覽:349
為什麼碳數增加密度減小 瀏覽:420
少兒計算機編程培訓無聊嗎 瀏覽:589
安卓界面更新時點擊卡頓如何解決 瀏覽:773
日本十大漫畫app哪個好用 瀏覽:878
做系統選擇哪個文件夾 瀏覽:285
如何登陸mc伺服器 瀏覽:801
華為無法定位伺服器地址 瀏覽:963
編譯原理第三版陳火旺課本圖片 瀏覽:566
cad用什麼解壓縮軟體 瀏覽:717
編譯的函數模版 瀏覽:361
加密貨幣利率改變 瀏覽:228
復雜網路案例python 瀏覽:298