1. 如何在Python中實現這五類強大的概率分布
要使用Python實現一些離散和連續的概率分布。雖然我不會討論這些分布的數學細節,但我會以鏈接的方式給你一些學習這些統計學概念的好資料。在討論這些概率分布之前,我想簡單說說什麼是隨機變數(randomvariable)。隨機變數是對一次試驗結果的量化。舉個例子,一個表示拋硬幣結果的隨機變數可以表示成PythonX={1如果正面朝上,2如果反面朝上}12X={1如果正面朝上,2如果反面朝上}隨機變數是一個變數,它取值於一組可能的值(離散或連續的),並服從某種隨機性。隨機變數的每個可能取值的都與一個概率相關聯。隨機變數的所有可能取值和與之相關聯的概率就被稱為概率分布(probabilitydistributrion)。我鼓勵大家仔細研究一下scipy.stats模塊。概率分布有兩種類型:離散(discrete)概率分布和連續(continuous)概率分布。離散概率分布也稱為概率質量函數(probabilitymassfunction)。離散概率分布的例子有伯努利分布(Bernoullidistribution)、二項分布(binomialdistribution)、泊松分布(Poissondistribution)和幾何分布(geometricdistribution)等。連續概率分布也稱為概率密度函數(probabilitydensityfunction),它們是具有連續取值(例如一條實線上的值)的函數。正態分布(normaldistribution)、指數分布(exponentialdistribution)和β分布(betadistribution)等都屬於連續概率分布。若想了解關於離散和連續隨機變數的知識,你可以觀看可汗學院關於概率分布的視頻。二項分布(BinomialDistribution)服從二項分布的隨機變數X表示在n個獨立的是/非試驗中成功的次數,其中每次試驗的成功概率為p。E(X)=np,Var(X)=np(1−p)如果你想知道每個函數的原理,你可以在IPython筆記本中使用helpfile命令。E(X)表示分布的期望或平均值。鍵入stats.binom?了解二項分布函數binom的信息。二項分布的例子:拋擲10次硬幣,恰好兩次正面朝上的概率是多少?假設在該試驗中正面朝上的概率為0.3,這意味著平均來說,我們可以期待有3次是硬幣正面朝上的。我定義擲硬幣的所有可能結果為k=np.arange(0,11):你可能觀測到0次正面朝上、1次正面朝上,一直到10次正面朝上。我使用stats.binom.pmf計算每次觀測的概率質量函數。它返回一個含有11個元素的列表(list),這些元素表示與每個觀測相關聯的概率值。您可以使用.rvs函數模擬一個二項隨機變數,其中參數size指定你要進行模擬的次數。我讓Python返回10000個參數為n和p的二項式隨機變數。我將輸出這些隨機變數的平均值和標准差,然後畫出所有的隨機變數的直方圖。泊松分布(PoissonDistribution)一個服從泊松分布的隨機變數X,表示在具有比率參數(rateparameter)λ的一段固定時間間隔內,事件發生的次數。參數λ告訴你該事件發生的比率。隨機變數X的平均值和方差都是λ。E(X)=λ,Var(X)=λ泊松分布的例子:已知某路口發生事故的比率是每天2次,那麼在此處一天內發生4次事故的概率是多少?讓我們考慮這個平均每天發生2起事故的例子。泊松分布的實現和二項分布有些類似,在泊松分布中我們需要指定比率參數。泊松分布的輸出是一個數列,包含了發生0次、1次、2次,直到10次事故的概率。我用結果生成了以下圖片。你可以看到,事故次數的峰值在均值附近。平均來說,你可以預計事件發生的次數為λ。嘗試不同的λ和n的值,然後看看分布的形狀是怎麼變化的。現在我來模擬1000個服從泊松分布的隨機變數。正態分布(NormalDistribution)正態分布是一種連續分布,其函數可以在實線上的任何地方取值。正態分布由兩個參數描述:分布的平均值μ和方差σ2。E(X)=μ,Var(X)=σ2正態分布的取值可以從負無窮到正無窮。你可以注意到,我用stats.norm.pdf得到正態分布的概率密度函數。β分布(BetaDistribution)β分布是一個取值在[0,1]之間的連續分布,它由兩個形態參數α和β的取值所刻畫。β分布的形狀取決於α和β的值。貝葉斯分析中大量使用了β分布。當你將參數α和β都設置為1時,該分布又被稱為均勻分布(uniformdistribution)。嘗試不同的α和β取值,看看分布的形狀是如何變化的。指數分布(ExponentialDistribution)指數分布是一種連續概率分布,用於表示獨立隨機事件發生的時間間隔。比如旅客進入機場的時間間隔、打進客服中心電話的時間間隔、中文維基網路新條目出現的時間間隔等等。我將參數λ設置為0.5,並將x的取值范圍設置為$[0,15]$。接著,我在指數分布下模擬1000個隨機變數。scale參數表示λ的倒數。函數np.std中,參數ddof等於標准偏差除以$n-1$的值。/81321/