二項分布的正態(tài)近似

已知具有二項分布的隨機變量是離散的。這意味著可以在二項分布中發(fā)生可數(shù)目的結(jié)果,這些結(jié)果之間存在分離。例如,二項變量可以取值為3或4,但不能取3到4之間的數(shù)字。

利用二項式分布的離散特性,連續(xù)隨機變量可用于近似二項式分布有點令人驚訝。對于許多二項式分布,我們可以使用正態(tài)分布來近似二項式概率。

當(dāng)查看n投幣機并讓X為頭數(shù)時,可以看到這一點。在這種情況下,我們有一個成功概率為p=0.5的二項式分布。隨著我們增加投擲次數(shù),我們看到概率直方圖與正態(tài)分布越來越相似。

正常近似的陳述

每個正態(tài)分布完全由兩個實數(shù)定義。這些數(shù)字是衡量分布中心的平均值,以及衡量分布分布范圍的標(biāo)準(zhǔn)差。對于給定的二項式情況,我們需要能夠確定使用哪個正態(tài)分布。

正確正態(tài)分布的選擇取決于二項式設(shè)置中的試驗次數(shù)n,以及每個試驗的恒定成功概率p。我們二項變量的正態(tài)近似值是np的平均值和(np(1-p0.5的標(biāo)準(zhǔn)偏差。

例如,假設(shè)我們猜測多項選擇測驗的100個問題中的每一個,其中每個問題在四個選擇中都有一個正確的答案。正確答案的數(shù)量X是一個二項式隨機變量,n=100 andp=0.25。因此,該隨機變量的平均值為100(0.25)=25,標(biāo)準(zhǔn)偏差為(100(0.25)(0.75))0.5=4.33。均值25和標(biāo)準(zhǔn)差4.33的正態(tài)分布將用于近似該二項式分布。

近似值何時合適?

通過使用一些數(shù)學(xué),可以證明我們需要使用二項分布的正態(tài)近似的一些條件。觀測值n必須足夠大,并且p的值使得npn(1-p)大于或等于10。這是一個經(jīng)驗法則,以統(tǒng)計實踐為指導(dǎo)??梢允冀K使用正態(tài)近似,但是如果不滿足這些條件,則近似可能不是近似的那么好。

例如,如果n=100和p=0.25,則我們使用正態(tài)近似來證明這一點。這是因為n p=25和n(1-p)=75。由于這兩個數(shù)字都大于10,適當(dāng)?shù)恼龖B(tài)分布將在估計二項式概率方面做得相當(dāng)好。

為什么使用近似值?

通過使用非常直接的公式來計算二項式概率以找到二項式系數(shù)。不幸的是,由于公式中的因子,使用二項式公式很容易遇到計算困難。正態(tài)近似允許我們通過與熟悉的朋友(標(biāo)準(zhǔn)正態(tài)分布的值表)一起工作來繞過任何這些問題。

人民幣的小知識

很多時候,確定二項式隨機變量落在值范圍內(nèi)的概率是很繁瑣的計算。這是因為要找到一個二項變量96 X 97大于3且小于10的概率,我們需要找到98 X 99的概率等于4、5、6、7、8和9,然后將所有這些概率加在一起。如果可以使用正態(tài)近似,我們將需要確定對應(yīng)于3和10的z分?jǐn)?shù),然后使用z分?jǐn)?shù)概率表進行標(biāo)準(zhǔn)正態(tài)分布。