卡方擬合優(yōu)度檢驗的例子
卡方擬合優(yōu)度檢驗可用于將理論模型與觀察數(shù)據(jù)進(jìn)行比較。該測試是一種更一般的卡方檢驗。與數(shù)學(xué)或統(tǒng)計學(xué)中的任何主題一樣,通過卡方擬合優(yōu)度檢驗的例子,通過一個例子來理解發(fā)生了什么可能會有所幫助。
考慮一個標(biāo)準(zhǔn)的牛奶巧克力M&包裝;女士。有六種不同的顏色:紅色,橙色,黃色,綠色,藍(lán)色和棕色。假設(shè)我們對這些顏色的分布很好奇,問,所有六種顏色是否以相等的比例出現(xiàn)?這是可以通過擬合優(yōu)度測試來回答的問題類型。
Setting
我們首先注意設(shè)置以及為什么適合擬合優(yōu)度測試。我們的顏色變量是**的。這個變量有六個級別,對應(yīng)于可能的六種顏色。我們將假設(shè)我們計數(shù)的M&Ms將是來自所有M&Ms群體的簡單隨機樣本。
Null and Alternative hypothesis
我們擬合優(yōu)度檢驗的零假設(shè)和替代假設(shè)反映了我們對人口做出的假設(shè)。由于我們正在測試顏色是否以相等的比例出現(xiàn),我們的零假設(shè)是所有顏色都以相同的比例出現(xiàn)。更正式地說,如果p是紅色念珠菌的種群比例,p是橙色念珠菌的種群比例,依此類推,那么零假設(shè)是p=p=。=p=1/6。
另一種假設(shè)是,至少一個人口比例不等于1/6。
實際和預(yù)期計數(shù)
實際計數(shù)是六種顏色中每種顏色的糖果數(shù)量。預(yù)期數(shù)量是指如果零假設(shè)是真的,我們會期待什么。我們將讓n成為我們樣本的大小。紅色糖果的預(yù)期數(shù)量為p n或n/6。實際上,在這個例子中,六種顏色中每種顏色的預(yù)期糖果數(shù)量僅為n倍p或n/6。
擬合優(yōu)度的卡方統(tǒng)計量
現(xiàn)在,我們將為特定示例計算卡方統(tǒng)計量。假設(shè)我們有一個600 M&M糖果的簡單隨機樣本,分布如下:
- 212的糖果是藍(lán)色的。
- 147的糖果是橙色的。
- 103的糖果是綠色的。
- 50的糖果是紅色的。
- 46的糖果是黃色的。
- 42的糖果是棕色的。
如果零假設(shè)是真的,那么每種顏色的預(yù)期計數(shù)將是(1/6)×600=100。我們現(xiàn)在在計算卡方統(tǒng)計量時使用它。
我們根據(jù)每種顏色計算對統(tǒng)計數(shù)據(jù)的貢獻(xiàn)。每個都是(實際-預(yù)期)2/預(yù)期的形式:
- 對于藍(lán)色,我們有(212-100)95 95 2 96/100 125.44 97 97 98對于橙色,我們有(147-100)99 2 100/100 22.09 101 102對于綠色,我們有(103-100)103 2 104/100/100 0.09 105/105/106對于藍(lán)色,我們有(50-100)107 2 108/100 25 109/110 110對于藍(lán)色,我們有(212-100)9595 2 96/96/100 125.44/100 125.44 97 97/98 98對于橙色,我們有(147-100)
- 對于棕色,我們有(42–-100)22/100/100=100=在100)2/100=33.64
然后,我們將所有這些貢獻(xiàn)相加,并確定我們的卡方統(tǒng)計量為125.44+22.09+0.09+25+29.16+33.64=235.42。
自由度
擬合優(yōu)度測試的自由度數(shù)僅比我們變量的等級數(shù)少一個。由于有六種顏色禮儀常識,我們有6-1=5個自由度。
133 134卡方表和P值135 136我們計算的235.42的卡方統(tǒng)計量對應(yīng)于具有五個自由度的卡方分布上的特定位置。現(xiàn)在,我們需要一個p值來確定在假設(shè)零假設(shè)為真的情況下,獲得至少與235.42一樣極端的檢驗統(tǒng)計量的概率。
Microsoft的Excel可以用于此計算。我們發(fā)現(xiàn)具有五個自由度的檢驗統(tǒng)計量的p值為7.29 x 10-49。這是一個非常小的p值。
決策規(guī)則
我們根據(jù)p值的大小決定是否拒絕零假設(shè)。由于我們有一個非常小的p值,我們拒絕零假設(shè)。我們得出結(jié)論,M&Ms在六種不同顏色中分布不均勻。后續(xù)分析可用于確定一種特定顏色的人口比例的置信區(qū)間。