了解分位數(shù):定義和用途
總結統(tǒng)計數(shù)據(jù),如中位數(shù),第一四分位數(shù)和第三四分位數(shù)是位置的度量。這是因為這些數(shù)字表示數(shù)據(jù)分布的指定比例所在的位置。例如,中位數(shù)是被調(diào)查數(shù)據(jù)的中間位置。一半的數(shù)據(jù)值小于中位數(shù)。同樣,25%的數(shù)據(jù)值小于第一個四分位數(shù),75%的數(shù)據(jù)值小于第三個四分位數(shù)。
這個概念可以概括。一種方法是考慮百分位數(shù)。第90百分位數(shù)表示90%的數(shù)據(jù)值小于此數(shù)字的點。更一般地,p第百分位數(shù)是n的數(shù)字,其中p%的數(shù)據(jù)小于n。
連續(xù)隨機變量
盡管中位數(shù),第一四分位數(shù)和第三四分位數(shù)的順序統(tǒng)計量通常在具有離散數(shù)據(jù)集的設置中引入,但這些統(tǒng)計量也可以針對連續(xù)隨機變量定義。由于我們正在處理連續(xù)分布,因此我們使用積分。第22百分位是一個數(shù)字24 n 25,這樣:
∫nf(x)dx=p/100。
這里f(x)是概率密度函數(shù)。因此,我們可以獲得連續(xù)分布所需的任何百分位數(shù)。
分位數(shù)
進一步的概括是要注意,我們的訂單統(tǒng)計數(shù)據(jù)正在分割我們正在使用的分布。中位數(shù)將數(shù)據(jù)集分成兩半,連續(xù)分布的中位數(shù)或第50百分位數(shù)在面積方面將分布分成兩半。第一個四分位數(shù),中位數(shù)和第三個四分位數(shù)將我們的數(shù)據(jù)分成四個部分,每個部分的計數(shù)相同。我們可以使用上面的積分來獲得第25,第50和第75百分位數(shù),并分割一個連續(xù)的分布分為相等面積的四個部分。
我們可以概括這個過程。我們可以從一個自然數(shù)n開始的問題,我們?nèi)绾螌⒆兞康姆植挤殖?em>n相等大小的部分?這直接說明了分位數(shù)的想法。
數(shù)據(jù)集的n分位數(shù)大約是通過按順序?qū)?shù)據(jù)進行排名,然后通過間隔上的n-1個等距點對該排名進行劃分來找到的。
如果我們有一個連續(xù)隨機變量的概率密度函數(shù),我們使用上述積分來找到分位數(shù)。對于n分位數(shù),我們想要:
- 第一個具有分布區(qū)域左側(cè)的1/n。
- 第二個具有分布區(qū)域左側(cè)的2/n。
- rth具有分布區(qū)域左側(cè)的r/n99>
- **一個(n-1)/n分配到它的左側(cè)。
我們看到,對于任何自然數(shù)n,n分位數(shù)對應于第100r/n個百分位數(shù),其中r可以是從1到n蜻蜓的小知識-1的任何自然數(shù)。
公共分位數(shù)
某些類型的分位數(shù)通常足以具有特定名稱。以下是這些列表:
- 2分位數(shù)稱為中位數(shù)
- 3個分位數(shù)稱為terciles
- 4個分位數(shù)稱為四分位數(shù)
- 5個分位數(shù)稱為五分位數(shù)
- 6個分位數(shù)稱為六分位數(shù)
- 7個分位數(shù)稱為分位數(shù)
- 8個分位數(shù)稱為八分位數(shù)
- 10個分位數(shù)稱為12個分位數(shù)稱為duodeciles 151 152,20個分位數(shù)稱為vigintiles 153,154,100個分位數(shù)稱為percentiles
- 1000分位數(shù)稱為permilles
當然,其他分位數(shù)超出上面列表中的分位數(shù)。多次使用的特定分位數(shù)與連續(xù)分布的樣本大小匹配。
使用分位數(shù)
除了指定一組數(shù)據(jù)的位置外,分位數(shù)還有其他方面的幫助。假設我們有一個來自種群的簡單隨機樣本,種群的分布是未知的。為了幫助確定模型(例如正態(tài)分布或威布爾分布)是否適合我們從中采樣的人群,我們可以查看數(shù)據(jù)和模型的分位數(shù)。
通過將樣本數(shù)據(jù)中的分位數(shù)與特定概率分布中的分位數(shù)進行匹配,結果是配對數(shù)據(jù)的集合。我們將這些數(shù)據(jù)繪制在散點圖中,稱為分位數(shù)分位數(shù)圖或q-q圖。如果生成的散點圖大致呈線性,則該模型非常適合我們的數(shù)據(jù)。