了解分位數(shù):定義和用途

總結統(tǒng)計數(shù)據(jù),如中位數(shù),第一四分位數(shù)和第三四分位數(shù)是位置的度量。這是因為這些數(shù)字表示數(shù)據(jù)分布的指定比例所在的位置。例如,中位數(shù)是被調(diào)查數(shù)據(jù)的中間位置。一半的數(shù)據(jù)值小于中位數(shù)。同樣,25%的數(shù)據(jù)值小于第一個四分位數(shù),75%的數(shù)據(jù)值小于第三個四分位數(shù)。

這個概念可以概括。一種方法是考慮百分位數(shù)。第90百分位數(shù)表示90%的數(shù)據(jù)值小于此數(shù)字的點。更一般地,p第百分位數(shù)是n的數(shù)字,其中p%的數(shù)據(jù)小于n。

連續(xù)隨機變量

盡管中位數(shù),第一四分位數(shù)和第三四分位數(shù)的順序統(tǒng)計量通常在具有離散數(shù)據(jù)集的設置中引入,但這些統(tǒng)計量也可以針對連續(xù)隨機變量定義。由于我們正在處理連續(xù)分布,因此我們使用積分。第22百分位是一個數(shù)字24 n 25,這樣:

nfxdx=p/100。

這里fx)是概率密度函數(shù)。因此,我們可以獲得連續(xù)分布所需的任何百分位數(shù)。

分位數(shù)

進一步的概括是要注意,我們的訂單統(tǒng)計數(shù)據(jù)正在分割我們正在使用的分布。中位數(shù)將數(shù)據(jù)集分成兩半,連續(xù)分布的中位數(shù)或第50百分位數(shù)在面積方面將分布分成兩半。第一個四分位數(shù),中位數(shù)和第三個四分位數(shù)將我們的數(shù)據(jù)分成四個部分,每個部分的計數(shù)相同。我們可以使用上面的積分來獲得第25,第50和第75百分位數(shù),并分割一個連續(xù)的分布分為相等面積的四個部分。

我們可以概括這個過程。我們可以從一個自然數(shù)n開始的問題,我們?nèi)绾螌⒆兞康姆植挤殖?em>n相等大小的部分?這直接說明了分位數(shù)的想法。

數(shù)據(jù)集的n分位數(shù)大約是通過按順序?qū)?shù)據(jù)進行排名,然后通過間隔上的n-1個等距點對該排名進行劃分來找到的。

如果我們有一個連續(xù)隨機變量的概率密度函數(shù),我們使用上述積分來找到分位數(shù)。對于n分位數(shù),我們想要:

  • 第一個具有分布區(qū)域左側(cè)的1/n。
  • 第二個具有分布區(qū)域左側(cè)的2/n。
  • rth具有分布區(qū)域左側(cè)的r/n99>
  • **一個(n-1)/n分配到它的左側(cè)。

我們看到,對于任何自然數(shù)n,n分位數(shù)對應于第100r/n個百分位數(shù),其中r可以是從1到n蜻蜓的小知識-1的任何自然數(shù)。

公共分位數(shù)

某些類型的分位數(shù)通常足以具有特定名稱。以下是這些列表:

  • 2分位數(shù)稱為中位數(shù)
  • 3個分位數(shù)稱為terciles
  • 4個分位數(shù)稱為四分位數(shù)
  • 5個分位數(shù)稱為五分位數(shù)
  • 6個分位數(shù)稱為六分位數(shù)
  • 7個分位數(shù)稱為分位數(shù)
  • 8個分位數(shù)稱為八分位數(shù)
  • 10個分位數(shù)稱為12個分位數(shù)稱為duodeciles 151 152,20個分位數(shù)稱為vigintiles 153,154,100個分位數(shù)稱為percentiles
  • 1000分位數(shù)稱為permilles

當然,其他分位數(shù)超出上面列表中的分位數(shù)。多次使用的特定分位數(shù)與連續(xù)分布的樣本大小匹配。

使用分位數(shù)

除了指定一組數(shù)據(jù)的位置外,分位數(shù)還有其他方面的幫助。假設我們有一個來自種群的簡單隨機樣本,種群的分布是未知的。為了幫助確定模型(例如正態(tài)分布或威布爾分布)是否適合我們從中采樣的人群,我們可以查看數(shù)據(jù)和模型的分位數(shù)。

通過將樣本數(shù)據(jù)中的分位數(shù)與特定概率分布中的分位數(shù)進行匹配,結果是配對數(shù)據(jù)的集合。我們將這些數(shù)據(jù)繪制在散點圖中,稱為分位數(shù)分位數(shù)圖或q-q圖。如果生成的散點圖大致呈線性,則該模型非常適合我們的數(shù)據(jù)。