「清楚表達(explain)『中央極限理論』(central limit theorem)與其重要性」。
假設人類身高的平均數為165公分,變異數為100公分^2。若人類身高的分配不是常態分配,只有使用中央極限理論,才能使用標準常態分配的機率模型,來分析特定一些人的身高所發生之機率。
中央極限理論的原理:
若從上述所假設的非常態分配人類身高母體(無論母體的分配為何),每次隨機抽取出一個有100個觀察值(n ≥ 30個觀察值)的樣本,抽完後再把這100個觀察值放回母體,共抽取出200個樣本(樣本數越多越好),則這200個樣本的身高平均數,分別為164公分、165公分、166公分、…等等。這200個身高平均數的分配就會趨近於常態分配,而且該常態分配的平均數就會比每個樣本的平均數更趨近於165公分,變異數就會趨近於100公分^2/100。
若把觀察值數增加趨近至母體的觀察值數(假設母體的觀察值數N趨近於∞),則這200個樣本的身高平均數都是165公分(因為每個樣本本身就是母體),因此變異數就會趨近於100公分^2/∞ = 0。
有了這個常態分配,就可以使用標準常態分配的機率模型,來分析特定一些人的身高所發生之機率或檢定有關該特定一些人的身高之假設。
更精準的說法是:
中央極限定理係指從一個平均數μ及有限變異數σ^2的母體(無論母體分配為何),取出n個觀察值的簡單隨機樣本,當樣本大小變大(n ≥30)時,樣本平均數的抽樣分配,接近平均數μ及變異數等於σ^2/n的常態機率分配。
中央極限定理非常有用,因為常態分配比較容易建立假設檢定及信賴區間。只要樣本的觀察值數「足夠大」,通常係指≥30,不管母體分配為何,皆可從樣本平均數得到母體平均數的特定推論。
中央極限定理的重要特性如下:
1.如果樣本觀察值數n足夠大(n ≥30),則樣本平均數的抽樣分配趨近常態分配。重複從整體較大的母體,取出大小一樣的隨機樣本。每一個這些隨機樣本,都有自己的平均數,這些平均數本身就是一個隨機樣本,而這組樣本平均數的分配趨近常態分配。
2.母體平均數等於所有可能樣本平均數分配的平均數。
3.樣本平均數分配的變異數為σ^2/n,是母體變異數除以樣本觀察值數n。
本文特別舉CFA Level I 2015 Curriculum Volume 1 p.573-574的例子,來說明中央極限理論:
從一個非常態分配(non-normal distribution)的母體,隨機抽取100個觀察值數(n≥30)的大樣本。
接著計算每個樣本的平均數,所有這些樣本平均數所形成的次數分配,會趨近於常態分配。
若通訊業(假設這個母體有1,000家公司)的通訊設備資本支出為下限$0,上限$100,000,000的連續均勻分配隨機變數-簡稱均勻分配(0,100) 隨機變數(以$百萬為單位)。
以蒙地卡羅模擬200次隨機抽樣,每次抽取100家公司(n = 100)。
每次隨機抽樣的100家公司,可算出一個樣本平均數(sample mean),所以200次的隨機抽樣有200個樣本平均數。
母體的平均數(μ): ($0 + $100,000,000) / 2 = 50,000,000。
母體的變異數(σ^2): ($100,000,000 - $0)^2/ 12 = 833,000,000。
母體的標準差(σ): 833,000,000^(1/2) =28,870,000。
根據中央極限理論:
母體標準差的標準誤: 28,870,000/(100)^(1/2) = 2,887,000
蒙地卡羅模擬200次隨機抽樣的次數分配表如下:
|
樣本平均數範圍(以$百萬為單位) |
絕對次數 |
|
42.5 ≤x < 44 |
1 |
|
44≤x< 45.5 |
6 |
|
45.5 ≤x< 47 |
22 |
|
47 ≤x< 48.5 |
39 |
|
48.5 ≤x< 50 |
41 |
|
50 ≤x< 51.5 |
39 |
|
51.5 ≤x< 53 |
23 |
|
53 ≤x < 54.5 |
12 |
|
54.5 ≤x< 56 |
12 |
|
56 ≤x< 57.5 |
5 |
資料來源: CFA Level I 2015 Curriculum Volume 1 p.573-574
樣本平均數的平均數: $49,920,000
樣本標準差的標準誤: s/n^(1/2) = $2,800,000
我們發現:
樣本平均數的平均數($49,920,000)≠母體的平均數($50,000,000)
樣本標準差的標準誤($2,800,000)≠母體標準差的標準誤($2,887,000)
此差異即為抽樣誤差(sampling error) 。
