over 3 years ago

統計學裡 最核心的問題就是分析母體性質(population level quantity)
所謂的母體 就是你抽樣的"來源"
母體性質就是這個母體的一些特性 通常也被稱為參數(parameter)

統計學的目的就是要根據抽樣的結果
建立統計量 然後推估母體的性質
所以真正的統計學 非常在乎母體性質是怎樣被定義的

我們舉幾個例子討論何謂母體性質
假設 我們的母體是所有的台灣人
"台灣人最有錢的前20%平均所得 扣掉 最窮的20%平均所得"
就是一個母體性質
而我們的樣本就是從"台灣人"這個母體裡 去抽樣出來
只要我們知道真正的母體 我們就能計算我們想要的母體性質(前20%所得扣掉後20%所得)

在自然科學中母體也是透過類似的方式定義
假如母體是整個台北市 而我有興趣的是今天"台北市的平均溫度"
那我就是在台北市隨機抽樣幾個點來觀測溫度 最後用這些溫度來分析真實的氣溫

如果我們要研究的對象(性質)不在我們抽樣的母體...這樣我們根本沒辦法透過樣本來分析
舉例來說 我想要知道台灣人平均壽命
結果你給我台北市的好幾個隨機地點的氣溫...這樣我的母體是台北市的氣溫
但我研究的對象並不在母體性質裡 所以這筆資料沒辦法回答我們的問題

除了母體性質本身就是我們研究的目標之外
母體性質還提供一個重要的功能: 提供估計的分析

因為我們的目標是母體性質
在給定母體之下 這個性質是確定的(只是我們不知道是多少)
並且我們用來估計的統計量背後的機率分配是可以透過理論分析出來
因此 我們就能討論我們這統計量與真實母體性質之間的差異有多少
並進行統計推論 像是建立這個母體特性的信賴區間

許多統計學上的重要概念 如同無偏(unbaised) 一致性(consistency)
都只能在給定母體性質之下才能討論

這幾年隨著機械學習的興起
許多統計方法、估計式(estimator)都被廣泛地用在各種問題上
但要注意的是 許多時候這些問題並沒有一個母體性質存在
這會使得你整套分析根本不知道該如何說是好或壞
往往都流於靠人的直觀來判斷成果優劣 這是存在一些風險的

舉例來說 在clustering的問題上
K-means, spectral clustering都是很常見的方法
但各參考書目談到這些方法 鮮少提及clustering的母體性質到底是什麼
這使得clustering很難evaluate最後成果的好壞
(其實這兩種方法都具有母體性質 只是較少被提起)

相對應的 所謂的mode clustering方法(mean-shift algorithm)
就直接從母體(機率密度)性質定義下來
(母體性質: 密度函數的local maximals)
所以這套方法對統計學家而言是非常合理的

← 誰適合做統計+MS/PhD申請雜談 學術的完整性 →
 
comments powered by Disqus