almost 4 years ago

今天學校來了明星等級的教授Michael I. Jordan來演講
他講的真的很精彩 我特別喜歡第二部分關於Bootstrap的地方

Bootstrap許多人可能都有聽過 一言以蔽之
Bootstrap: a statistical data simulation

所謂的Bootstrap 就是我們根據現有的資料
去產生分配與原本相似的資料 用以進行統計推論(特別是信賴區間與誤差估計)

舉例來說 給你X_1,...X_n n個數值
你的估計式是個非常複雜的函數 例如exp(X_1*X_2*...X_n)
在這種狀況下 你可以得到一個估計值
但你沒辦法計算估計的誤差
(因為這不是常見的樣本平均數估計之類的問題 你沒有辦法計算樣本標準差等等)

但你還是想進行統計推論 該如何是好呢?

--

想像一個狀況 假如你有台神奇機器 可以重新這n筆資料
並且產生的分配是根據"真正的資料分配"
那你就可以產生好幾"組"額外的樣本 每組樣本都有n筆資料

這樣你第一組樣本可以得到第一個估計值
第二組樣本可以得到第二個估計值
...
你有m組樣本 就有m組估計值

因此 這"m"個估計值的分配 就是真正你那個複雜估計式的分配

--

在現實生活中 我們沒有這樣的機器
因此我們只能靠著simulation的方式 期望這套simulation和真正的分配很相近

Bootstrap的基本方法就是
我們根據現有的n個數值 重新抽樣出另外的n個數值
但這個抽樣的方式是所謂的"sample with replacement"
也就是 我們每個新的數值彼此間獨立
而抽到各個原本n個數值的機會都是相等的(1/n)

因此 我們可能會同樣的數值抽到很多次 但這在一些情況下不礙事

這看起來有點神奇的抽樣方法
就是所謂的Bootstrap(或稱 Non-parametric Bootstrap)
意外的在許多情況下擁有良好的漸進性質

從累積分配函數(Cumulated distribution function, CDF)的觀點來看
原本的樣本是來自某個未知的 F
Bootstrap的樣本則是來自樣本的CDF: F_n
統計上可以證明F_n會以非常強的方式去收斂到F 當樣本數夠大時

因此 Bootstrap可以看成一種統計的simulation
而這種simulation的分配函數會以某種方式收斂到真實的分配函數

Bootstrap還有許多可愛的兄弟
例如: multiplier bootstrap, smoothed bootstrap, wild bootstrap...
基本原理都是 想辦法製造一筆資料 其分配會和原本的分配相當類似

但Bootstrap並不一定絕對會收斂
在一些情況下這套方法不會收斂
探討Bootstrap收斂的理論 是所謂的empirical process
這部分數學頗為艱深 有興趣者可以去查查相關資料
關鍵字: Donsker's class, empirical process

10/30/13 Non-parametric Statistics →
 
comments powered by Disqus