over 2 years ago

我做理論統計幾年了 覺得統計理論其實主要可以分成三大類:

  1. 估計理論(estimation theory)
  2. 漸進理論(asymptotic theory)
  3. 最佳化理論(optimality theory, minimax theory)

統計問題基本設定往往是這樣
我們定義一個母體性質 像是母體平均數
然後我們建立一個估計式 例如樣本平均數

估計理論主要探討 "估計式(樣本平均)是否會收斂到母體性質(母體平均)?"
而這個收斂速率(跟樣本數n的關係)又是如何?(答案是"根號n"這個速率)

估計理論除了被用在探討"估計式"往母體性質的收斂性之外
有時也會被用來證明一套"誤差/風險估計"方法是有效的
舉例來說 常見的cross-validation就是一個用來估計"誤差/風險"的方法
而估計理論就會探討cross-validation是否會收斂到真實的誤差
(在某些問題上這答案是確定的 但在很多問題上還不清楚)

在預測的問題上 像是回歸分析(regression) 分類問題(classification)
一個固定方法的預測風險(prediction risk)就常常會是我們想要估計的對象
當你這方法固定了 那預測風險其實可以看成一個母體的特性
而如何建立一套估計方法 並且證明這套預測誤差估計是一致的 就是估計理論的問題

漸進理論則是探討 當我們適當的調整樣本平均與母體平均之間的距離後
是否能夠得到一個收斂的分配
正如同我們知道樣本平均收斂到母體平均的同時
他們之間的差值 調整後(乘上根號n)會呈現一個常態分配情況
即使原本的母體分配根本不是常態分配 也會出現這種情形
(因為中央極限定理)

漸進理論的特色是 通常我們有漸進理論 就能進行統計推論
像是建立信賴區間 進行假設檢定等等
因此一套新的統計方法 要能夠被用在科學推論上
通常都要做出漸進理論才可以

最佳化理論通常只出現在進階一點的統計問題上
他所探討的是 考慮"滿足某些條件的所有估計式"
收斂速率最快的估計式 只能達到怎樣的速率(速率=跟樣本數n的關係)
一般傳統參數化模型(parametric model)不會探討這個
因為通常答案都是"根號n" 所以MLE基本上已經達到最佳速率
但在非參數化的(nonparametric model)的情況下
最佳化速率常常都低於根號n--而各種估計式的速率也常常更慢
舉例來說
直方圖histogram在1維度的密度估計裏 速率只有n的-1/3次方 在L1誤差上
而相對的 kernel density estimator(KDE)在同樣問題還有誤差裏 收斂速率則是n的-2/5次方
並且可以證明KDE在某一大類型的密度函數上 這個速率是最快的

我覺得有趣的地方是 這三塊領域
做機器學習machine learning理論的人也會涉足其中的兩塊--估計理論與最佳化理論
這其實是很合理的現象
因為機器學習很重視預測的精准度
而預測精准度的估計 自然就是一個重要課題
最佳化理論也能告訴你說 某一套方法在某些問題上 預測誤差是最佳的
這都能夠用來論述一套新的演算法是好的 自然就會被重視

相對的 漸進理論通常是用在統計推論(科學推論)上
推論的問題通常不是機器學習專家主要重視的目標
自然會比較少被重視

← Modal Regression--一種新的角度做迴歸 淺談Clustering的收斂性 →
 
comments powered by Disqus