over 3 years ago

資料分析常常涉及到不同的統計方法
現在越來越多人純粹重視統計方法 而不重視統計理論的這一塊
甚至他們並不曉得統計理論有什麼用途
在這邊我簡單談三個統計理論的功用

正統的統計方法 都是要分析一個統計模型中的某項參數而產生的
e.g. 我們有每個大學畢業生的在校平均成績(X) 還有畢業第一年的薪水資料(Y)
我們想要知道在校平均成績與畢業第一年的薪水的大致趨勢
常見的方法就是線性回歸並使用最小平方法 找X和Y之間的線性關係
這背後的統計模型就是:
Y=a+bX+誤差
其中a,b就是所謂的參數 而b正是我們有興趣知道的參數
方法就是最小平方法

統計理論的主要用途有三種

  1. 確定我們的方法是有效的 並且瞭解理論上的有效程度(估計的誤差大小)
  2. 瞭解我們方法在哪些假設或前提之下是可行的 而哪些情況會使這套方法出問題
  3. 跑出結果之後 對於分析的結果能夠進行解釋 這三個用途其實是息息相關的

回到我們的線性回歸與最小平方法
統計理論會告訴你這樣的方法在 "Y=a+bX+誤差"模型之下
是否會是無偏的(也就是期望值=實際值)?
估計的不穩定性大致多少? 還有當我們增加樣本數時 我們預期我們的成果會怎樣改變?
這樣我們對於我們找到的成果 才會比較有信心
同時 在回答前面的問題時 我們必須作出假設才能分析出估計的不穩定性

因此理論的分析會告訴我們
在誤差是常態時 我們會有多好的收斂性(估計的b 和實際的b 會有多大的差異)
當誤差不是常態 但還是對稱時 我們的收斂性會達到怎樣的程度
當誤差非常詭異時 我們的方法就會失敗
而這些假設其實也可以透過事後的模型檢定(model diagnostic)來檢查

最後 即使我們的成果出現不是很理想的狀況
我們也經常能夠過理論解釋
在最小平方法裡頭 只要資料點有些outliers(跟我們的模型很不合的點)
很容易就造成估計相當不穩定
這些其實都能從理論來解釋:
最小平方法因為是找一個平均的影響力 因此只要有幾個點和線性關係很不fit(outliers)
那估計的線性關係(b)就很容易受影響(不穩定性高)

舉例來說: X=1,2,3,4,5 Y=2.1,4.3,5.6,20,9.8
這樣X和Y的關係幾乎可以fit一條Y=2X的線 但因為X=4的時候 Y是20(outlier)
我們跑出來的回歸會變成Y = -0.97+3.11X
理論就會告訴你 這就是因為最小平方法的缺點是對outliers很敏感
如果我們拿掉第四個點 結果就會變成=0.24+1.89X
跟Y=2X就很相似
(斜率的0.24可以看成因為樣本數小所造成的估計誤差)

所以 統計理論對於統計方法而言的重要性是頗為重要的
至少它會告訴我們 這套方法的極限還有表現性是如何
當我們跑出成果時 合理或不合理也能夠過理論來解釋

← computer vision與image data雜感 統計模型雜感 →
 
comments powered by Disqus