about 4 years ago

理論統計非常非常重視數學 看起來似乎和實際生活沒啥關係
事實上 理論統計和生活 科學 還有工程有著密切關係

理論統計重視的是 在哪些"假設"之下
我們的某些統計方法具有多好的性質
當我們放寬些假設後 我們的方法是否因此失效? 還是效力會比原本差多少?
這也是理論統計研究的範疇

這看起來非常high level 似乎和生活沒關係
我簡單舉個例子來說明和生活的關係
假設今天美國通過一個法案: 如果A國的國際學生畢業平均年薪顯著地高於7萬美元 就增加該國家學生的錄取率
然後他們做了一項研究 得出台灣學生畢業平均年薪是8萬美元 標準差5千美元
這樣 他們是否要提高台灣學生的錄取率?

許多人都知道 教科書上說 平均值加減兩個標準差大約是95%信賴區間的範圍
因此在這種情況下 台灣有顯著的高於7萬美元! 應該要增加錄取

但事實上 平均值加減兩個標準差這個方法 只適用於常態分配或著某些分配
如果分配非常偏離常態 這個方法最差會只有75%的信心
(note: 75%來自Chebyshev's inequality)

所以 當今天台灣代表根據這份資料要向美國議會提交申請時
是有可能直接被拒絕的

而一部分理論統計學家 正在研究這套正負兩個標準差的法則
到底適用到多廣的分配狀況
越多這方面的理論研究 就越能讓我們瞭解我們的資料是否提供我們足夠的證據去做"推論"
因此 只要我們有足夠的理論背景 外加對台灣學生畢業薪水分配的資訊
台灣代表就指出我們有更強烈的證據說明我們是顯著的高於7萬美元的

同理 在科學上更多類似的問題
科學上非常重要的就是資料提供多"充分"的證據去支持一項假說
例如: 宇宙的年齡多老? 睡眠和學習的關係? 運動與健康的關係?

我們有越好的理論根據 在同樣的方法與資料之下 就能下越強烈的推論
這就是為什麼理論統計如此重要的原因

在許多資料工程上(俗稱的data science 但我個人覺得這是很爛的稱法 明明就是data engineering)
例如machine learning, data mining...
主要關注的問題是prediction或是某筆資料實際的表現
理論提供的支持就不是推論的強度

而是一筆新的資料來的時候 我們應該先嘗試怎樣的分析方法
以及當我們分析完這筆資料時 是否能夠根據理論來說明為什麼某些方法會有效而某些方法沒效
這甚至也會透露出這筆資料的一些隱藏性質

因此 理論統計的研究是非常有用的!
ps. 這是我今天讀了一篇經典的理論統計paper的心得
那篇paper 1998年發的 但至今才被cite 41次
可是結論非常強大(基本上就是bootstrap可以用來建立密度估計的confidence interval)

理論統計和數學就很像 citation都不高 但讓人類的知識往外延伸一大步
理論統計學家是群默默在統計的知識疆界上 孤軍奮戰的英雄們

← 敘述統計學(descriptive statistics)雜感 淺談functional space →
 
comments powered by Disqus