almost 4 years ago

最近被問到不少次我研究的領域
"Non-parametric Statistics"(無母數統計學)
今天來跟大家簡單介紹我研究的領域
一個經典的non-parametric statistics就是histogram (直方圖)
我們都知道當你收集到一堆資料時 histogram是個呈現密度的快速方法(至少可以讓你對整個分配有個概念)

但histogram在應用上有個經典的議題: 如何選擇寬度(bin size)
寬度如果太寬 那根本呈現不了密度
寬度如果太窄 那每格可能都才1~2個點 這樣也呈現不了密度
寬度選擇其實統計上已經有許多文獻探討
也是為什麼大多數軟體會能夠幫你選擇一個適當的寬度的原因

-----給有學過一些統計/ML的人:
這背後理論的基礎 跟統計學上的bias-variance tradeoff有關

也和所謂 overfitting v.s. underfitting有關係

基本上 non-parametric的原理就是 我不做參數化(parametrized)的模型
什麼是參數化模型?

舉例來說 我們要估計密度 (density estimation)
我們常常會假設密度是常態分配
然後估計平均值還有標準差
常態分配就是一個參數化模型 因為這個分配被兩個參數所決定--平均值 還有標準差

另一個例子是迴歸分析 (regession)
我們常常會假設線性模型 認為Y和X的關係是 Y= aX+b+誤差
這樣 我們就用兩個參數 a,b 描述了Y和X之間的關係

再舉一個例子:分類問題 (classification)
假設資料來自兩個不同的族群 我們用0和1表示兩個不同族群
一個常見參數化的分析方法 就是假設來自0這個族群的資料 是一個常態分配 平均值u0 標準差s0
而來自1的族群 則是另一個常態分配 平均值u1 標準差s1
我們用已知的資料去估計這四個參數 u0,u1,s0,s1 並建立所謂的decision boundary
給定一個點 看看這個點在boundary的哪一端 就分到哪一個族群

上述三個問題 都作了參數化的假設

non-parametric的方法 就是不作參數化假設 但依然要做到資料分析
對於密度估計 我們看到histogram是個常見方法
另外常見的方法還有所謂的kernel density estimation:
給定一個點x 我去看附近的點數量多寡
如果附近很多點 我就增加x這個點的密度估計
附近很少點 我就降低x這個點的密度估計
所謂的kernel function 就是決定你增加與降低密度的程度

對於迴歸分析 一個經典方法就是所謂的local regression
回歸的問題基本上就是要找出Y和x之間的關係
所以對任何一個給定的x 我去看附近幾個點的Y值
對附近點的Y值用加權平均 越靠近x的點
我給比較多的權重 越遠離x的點 我降低權重
這樣我就能夠不做到參數化模型 一樣也能做回歸分析

note: 這個加權方法 其實也是一個kernel function

最後對於分類問題
很常見的方法就是kNN (k-nearest neighbor)
簡單來說 就是對一個點x 我看附近k個點主要是哪個族群
我就把x分類到那個族群

上述這幾個方法 被稱為smoothing non-parametric method
(by我老闆Larry Wasserman)
因為我們都是透過一個點附近其他點的資訊 來作為推論
很類似影像資料上所謂的smoothing


最後我想提的是另一大類的non-parametric statistics
我和我老闆稱為 Classical non-parametric statistics
因為這類型的方法很早被提出來 並且和我們剛剛提過的那些方法很不同

Classical non-parametric 關注的是所謂的統計檢定問題
舉我們分類的例子來說
今天你有兩筆資料 你不曉得這兩筆資料是否來自同樣的分配
(e.g. 根本是同一筆資料 但意外被分成兩筆)
而你坐直方圖 發現這兩筆資料的分配 非常畸形!! 根本不像我們常見的分配
一個經典的non-parametric方法就是 你把這兩筆資料先混在一起
然後坐排序 從最小的值排到最大的值
如果很明顯發現 rank小的集中在某一筆資料
那就很明顯這兩組資料是來自不同分配
因為同樣分配的話 應該rank和兩筆資料的標簽(是第1筆資料還是第2筆資料)沒有關係才對
或你發現rank和資料標籤有明顯關係 例如某一段通通都是第1筆資料
那這樣也很明顯這兩筆資料是不同分配的
上述的方法 稱為Wilcoxon rank-sum test

利用rank的方法還有許多 這是早期non-parametric常常研究的課題
許多數理統計的課程 還會提到這些方法
只是當前研究比較少用 但在資料分析上這些方法還是很有用

最後我想說的是
non-parametric statistics在近代研究越來越常見
像我目前在做一個關於星系分配(galaxy distribution)的問題
就很難用parametric model
相對的 密度估計就變成相當好用

而目前還有許多未解的non-parametric的問題
歡迎大家有空加入這個大家庭來作研究

← 10/14/13 Michael Jordan'sTalk 淺談p值(p-value) →
 
comments powered by Disqus