almost 4 years ago

統計有許多好朋友
例如 Machine Learning, Data Mining, Pattern Recognitions...等等
這些領域也都處理data的問題
但重視的價值與精神其實略有些不同
我稱上述這些領域為 Statistical Engineering/Data Engineering
以後我會寫篇文章討論為什麼我這樣稱呼

今天我舉個簡單的例子 討論統計與Data mining的一個特例的差異
先聲明我對於Data mining並非專家 只是大致知道他們的特性
所以可能觀點會有些偏頗

我最近在處理宇宙學的資料
資料長得像是下面這樣:


這是宇宙的一小塊切面 所以是2維度的資料
x的座標是ra:表示right ascension 你可以當成經度
y的座標是dec:表示declination 你可以看成緯度
裡面每個小黑點都是一個星系(galaxy)
灰色的是galaxy在密度特別低的區域

仔細看這張照片
裡面星系並不是隨機地分布 而是有些高密度的結構存在
這種結構特別類似一種網狀結構 也就是星系傾向圍繞著少量的一維度曲線
這種結構被稱為cosmic filaments或是cosmic web
有興趣的人可以google看看 會跳出很多很漂亮的圖片

科學家想要知道 我們能否透過方法來把這些網狀結構抓出來
下面是我們的成果


藍色的曲線是我們估計出來的filaments
仔細看會發現大部分的點的確都圍繞在這些藍色曲線附近

對於Data mining的人 他們會重視方法裡面的一些額外的tuning parameters(微調參數)如何調整
至少對於這筆資料 怎樣調整這些微調參數會有最佳的成果

對於統計學家
我們重視的是如何把"誤差"的概念引進這個問題
藍色的線段是一種基於資料的估計
我們都知道估計會有誤差 但要如何量化這些誤差 並且計算出這些誤差
對統計學家才是更重要的問題

下面是我們分析出的誤差


我們用兩種方法表達誤差 一種是filament上的顏色: 越紅表示誤差越大
另一種是類似"信賴區間"的灰色區域 越寬的區域表示那邊的誤差越大

為什麼統計學家在乎誤差呢?
因為我們需要知道 我們實際資料哪邊估計得好 哪邊估計得不好
我們也想知道 哪邊的發現可能是錯誤的(所謂的False discovery)
例如那張圖裡 有些很短的filament 誤差值頗大 就表示可能這些估計並不穩定

誤差的分析 會告訴我們更多資料的隱藏意涵
更重要的是 誤差分析會直接影響到我們根據資料做出推論的強度
我們才能知道我們可以做出很強的結論還是很弱的結論
舉例來說 如果有人跟你說 他在A國抽樣 發現大家平均薪水是100,000美金/年
聽起來A國的人民好像很富裕
但如果誤差是200,000美金/年
我們就不能說A國人民薪水超高
(這可能發生; 只要你抽樣時意外抽到億萬富翁 平均值就會馬上飄高)

在Data mining裡 他們也會討論誤差分析
只是重視程度並不像統計學界如此強烈
所以對Data mining的人而言 做到第二張圖那邊 就差不多已經完成大部份工作
剩下的就是微調裡頭的參數來達到最佳化

Reference:
Uncertainty Measures and Limiting Distributions for Filament Estimation. (2013) by Yen-Chi Chen, Christopher R. Genovese, Larry Wasserman (http://arxiv.org/abs/1312.2098)

← Tuning parameters雜感 沒label如何定誤差 →
 
comments powered by Disqus