over 3 years ago

我前幾天在臉書上談到可以在沒有label的資料分析上
定義出所謂的誤差
(所謂的label 是指像回歸/分類問題上 Y的值
在回歸分析裡 label是實數 分類的問題上 Y的值通常是正整數-群組標籤)
這看起來似乎是很大的突破 但其實最基本的統計問題就已經用到了

一個很基礎的統計問題是
我有一堆資料 假設每一筆資料都只有一個值
我現在要研究的是 這筆資料背後母體的平均值

學過基礎統計的大家都知道直接
用樣本平均值去估計母體平均
然後誤差估計可以帶入樣本標準差

仔細思考 我們處理這個問題時 我們有label嗎?
其實我們並沒有label 我們只有單一變數的值
但我們可以分析誤差
原因何在呢?

原因1. 我們有做模型假設
只要我們有做一些基本模型假設
這樣許多誤差其實可以被計算出來
像估計平均的問題 如果我們假設資料是常態分配
那樣本標準差就能給我們很好的估計

原因2. 漸進理論分析
其實母體平均估計的問題 並不需要資料是常態分配才能分析誤差
只要母體的變異數夠穩定(例如變異數小於無限大)
中央極限定理還有大數法則會保證樣本標準差可以當有效的誤差

至於對許多複雜的分析 像是clustering問題
其實誤差也能夠被定義
只要我們的clustering是基於一個資料的真實密度函數去做的就好

當我們clustering的方法 可以定義在密度函數上
這樣我們就有一群"真正"的clusters可以被定義
今天我們只有資料時 我們是用資料所做的clustering
是去"估計"這個真正的clusters
這樣其實理論上 是完全可以分析
真正的clusters和透過樣本做出的clusters之間的差異
因此就能夠定義誤差

下面舉一個也是unsupervised learning但可以定義誤差的狀況
有圖有真相:


這是宇宙的一個二維小區塊
這張圖裡面的黑點還有灰點 都是宇宙中的星系
然後那個紅-藍色的線段 是所謂的cosmic filaments(註: 這是根據資料估計出來的)
宇宙學家與天文學家發現 星系的分布 大多會圍繞著這些filaments
所以他們想要找出這些filament結構(因為星系大多靠近 所以這是一種高密度結構)

在這筆資料裡面 我們只有星系的位置
沒有任何label告訴我們真實的filaments在哪邊
但我們依舊做出了誤差分析
紅色的線段(會伴隨著較大的灰色區域)表示那邊filament的誤差大
藍色的線段(會伴隨很小的灰色區域)表示那邊filament的估計比較準確

這是一個unsupervised learning但可以分析誤差的例子
之所以統計學家會以機率模型為出發點來建立方法與分析資料
最主要的關鍵就是 在這種情況
我們總可以有效的定義誤差 甚至可以算出很有用的收斂性

其實wiki上已經有關於clustering好壞的分析方法:
http://en.wikipedia.org/wiki/Cluster_analysis#Evaluation_of_clustering_results

對clustering誤差有興趣的人 下面一篇可能頗有難度的paper可以看:
http://arxiv.org/pdf/0907.3454.pdf
這篇paper很經典 討論了許多統計分析的成果

但他們只分析了理論上的收斂速率 誤差並沒辦法實際去計算
(其實我最近想到的方法強就強在誤差可以實際算出來)
不過我很喜歡他們的方法(一方面因為是我老闆的paper XD)
他們這套clustering的方法統計性質非常非常漂亮 我未來至少還有有兩篇papers會談到

最後補一下上面那張圖的出處:
Uncertainty measures and limiting distributions for filaments.(2013) Yen-Chi Chen, Christopher R. Genovese, Larry Wasserman. http://arxiv.org/abs/1312.2098

← 統計v.s.Data mining--一個簡單的例子 生活中的尾端機率(tail probability) →
 
comments powered by Disqus