almost 4 years ago

今天跟系上老外打保齡球時 我順便跟講我怎麼理解sparsity的
我跟他們說 我第一次打保齡球只得23分(一共投了10局)
因此 超過8成的投擲都拿到0分
只有寥寥無幾的幾次有成功拿到分數 這就是所謂的sparsity

sparsity(稀少性) 是用在統計分析時 對於高維度資料的基本假設
簡而言之 我們可能有幾萬個潛在的相關變數 但卻只有幾百個資料點
sparsity表示說 這幾萬個變數可能只有少數幾十個(甚至個位數個)
真的和我們關注的問題有關係

舉例來說: 基因與過動症
我們量測到的基因通常有上萬個 但我們的病患只有幾百個人
而真正和過動症有關的基因 可能不到10個

學過基礎線性代數的人都知道 變數p如果比方程式n還要多的話
基本上是無解的
但sparsity的條件是 一堆變數其實是完全沒關係的
只要真正有關係的變數數量比n還小得多 我們依舊可以做到統計分析
所以統計上有許多方法 可以得到這種sparse的解
一個經典的就是LASSO方法
想知道詳情的人可以自己google: LASSO(statistics)

note: 實際上sparsity的假設可以更鬆 我們允許這幾萬個變數都和我們關注的變量Y有關係 但絕大多數的關係非常非常之微弱 只有幾個訊號(關係)比較強

← 淺談p值(p-value) 對資料的新想法 →
 
comments powered by Disqus