about 3 years ago

前些日子去了中研院天文所訪問
跟一些人討論後深深感受到統計研究對科學經費影響真不小

主要原因是 在科學研究裡
要論證自己理論合理性的常見方法就是反證法
透過資料來進行反證法推論的就是"假設檢定"
(詳情見 http://yenchic-blog.logdown.com/posts/175038-hypothesis-testing-an-interpretation-to-absurdity)

好的統計方法 能夠讓你用較少的樣本
以較高的信心水準 去進行科學論證

壞的統計方法則可能有許多問題
一個常見的問題就是 你需要更多樣本數才能進行推論
這直接影響到研究的時程有
像天文研究 每一大筆資料都是一個週期一個週期才會出來
如果當前的資料沒辦法驗證你的理論 你就可能需要再等幾年才能繼續進行
這特別對於博士生或是博士後研究人員 是特別有壓力的

更多的樣本 就更直接影響研究經費(樣本收集需要錢)
天文的資料需要的經費非常高 因為好的資料往往需要衛星上的望遠鏡
但這個一檯的造價就是非常昂貴
生物科技的樣本要價更不菲
特別是當這些樣本的對象是"人"的時候
每一筆資料都非常的昂貴

統計研究本身不是花錢的領域
(我們大多就用紙筆還有書本 外加一幾台電腦跑跑簡單的模擬)
但統計研究的成果 卻能夠節約科學研究的大量經費
所以 統計領域其實是應該好好投資的

 
about 3 years ago

最近做了許多新研究
特別有一些感觸

有些學術問題 應用層面不大
有興趣的人也不多
但對於整套學問的"完整性" 卻是有一席之地

舉例來說
我最近做了一個研究
關於統計分類問題(classification)裡決策區域(decision boundaries)的randomness

決策區域基本上就是
假設你的資料有兩個標簽 可能來自第1群 或是來自第2群
當你做分類時 你可以畫出一個曲面 在曲面的某一側是第1群
在另一側是第2群

如這張圖所展現的 紅點與黑點分別是兩群不同的資料


咖啡色的曲線是最佳的decision boundaries(稱為Bayes decision boundaries)
然後藍色曲線是某個方法估計的decision boundaries

估計總有誤差
但這種曲面/曲線的誤差該如何定義 或該如何探討
是一個有意思的問題
下面是我們分析出來的誤差 我們用顏色/灰色區域的大小來表示誤差多寡

我們的估計頗準的 其實我們連這套方法有效的定理都推出來了

但現在來了一個問題:
一般在分類的問題上 大家在乎的通常是分類的"準確性"
其實沒什麼人在乎那個決策區域的誤差大小
並且 當前許多研究都著重在高維度資料的分析
在高維度資料下 這個決策區域也會是高維度的
基本上我們是無法"看"到這個區域的
這樣我們是否還在乎這個區域的誤差呢?

所以 這個研究雖然我們有明確的問題 完整的定義 有效的方法 切確的定理
但依舊是難以投到好的期刊上 因為這個問題的重要性不大(至少在當代研究裡)

當初做這個研究時 我就有這個考量
但我那時純粹覺得這是個完整性考量
我不期望這個研究會被引用多少次
純粹只是覺得這個問題該被解答
這樣整個知識體系才會更完備

至少這篇文章出來之後 人類對於整個分類問題的理解
又更加完整了

 
over 3 years ago

統計學裡 最核心的問題就是分析母體性質(population level quantity)
所謂的母體 就是你抽樣的"來源"
母體性質就是這個母體的一些特性 通常也被稱為參數(parameter)

統計學的目的就是要根據抽樣的結果
建立統計量 然後推估母體的性質
所以真正的統計學 非常在乎母體性質是怎樣被定義的

我們舉幾個例子討論何謂母體性質
假設 我們的母體是所有的台灣人
"台灣人最有錢的前20%平均所得 扣掉 最窮的20%平均所得"
就是一個母體性質
而我們的樣本就是從"台灣人"這個母體裡 去抽樣出來
只要我們知道真正的母體 我們就能計算我們想要的母體性質(前20%所得扣掉後20%所得)

在自然科學中母體也是透過類似的方式定義
假如母體是整個台北市 而我有興趣的是今天"台北市的平均溫度"
那我就是在台北市隨機抽樣幾個點來觀測溫度 最後用這些溫度來分析真實的氣溫

如果我們要研究的對象(性質)不在我們抽樣的母體...這樣我們根本沒辦法透過樣本來分析
舉例來說 我想要知道台灣人平均壽命
結果你給我台北市的好幾個隨機地點的氣溫...這樣我的母體是台北市的氣溫
但我研究的對象並不在母體性質裡 所以這筆資料沒辦法回答我們的問題

除了母體性質本身就是我們研究的目標之外
母體性質還提供一個重要的功能: 提供估計的分析

因為我們的目標是母體性質
在給定母體之下 這個性質是確定的(只是我們不知道是多少)
並且我們用來估計的統計量背後的機率分配是可以透過理論分析出來
因此 我們就能討論我們這統計量與真實母體性質之間的差異有多少
並進行統計推論 像是建立這個母體特性的信賴區間

許多統計學上的重要概念 如同無偏(unbaised) 一致性(consistency)
都只能在給定母體性質之下才能討論

這幾年隨著機械學習的興起
許多統計方法、估計式(estimator)都被廣泛地用在各種問題上
但要注意的是 許多時候這些問題並沒有一個母體性質存在
這會使得你整套分析根本不知道該如何說是好或壞
往往都流於靠人的直觀來判斷成果優劣 這是存在一些風險的

舉例來說 在clustering的問題上
K-means, spectral clustering都是很常見的方法
但各參考書目談到這些方法 鮮少提及clustering的母體性質到底是什麼
這使得clustering很難evaluate最後成果的好壞
(其實這兩種方法都具有母體性質 只是較少被提起)

相對應的 所謂的mode clustering方法(mean-shift algorithm)
就直接從母體(機率密度)性質定義下來
(母體性質: 密度函數的local maximals)
所以這套方法對統計學家而言是非常合理的

 
over 3 years ago

最近正值申請美國學校放榜時段
碰到許多未來要讀統計/相關領域的學弟妹們跟我討論怎樣的人適合做統計

我覺得 只要對資料分析有興趣並且善於量化分析的人
都適合來做統計
而且統計並不一定要有個Master或PhD學位才能做
只要想做 而且知道怎樣把問題model寫下來並跟data做結合
就能進行統計分析

只是如果要知道哪個統計方法比較有效 或想了解為什麼有效
就適合多學點統計方法或念個degree
當然真正要了解統計方法
一定程度以上的數學跑不掉的

許多人很關心申請統計MS/PhD的條件與背景
我覺得統計MS的要求並不太嚴格
只要以前有理工學院背景的數理能力 加上一些對統計/機率模型的了解
(當然這些能力不能太差)
就有足夠的能力來念MS

統計界我個人感覺非常不吃血統
特別是MS 非常適合以前"非"統計/數學背景的人來申請
理學院如物理 化學 心理系等等
社科院如經濟 社會等等
還有各個工程科系或EE CS都很適合來念
只要你的數量化分析能力足夠 加上不錯的成績 並不算太難申請上

PhD的話 會要求多很多
大部分PhD還是數學背景居多 因為統計理論到後來真的都是數學
但如果是跨領域但具備核心數學能力 我覺得申請上的機會高很多
我聽說對統計PhD而言的核心數學能力是來自下列課程:

  1. 高等微積分
  2. 測度論
  3. 線性代數(數學系)
  4. 機率/統計(數學系) 特別是高等微積分 並不會有硬性門檻說一定要很高分 但通常會希望至少要有修過 因為進來之後大家都是預設你學過 甚至都認為你該反射理解(e.g. lim,積分,微分等等各個operation可否交換; open, close set; continuity...) 統計PhD必修課程之一是機率論 如果沒有高等微積分基礎 在機率論會非常辛苦

我最近聽我們系上教授說 各校開始放寬qualify exam的難度
但可能就會隱性的提升錄取學生的數學能力要求
因為沒有qualify來把數學能力不足的學生刪掉

不過如果你來自其他領域 但上述的數學課程都有基礎甚至有不錯的成積
聽說申請上的機會反而會比純數學的同學還要高

另外申請統計PhD基本上不太會有publication
因為統計的publication幾乎都是journal 而且都會要求不少理論證明
幾乎大家都沒有 所以沒有publication其實完全不用擔心
(甚至沒有研究經驗也可--我當初就完全沒有研究經驗)
其實許多統計PhD(包含很多很強的)都到畢業前一兩年才開始發paper
這和許多做實驗的領域很不同

撇開統計研究或PhD不談 要做統計其實門檻並不高
最關鍵的還是一顆喜歡做資料分析的心
統計和其他應用數學領域最大的差異就是資料分析
統計的各種推論還有分析成果 都可以根據資料跑出來後來進行比較
你能知道你原本預設的模型或使用的方法是好是壞 再來決定下一步的分析

如果只是喜歡研究有趣的模型 並不喜歡透過資料的分析與推論
我個人推薦去讀應用數學 應用數學也是門非常有趣的領域

 
over 3 years ago

Note: 本篇預設讀者已經學(聽)過likelihood function還有probability (density) function

likelihood function是統計學上非常常使用的一個函數
這個函數是 "參數"的函數
在許多應用的領域 像是machine learning 這個likelihood function也很常被用到

但許多人都會不小心把likelihood function和probability function機率(密度)函數搞混
這邊簡單談一下正確的likelihood function的詮釋方法

likelihood function:
"在給定資料下 參數是某個值的強度" or
"當參數是某個值的時候 我們抽樣出這樣資料的機率(密度)"
所以likelihood function是"參數的函數"

先談個簡單的例子 假設我晚餐只有兩種選擇

  1. 高級餐廳 2. 便當店

然後我的月薪可能有三種情況

  1. 2000塊 2. 3000塊 3. 4000塊

當我月薪2000塊時 我去高級餐廳的機率只有20% 但在便當店吃的機率是80%
當我月薪3000塊時 我去高級餐廳的機率只有50% 但在便當店吃的機率是50%
當我月薪4000塊時 我去高級餐廳的機率高達70% 但在便當店吃的機率是30%

今天你發現我在便當店裡吃
你能否描述 我在"不同月薪下 在便當店吃飯的可能性強度"
一個描述這個"可能性強度"的方法 就是所謂的likelihood function

如果已經看到我在便當店裡吃飯
在我月薪2000塊情況下 這種現象發生的機率有80%
相對的 3000,4000塊薪水 我做出這種行為的機率相對只有50%,30%

所以 你可以用這個 80%, 50%, 30%作為一個"在看到我在便當店吃飯的情況下下 各種薪水的強度(or可能性強度)"

在這個問題裡 我的月薪就是參數
當給定參數後 我的行為(也就是你們的資料)會由一個隨機機制產生
所以 就算我月薪4000塊 我還是有機會再便當店出沒

但這個80%的likelihood並"不"表示我有80%的機率月薪2000塊
我的月薪是一個未知數(對你而言是未知 但對我而言是已知) 它毫無機率可言 就單純只是一個未知量
機率是在 "給定參數之後 產生資料的過程"裡面發生的

likelihood function之所以不叫做機率
正是因為它只是一個"在給定資料下 參數是某個值的強度"
或可以解釋成 "當參數是某個值的時候 我們抽樣出這樣資料的機率(note1)"

因此 所謂的Maximal likelihood estimator(MLE)
就只是在當給定資料下 我們從所有可能參數裡 選那個強度最高的參數
或可以說是
給定資料下 我們選那個參數 產生這樣資料的機率最高

像在那個月薪的例子裡面
當你看到我去便當店吃飯 那這樣我薪水的MLE就是2000塊
因為當我薪水2000塊時 去便當店吃飯的機率有80%
比其他兩種狀況(3000,4000塊)做這樣行為的機率50% 30%都還要高

note1: 如果資料是連續的 那這裡要用機率密度

 
over 3 years ago

這幾年大數據(Big data)崛起
許多企業 學界都開始重視大數據對他們的影響
過去主要在研究資料(data)的統計學
也因此經常被拿來討論

最近有錯誤的說法認為 "大數據時代下 統計可能會變得過時"
這完全是錯誤的結論
因為統計學重視的問題 和大數據主要處理的問題
差異是非常非常大的

對統計學而言 最重要的問題是
"如何透過資料來對母體(population)做推論"
對自然科學而言 母體就是真實的自然界的運作機制
資料是來自自然界運作下的產物 而我們透過觀測的資料
去推論自然界的運作模式
所以統計學家非常重視所謂的 信賴區間、假設檢定等等方法
這些方法能夠讓我們透過資料去推論實際的母體狀況
因此 統計學最關心的是如何透過資料去進行科學推論

大數據主要在處理的問題是: 預測
我們先談談大數據的三"大"特性

  1. volume(資料含量)大
  2. velocity(資料產生速度)快
  3. variety(資料類型)多

大數據的資料還有一個隱藏特質:
這些資料的背後結構複雜 彼此之間充滿強烈相關性 並且難以把真實訊號與雜訊分離

但這種複雜的特性 對於做預測的影響並不太劇烈
因為我們有大量的樣本 多元的資料 因此可以交叉使用 淡化雜訊的影響
所以在進行"預測"這件任務之上 大數據可以做得非常成功
而大數據主要的用途也是進行預測
各大公司都希望能夠預測消費者行為 預測產品的銷售 預測客戶需求...等等
實際上 大數據在這些預測問題上 表現真的非常亮眼

推論與預測是相當不一樣的兩個問題
我們舉一個例子來看 假設今天政府有一筆統計資料 裡頭包含三個變數

  1. 台灣人/外國人 2. 薪水 3. 年齡 一個推論的問題會是"台灣人和外國人在同樣年齡之下 薪水是否有顯著差異?" 一個預測的問題會是"如何透過國籍還有年齡 去預測這個人的薪水?" 兩個問題有點相似 但卻是非常不一樣的

推論重視的是 因果關係 還有推論的合理性
因此需要的資料必須是非常乾淨 漂亮的
否則推論的成果可能很不合理

預測完全不需要在乎這些
對預測問題而言 最重要的是如何預測的"準"
一個不合理的模型 只要預測的準 就是好模型
因此資料複雜一點也沒關係 相關性強也不用擔心
我們依舊可以做出許多很好地預測

因此 統計學與大數據真正面對的敵人 是完全不一樣的

統計有趣的地方在於 統計方法除了推論之外
也可以進行預測
但統計的預測比較類似於 先去推論整個母體的運作機制
再透過這個推論出來的運作機制 進行資料產生過程的"預測"

大數據的出現 的確讓統計學在預測這塊稍受影響
因為大數據的嚴重問題就是 複雜的資料結構讓我們難以對母體進行推論
既然無法對母體推論 想做統計預測就會相對困難些
而大數據的分析工具 因為沒有對母體的推論就直接透過資料對資料的預測
就能避免難以推論的問題 自然做出的預測就相對有效

因此大數據時代之下 要用傳統統計方法進行"預測"
自然會相當相當的有問題 但這完全不表示統計學本體會有太大的影響
因為預測對統計學家而言不是最核心的問題
推論才是最關鍵的

所以 統計學的主要研究問題 還有大數據的主要目標
是完全不同的
大數據再怎麼火紅 也難以對統計學發展造成負面影響

事實上 大數據的發展反而使得統計學更受重視
因為統計理論早就指出統計方法在哪些情況下會有效 哪些情況下有問題
大數據的出現完全印證了統計理論的結果

而大數據分析方法常見的問題就是 難以解釋為什麼某些方法有效
這讓研究人員回頭探討方法背後的統計理論
看看理論是否能夠說明這些方法的有效性
結果大數據的發展 反而使更多人開始重視統計理論

 
over 3 years ago

先談一個生活的小例子
今天假如小明白天要期中考 但他睡醒時只剩20分鐘就要考試了
教授是個很嚴格的人 只要開考就會把門關起來 不讓學生進去考
所以小明一定要趕在20分鐘內趕到學校

小明有兩種方式上學

  1. 走路上學
  2. 搭公車上學 但不巧的是 剛好小明家離學校不算太遠 走路大概要18分鐘 誤差(標準差)約是1分鐘 搭公車大概是16分鐘 誤差約是4分鐘(因為等公車)

如果是你 你會選擇搭公車還是走路呢?(假設抵達時間是常態分配)
在這個問題之下 風險最低的其實是走路上學 而不是搭公車上學

為什麼呢? 因為走路上學 只要你花費的時間不超過2倍誤差 ((20-18)/1 = 2倍誤差)
你就不會遲到
如果搭公車 雖然平均時間比較短
但因為誤差大 所以你花費的時間反而不能超過1倍誤差
在常態分配之下 走路上學遲到的機率約是2% (注意我們是用單尾--只考慮大於1倍標準差的機率)
相對的 搭公車反而有16%的機率遲到

然而 如果反過來
走路上學要22分鐘 誤差還是1分鐘
但搭公車上學要24分鐘 誤差是4分鐘
你就應該要選擇搭公車上學

因為當你走路的話 你必須賭自己能用比平均值還要少2倍標準差的時間趕到
這個機率只有2%
如果搭公車的話 雖然平均花費時間高
但你有較高的可能花很少的時間就抵達 這機率反而高達16%

影響這些的關鍵就是所謂的尾端機率(tail probability)
這種尾端機率主要關注的是那些偏離平均值的事件發生的機率
一般來說 尾端機率通常特別關注那種遠離好幾倍誤差的事件發生可能性

如同小明考試的那個例子一樣 許多時候平均值好的選擇 並不一定是風險最低的選擇
因此我們需要分析第二階的誤差大小

其實這在許多比賽裡也很常用
當隊伍是優勢時 就會選擇打安全一點的策略
因為這樣誤差小而平均值高(優勢)
當隊伍是劣勢時 通常就會選擇積極一些的策略
賭對方的失誤來反超

我相信在經濟學裡應該有專門的名詞討論這個現象
只是我不是專精這塊 所以不曉得

我在高中考大學時做了一系列的分析
當時我在分析 如果你的在校成績好 或 在校成績壞
對於申請學校的時候 上哪個科系的機率比較高

當時申請學校 除了學測成績還有在校成績外
許多科系還要去當場來個筆試
我在研究兩個科系P還有E

一般來說 科系P的錄取分數比科系E還要低一些
當時我發現科系P的考試比重高達70%
但科系E的考試比重僅30%
考試比重我認為是最大的誤差來源 因為考試當天你的表現很可能會突然失常之類的
相對的 在學成績已經固定了 沒什麼誤差可言

我那時就根據常態分配還有尾端計算
得出結論是:
如果本身實力強的學生 上科系E的機率高得多
本身實力不強的學生 反而上科系P的機率比較高

我還記得當時的我還算出一條 兩個標準差與兩個平均值的關係式
會讓兩邊機率相等

--
現在回想起來 那時做了如此精妙的機率模型 真是太神奇了
最有趣的是那時的我根本沒學過統計與機率
只有高中的弱弱基礎
現在看來 真覺得自己的確頗有這方面的潛力
後來跑來做統計 其實也不奇怪

 
over 3 years ago

我前幾天在臉書上談到可以在沒有label的資料分析上
定義出所謂的誤差
(所謂的label 是指像回歸/分類問題上 Y的值
在回歸分析裡 label是實數 分類的問題上 Y的值通常是正整數-群組標籤)
這看起來似乎是很大的突破 但其實最基本的統計問題就已經用到了

一個很基礎的統計問題是
我有一堆資料 假設每一筆資料都只有一個值
我現在要研究的是 這筆資料背後母體的平均值

學過基礎統計的大家都知道直接
用樣本平均值去估計母體平均
然後誤差估計可以帶入樣本標準差

仔細思考 我們處理這個問題時 我們有label嗎?
其實我們並沒有label 我們只有單一變數的值
但我們可以分析誤差
原因何在呢?

原因1. 我們有做模型假設
只要我們有做一些基本模型假設
這樣許多誤差其實可以被計算出來
像估計平均的問題 如果我們假設資料是常態分配
那樣本標準差就能給我們很好的估計

原因2. 漸進理論分析
其實母體平均估計的問題 並不需要資料是常態分配才能分析誤差
只要母體的變異數夠穩定(例如變異數小於無限大)
中央極限定理還有大數法則會保證樣本標準差可以當有效的誤差

至於對許多複雜的分析 像是clustering問題
其實誤差也能夠被定義
只要我們的clustering是基於一個資料的真實密度函數去做的就好

當我們clustering的方法 可以定義在密度函數上
這樣我們就有一群"真正"的clusters可以被定義
今天我們只有資料時 我們是用資料所做的clustering
是去"估計"這個真正的clusters
這樣其實理論上 是完全可以分析
真正的clusters和透過樣本做出的clusters之間的差異
因此就能夠定義誤差

下面舉一個也是unsupervised learning但可以定義誤差的狀況
有圖有真相:


這是宇宙的一個二維小區塊
這張圖裡面的黑點還有灰點 都是宇宙中的星系
然後那個紅-藍色的線段 是所謂的cosmic filaments(註: 這是根據資料估計出來的)
宇宙學家與天文學家發現 星系的分布 大多會圍繞著這些filaments
所以他們想要找出這些filament結構(因為星系大多靠近 所以這是一種高密度結構)

在這筆資料裡面 我們只有星系的位置
沒有任何label告訴我們真實的filaments在哪邊
但我們依舊做出了誤差分析
紅色的線段(會伴隨著較大的灰色區域)表示那邊filament的誤差大
藍色的線段(會伴隨很小的灰色區域)表示那邊filament的估計比較準確

這是一個unsupervised learning但可以分析誤差的例子
之所以統計學家會以機率模型為出發點來建立方法與分析資料
最主要的關鍵就是 在這種情況
我們總可以有效的定義誤差 甚至可以算出很有用的收斂性

其實wiki上已經有關於clustering好壞的分析方法:
http://en.wikipedia.org/wiki/Cluster_analysis#Evaluation_of_clustering_results

對clustering誤差有興趣的人 下面一篇可能頗有難度的paper可以看:
http://arxiv.org/pdf/0907.3454.pdf
這篇paper很經典 討論了許多統計分析的成果

但他們只分析了理論上的收斂速率 誤差並沒辦法實際去計算
(其實我最近想到的方法強就強在誤差可以實際算出來)
不過我很喜歡他們的方法(一方面因為是我老闆的paper XD)
他們這套clustering的方法統計性質非常非常漂亮 我未來至少還有有兩篇papers會談到

最後補一下上面那張圖的出處:
Uncertainty measures and limiting distributions for filaments.(2013) Yen-Chi Chen, Christopher R. Genovese, Larry Wasserman. http://arxiv.org/abs/1312.2098

 
over 3 years ago

統計有許多好朋友
例如 Machine Learning, Data Mining, Pattern Recognitions...等等
這些領域也都處理data的問題
但重視的價值與精神其實略有些不同
我稱上述這些領域為 Statistical Engineering/Data Engineering
以後我會寫篇文章討論為什麼我這樣稱呼

今天我舉個簡單的例子 討論統計與Data mining的一個特例的差異
先聲明我對於Data mining並非專家 只是大致知道他們的特性
所以可能觀點會有些偏頗

我最近在處理宇宙學的資料
資料長得像是下面這樣:


這是宇宙的一小塊切面 所以是2維度的資料
x的座標是ra:表示right ascension 你可以當成經度
y的座標是dec:表示declination 你可以看成緯度
裡面每個小黑點都是一個星系(galaxy)
灰色的是galaxy在密度特別低的區域

仔細看這張照片
裡面星系並不是隨機地分布 而是有些高密度的結構存在
這種結構特別類似一種網狀結構 也就是星系傾向圍繞著少量的一維度曲線
這種結構被稱為cosmic filaments或是cosmic web
有興趣的人可以google看看 會跳出很多很漂亮的圖片

科學家想要知道 我們能否透過方法來把這些網狀結構抓出來
下面是我們的成果


藍色的曲線是我們估計出來的filaments
仔細看會發現大部分的點的確都圍繞在這些藍色曲線附近

對於Data mining的人 他們會重視方法裡面的一些額外的tuning parameters(微調參數)如何調整
至少對於這筆資料 怎樣調整這些微調參數會有最佳的成果

對於統計學家
我們重視的是如何把"誤差"的概念引進這個問題
藍色的線段是一種基於資料的估計
我們都知道估計會有誤差 但要如何量化這些誤差 並且計算出這些誤差
對統計學家才是更重要的問題

下面是我們分析出的誤差


我們用兩種方法表達誤差 一種是filament上的顏色: 越紅表示誤差越大
另一種是類似"信賴區間"的灰色區域 越寬的區域表示那邊的誤差越大

為什麼統計學家在乎誤差呢?
因為我們需要知道 我們實際資料哪邊估計得好 哪邊估計得不好
我們也想知道 哪邊的發現可能是錯誤的(所謂的False discovery)
例如那張圖裡 有些很短的filament 誤差值頗大 就表示可能這些估計並不穩定

誤差的分析 會告訴我們更多資料的隱藏意涵
更重要的是 誤差分析會直接影響到我們根據資料做出推論的強度
我們才能知道我們可以做出很強的結論還是很弱的結論
舉例來說 如果有人跟你說 他在A國抽樣 發現大家平均薪水是100,000美金/年
聽起來A國的人民好像很富裕
但如果誤差是200,000美金/年
我們就不能說A國人民薪水超高
(這可能發生; 只要你抽樣時意外抽到億萬富翁 平均值就會馬上飄高)

在Data mining裡 他們也會討論誤差分析
只是重視程度並不像統計學界如此強烈
所以對Data mining的人而言 做到第二張圖那邊 就差不多已經完成大部份工作
剩下的就是微調裡頭的參數來達到最佳化

Reference:
Uncertainty Measures and Limiting Distributions for Filament Estimation. (2013) by Yen-Chi Chen, Christopher R. Genovese, Larry Wasserman (http://arxiv.org/abs/1312.2098)

 
over 3 years ago

資料分析上 常常會有所謂的tuning parameters(微調參數)
這個tuning parameters和一般parameters的最大差別是
一般的parameters具有科學意義 或是統計分析上的目標
tuning parameters只是當我們使用一個方法時
單純出現在這套方法裡面的一些可調整的參數

舉例來說 直方圖就有一個tuning parameter: 每個區間的size

我發現科學界 工程界 統計界對tuning parameters的選取 偏好非常不同:
1. 科學界的選法: 透過對問題的知識 還有tuning parameters的一些單位與性質來使用
2. 工程界的選法: 設定一堆tuning parameters可能的值 然後設定一個目標函數(通常稱為cost function) 選那個能最小化目標函數的tuning parameter
3. 統計界的選法: 透過理論計算 得出tuning parameters和目標的關係 然後透過理論找出最佳的解(非常可能跟資料有關係)
4. 數學界的選法: ...數學家沒有這個問題XD (有的話也跟統計界方法很像)

上面講的是偏好 實際上真的分析時
每個領域其實都會交互使用
像是統計界現在也很多人用工程界的方法 選一堆可能的值 然後找最佳解
只是這些可能的值 通常是圍繞在理論最佳解的附近微調
(e.g. 理論說10最好 通常就會試 9, 9.5, 10, 10.5, 11 選最好的那個)

有時理論沒有結果時 就會靠科學知識去推論
或著靠前人的經驗法則(empirical study)去找一群相近的可能選擇
最後每個都試 選最佳的那個

我覺得並沒有哪個方法比較好
每個方法都傳遞了該領域重視的價值
跨領域研究的樂趣就在於
常常能看到這種價值觀影響方法的小細節 值得讓人玩味