over 3 years ago

最近做了許多新研究
特別有一些感觸

有些學術問題 應用層面不大
有興趣的人也不多
但對於整套學問的"完整性" 卻是有一席之地

舉例來說
我最近做了一個研究
關於統計分類問題(classification)裡決策區域(decision boundaries)的randomness

決策區域基本上就是
假設你的資料有兩個標簽 可能來自第1群 或是來自第2群
當你做分類時 你可以畫出一個曲面 在曲面的某一側是第1群
在另一側是第2群

如這張圖所展現的 紅點與黑點分別是兩群不同的資料


咖啡色的曲線是最佳的decision boundaries(稱為Bayes decision boundaries)
然後藍色曲線是某個方法估計的decision boundaries

估計總有誤差
但這種曲面/曲線的誤差該如何定義 或該如何探討
是一個有意思的問題
下面是我們分析出來的誤差 我們用顏色/灰色區域的大小來表示誤差多寡

我們的估計頗準的 其實我們連這套方法有效的定理都推出來了

但現在來了一個問題:
一般在分類的問題上 大家在乎的通常是分類的"準確性"
其實沒什麼人在乎那個決策區域的誤差大小
並且 當前許多研究都著重在高維度資料的分析
在高維度資料下 這個決策區域也會是高維度的
基本上我們是無法"看"到這個區域的
這樣我們是否還在乎這個區域的誤差呢?

所以 這個研究雖然我們有明確的問題 完整的定義 有效的方法 切確的定理
但依舊是難以投到好的期刊上 因為這個問題的重要性不大(至少在當代研究裡)

當初做這個研究時 我就有這個考量
但我那時純粹覺得這是個完整性考量
我不期望這個研究會被引用多少次
純粹只是覺得這個問題該被解答
這樣整個知識體系才會更完備

至少這篇文章出來之後 人類對於整個分類問題的理解
又更加完整了

← 母體性質 雜感: 統計研究與科學經費 →
 
comments powered by Disqus