about 4 years ago

上週去參觀學校gradute computer vision課程的期末poster
主要是來瞭解不同領域的人如何運用以及詮釋data
computer vision主要用的是image data
可以說是數一數二重視image data的領域

就小弟對computer vision粗淺的見解
他們主要透過分析image data 找出/辨識出有用的features
這些features可以讓人/電腦作進一步的分析
例如 你叫機器人去拿桌上的水杯 機器人就需要透過image data去辨識"杯子" 然後進行拿取的動作
或在影像醫學上 把一張皮膚的image 辨識出不同的細胞

以下是小弟兩天參觀poster後粗略的感想
整個computer vision的研究在現代可以說是非常有成果
我這兩天看到許多非常非常有趣的成果 很多都讓我為之驚艷

而computer vision我會詮釋成"image data engineering"
他們使用許多不同的方法來處理image data 找尋各式有用的資訊
並且研究這些方法在不同image data下的表現
有趣的是 許多方法都俱有統計的性質 e.g. kNN, clustering, mean shift...
但不同於統計所重視理論的性質 computer vision非常重視實際data的表現性
還有如何設計一個快速/有效的algorithm去跑出我們要的成果
我比較少看到的是理論的架構 至少是image data產生的理論架構
這是我之所以稱之為engineering的原因

有些人試圖透過機率模型去給不同的方法一些詮釋
但我個人認為 在computer vision裡
對noise的詮釋是: "有助於我們要的features的資料 就是signal 其他的則是noise"
這個noise並不表示沒用的資料 而是對我們的目標而言沒幫助的資料
在這種情況下 我並不覺得probability model是好用的model
因為影像資料裡的noise可以說是非常的複雜
我不覺得真正random或probability的noise會是合理地假設

但其實image data的產生機制本身是困難的問題
因為一張image裡頭其實存在著一種"physically reasonable"的性質
這使得noise是俱備複雜結構的 絕對不是統計上或機率上簡單的correlation就能處理的
因此 如何寫下一個model去合理地詮釋image data 完全是個困難的問題

不過就model本身的特性來講 是否合理是個問題
但只要model可以有效地解釋現象與描述過程 並能做出好的prediction
這樣的一個model就不算是太差
而這或許正是統計模型/機率模型在image data依舊會被人使用的原因
縱使假設都不成立 但只要能夠有效的處理問題 就是好模型

我的結論是:
只要統計方法在image data, computer vision上能有效解決問題
那就是個好用的方法 至於如何詮釋結果與noise 或寫下一個model去描述image
這是個很有意思並且值得深思的問題 由衷地希望有人能夠提出一套好的觀點或model
(這是個很有"Ph"D概念在的問題)

← 淺談functional space 統計理論的用途 →
 
comments powered by Disqus