coreBugZJ

此 blog 已棄。

相似圖片搜索的原理（轉）

　　這種技術的原理是什么？計算機怎么知道兩張圖片相似呢？

　　根據Neal Krawetz博士的解釋，原理非常簡單易懂。我們可以用一個快速算法，就達到基本的效果。

　　這里的關鍵技術叫做"感知哈希算法"（Perceptual hash algorithm），它的作用是對每張圖片生成一個"指紋"（fingerprint）字符串，然后比較不同圖片的指紋。結果越接近，就說明圖片越相似。

　　下面是一個最簡單的實現：

　　第一步，縮小尺寸。

　　將圖片縮小到8x8的尺寸，總共64個像素。這一步的作用是去除圖片的細節，只保留結構、明暗等基本信息，摒棄不同尺寸、比例帶來的圖片差異。

　　第二步，簡化色彩。

　　將縮小后的圖片，轉為64級灰度。也就是說，所有像素點總共只有64種顏色。

　　第三步，計算平均值。

　　計算所有64個像素的灰度平均值。

　　第四步，比較像素的灰度。

　　將每個像素的灰度，與平均值進行比較。大于或等于平均值，記為1；小于平均值，記為0。

　　第五步，計算哈希值。

　　將上一步的比較結果，組合在一起，就構成了一個64位的整數，這就是這張圖片的指紋。組合的次序并不重要，只要保證所有圖片都采用同樣次序就行了。

= = 8f373714acfcf4d0

　　得到指紋以后，就可以對比不同的圖片，看看64位中有多少位是不一樣的。在理論上，這等同于計算"漢明距離"（Hamming distance）。如果不相同的數據位不超過5，就說明兩張圖片很相似；如果大于10，就說明這是兩張不同的圖片。

　　具體的代碼實現，可以參見Wote用python語言寫的imgHash.py。代碼很短，只有53行。使用的時候，第一個參數是基準圖片，第二個參數是用來比較的其他圖片所在的目錄，返回結果是兩張圖片之間不相同的數據位數量（漢明距離）。

　　這種算法的優點是簡單快速，不受圖片大小縮放的影響，缺點是圖片的內容不能變更。如果在圖片上加幾個文字，它就認不出來了。所以，它的最佳用途是根據縮略圖，找出原圖。

　　實際應用中，往往采用更強大的pHash算法和SIFT算法，它們能夠識別圖片的變形。只要變形程度不超過25%，它們就能匹配原圖。這些算法雖然更復雜，但是原理與上面的簡便算法是一樣的，就是先將圖片轉化成Hash字符串，然后再進行比較。

posted on 2011-11-03 11:39 coreBugZJ 閱讀(512) 評論(0) 編輯收藏引用所屬分類: VideoImage 、技術視野

只有注冊用戶登錄后才能發表評論。
【推薦】100%開源！大型工業跨平臺軟件C++源碼提供，建模，組態！

相關文章: LZW 編碼解碼代碼數字圖像處理上機之五：圖像平滑和銳化數字圖像處理上機之四：灰度圖快速傅里葉變換（ FFT IFFT 一維二維）運動軌跡捕捉數字圖像處理上機之三：直方圖均衡化數字圖像處理上機之二：圖像放大縮小旋轉和平移處理嘗試 OpenCV 攝像頭與 Windows 消息機制相似圖片搜索的原理（轉）圖像插值算法（轉）數字圖像處理上機之一：BMP圖像文件讀寫和圖像顯示

網站導航: 博客園 IT新聞 BlogJava 博問 Chat2DB 管理

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

coreBugZJ

My Links

Blog Stats

常用鏈接

留言簿(10)

隨筆分類(458)

隨筆檔案(268)

相冊

ACM

AI

LaTeX

安全

編程語言

好有道理

技術

開源

科學

數學

圖形圖像

文化

問題（練習＆有趣）

資源

最新隨筆

搜索

最新評論

閱讀排行榜

評論排行榜

相似圖片搜索的原理（轉）

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

coreBugZJ

My Links

Blog Stats

常用鏈接

留言簿(10)

隨筆分類(458)

隨筆檔案(268)

相冊

ACM

AI

LaTeX

安全

編程語言

好有道理

技術

開源

科學

數學

圖形圖像

文化

問題（練習＆有趣）

資源

最新隨筆

搜索

最新評論

閱讀排行榜

評論排行榜

相似圖片搜索的原理 （轉）

相似圖片搜索的原理（轉）