青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

隨筆 - 89  文章 - 118  trackbacks - 0
<2013年11月>
272829303112
3456789
10111213141516
17181920212223
24252627282930
1234567

留言簿(16)

隨筆分類(56)

隨筆檔案(89)

文章分類

推薦博客

搜索

  •  

最新隨筆

最新評論

閱讀排行榜

檢索模型與搜索排序
最重要的兩個因素,用戶查詢與網頁相關性,網頁鏈接情況
檢索模型:用戶查詢與網頁相關性
布爾模型,向量空間模型,概率模型,語言模型,機器學習排序算法

布爾模型:數據基礎是集合論,搜索結果過于粗糙,無法量化搜索詞與文檔之前的相關性

向量空間模型:把文檔看做是由T維特征組成的一個向量,最常用的是以單詞作為特征,實際應用中,文檔的維度相當高(成千上萬)
將查詢和文檔之間的內容相似性作為相關性的替代
計算相似性,使用COSINE,計算查詢詞特征權值與文檔中每個特征權值向量的點積
特征權重:由詞頻Tf,逆文檔頻率IDF確定
詞頻TfWtf=a+(1-a)*Tf/Max(Tf)
a取0.4效果較好
逆文檔頻率因子:文檔集合范圍的一種全局因子,特征單詞之間的相對重要性
有研究者進一步分析認為:IDF代表了單詞帶有的信息量的多少(熵),其值越高,說明其信息含量越多,越有價值
IDFk=log(N/nk)
N代表文檔集合中總共有多少個文檔,nk代表特征單詞k在其中多少個文檔中出現過
Weight_word=Tf*IDF,特征權值越大,越可能是好的指示詞
查詢詞在某個文檔中的詞頻越高,在其他文檔中出現的詞頻越低,這個詞的權值越高
向量空間模型是經驗型的模型,靠直覺和經驗不斷摸索完善,缺乏明確的理論指導改進方向
概率排序原理:給定一個用戶查詢,如果搜索系統能夠在搜索結果排序時按照文檔和用戶需求的相關性由高到低排序,那么這個搜索系統的準確性是最優的。
將P(D|R)/P(D|NR)大小進行降序排列,得到搜索相關性排序

二元獨立模型

二元假設:一遍文檔在由特征進行表示的時候,以特征“出現”和“不出現”兩種情況來表示
詞匯獨立假:文檔中出現任意一個詞在文檔的分布概率不依賴于其他單詞是否出現

BMI模型:基于二元假設推導而出,對于單詞特征,只考慮是否在文檔中出現過,而了考慮單詞的權值
P(D|R)/P(D|NR) = pi(1-si)/si(1-pi)
log( pi(1-si)/si(1-pi) )
pi代表第i個單詞在相關文檔集合內出現的概率,在二元假設下,可以用包含這個單詞的相關文檔個數ri除以相關文檔總數R來估算,pi=ri/R
si代表第i個詞在不相關文檔集合內出現的概率,可以用包含這個單詞的不相關文檔個數ni-ri,除以不相關文檔總數(N-R)來估算,si=(ni-ri)/(N-R)
加上平滑處理
log((ri+0.5)/(R-ri+0.5)
/
(ni-ri+0.5)/((N-R)-(ni-ri)+0.5))
其含義:對于同時出現在用戶查詢Q和文檔D中的單詞,累加每個單詞的估值,其和就是文檔D和查詢相關性度量值

BM25模型
在BIM模型的基礎上,考慮了單詞在查詢中的權值及單詞在文檔中的權值,擬合出綜合上述考慮因素的公式,并通過引入一些經驗參數
BM25模型是目前最成功的內容排序模型
http://hi.csdn.net/attachment/201011/30/0_12911307384w69.gif

k1,k2,K均為經驗設置的參數,fi是詞項在文檔中的頻率,qfi是詞項在查詢中的頻率。

K1通常為1.2,通常為0-1000

K的形式較為復雜

K=http://hi.csdn.net/attachment/201011/30/0_1291130766F92C.gif 

上式中,dl表示文檔的長度,avdl表示文檔的平均長度,b通常取0.75
BM25F模型:是典型的BM25改進算法
將文檔內容切換成不同的部分,為不同的部分賦予不同的權重
語言模型方法:借鑒語音識別領域采用的語言模型技術,將語言模型和信息檢索相互融合
為每個文檔建立一個語言模型,語言模型代表了單詞或者單詞序列在文檔中的分布情況
對于查詢中的單詞來說,每個單詞都對應一個抽取概率,將這些單詞的抽取概率相乘就是文檔生成查詢的總體概率
一般采用數據平滑方式解決數據稀疏問題
用戶提交查詢Q,文檔集合內所有文檔都計算生成Q的概率,然后按照生成概率值由大到小排序,就是搜索結果
HMM,隱馬爾科夫語言模型、相關模型、翻譯模型是在基本語言模型的改進
語言模型檢索方法效果略優于精調參數的向量空間模型,與BM25等概率模型效果相當
通過理論推導,可以得出:語言模型檢索方法的排序公司符合概率模型的概率排序原理,類似向量空間模型Tf*IDF
機器學習排序
為何興起較晚:
1、其他模型和方法,考慮的因素較少,人工進行公式擬合完全可行,效果尚可
2、機器學習需要大量訓練數據,用戶點擊記錄可以當做機器學習方法訓練數據的一個替代品
機器學習排序系統的4個步驟
人工標注訓練數據:用戶點擊記錄來模擬人工打分機制
文檔特征抽?。翰樵冊~在文檔中的詞頻、查詢詞的IDF信息,網頁入鏈數量,網頁出鏈數量,網頁PageRank值,網頁URL長度,查詢詞的Proximity值(文檔中多大的窗口內可以出現所有查詢詞)
學習分類函數
在實際搜索系統中采用機器學習模型
機器學習方法
1、單文檔方法
對單獨的一篇文檔轉換為特征向量,機器學習系統根據從訓練數據中學習到的分類或回歸函數對文檔打分,打分結果為最后得分
在訓練過程中,當打分大于一定的閾值,為相關文檔,否則為不相關文檔。
2、文檔對方法
通過訓練,對文檔順序關系是否合理進行判斷,判斷兩個文檔的得分
使用SVM,BOOST,神經網絡,都可以做為學習方法
缺點,只考慮了兩個文檔對的相對先后順序,卻沒有考慮文檔出現的搜索列表中的位置
不同的查詢,相關文檔數量差異很大,對機器學習系統的效果造成評價困難
3、文檔列表方法
將每個查詢對應的所有搜索結果列表作為一個訓練實例
通過搜索結果排列組合的概率分布,訓練評分函數
搜索質量評價標準:對于搜索引擎更加關注精確率
精確率:本次搜索結果中相關文檔所占本次搜索返回的所有文檔的比例
招回率:本次搜索結果中相關文檔占整個集合中所有相關文檔的比例
P@10指標:在搜索結果排名最先前的頭10個文檔中有多大比例是相關的
MAP:AP兼顧了排在前列的相關性和系統招架率,MAP多組查詢的AP平均值
posted on 2013-11-04 12:56 胡滿超 閱讀(614) 評論(0)  編輯 收藏 引用 所屬分類: 搜索引擎
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            久久av红桃一区二区小说| 亚洲欧洲av一区二区三区久久| 久久久精彩视频| 日韩五码在线| 久久电影一区| 亚洲一区影院| 国产精品久久久久国产a级| 在线成人黄色| 牛牛影视久久网| 亚洲女人天堂av| 久久久久在线观看| 狠狠爱综合网| 性欧美在线看片a免费观看| 99热精品在线| 欧美不卡视频| 一本大道久久a久久精品综合| 欧美v亚洲v综合ⅴ国产v| 欧美一级一区| 在线观看欧美日韩国产| 美日韩精品免费| 欧美 日韩 国产 一区| 黄色成人av| 亚洲自拍三区| 午夜日韩av| 国产欧美一区二区三区另类精品| 欧美在线播放| 亚洲欧美视频一区二区三区| 国产日韩亚洲欧美精品| 久久精品亚洲| 亚洲一区影音先锋| 韩国一区电影| 美日韩精品免费| 欧美日韩免费观看一区=区三区| 亚洲美女尤物影院| 亚洲视频精品在线| 国产伦精品一区二区三区视频孕妇| 久久精品卡一| 久久婷婷国产综合国色天香| 国产精品私房写真福利视频| 男女视频一区二区| 久久黄金**| 蜜臀a∨国产成人精品| 亚洲国产成人精品久久| av不卡在线| 国产精品久久久久久超碰| 久久免费视频在线| 免费成人在线观看视频| 狠狠色狠狠色综合日日tαg| 亚洲福利视频在线| 国产精品女人毛片| 欧美成人精品高清在线播放| 欧美v日韩v国产v| 久久免费高清视频| 在线亚洲激情| 亚洲欧美日产图| 亚洲人成啪啪网站| 欧美日韩99| 免费不卡在线视频| 久久九九热免费视频| 久久人体大胆视频| 亚洲精品久久久久久一区二区| 免费不卡亚洲欧美| 亚洲美女91| 久久精品日韩一区二区三区| 最新中文字幕亚洲| 欧美在线国产| 日韩亚洲欧美成人一区| 久久国产综合精品| 夜夜嗨av一区二区三区免费区| 亚洲二区视频在线| 一区二区在线观看av| 亚洲精品1区2区| 亚洲国产电影| 亚洲欧美日韩中文播放| 亚洲一区二区三区欧美| 久久婷婷国产综合国色天香| 久久精品色图| 久久久蜜桃一区二区人| 香蕉av777xxx色综合一区| 麻豆视频一区二区| 国产喷白浆一区二区三区| 一区在线免费观看| 亚洲日本成人女熟在线观看| 翔田千里一区二区| 久久aⅴ国产紧身牛仔裤| 99riav国产精品| 欧美日韩国产成人在线| 嫩草国产精品入口| 欧美在线观看天堂一区二区三区| 欧美国产精品va在线观看| 亚洲综合第一| 久久精品国产亚洲高清剧情介绍| 小辣椒精品导航| 亚洲第一天堂无码专区| 在线观看成人网| 狠狠色伊人亚洲综合成人| 国产精品久在线观看| 亚洲综合日韩| 亚洲精品在线视频观看| 欧美日本视频在线| 9l国产精品久久久久麻豆| 国产精品资源| 久久精品人人| 国产精品久久久久一区| 欧美在线日韩精品| 欧美视频中文在线看| 亚洲午夜一区二区| 这里是久久伊人| 欧美性猛交99久久久久99按摩| 亚洲福利免费| 亚洲精品欧美在线| 欧美黑人在线播放| 久久一区二区三区四区| 欧美日韩综合视频| 中国av一区| 欧美一级电影久久| 国产精品日韩欧美| 亚洲午夜精品一区二区三区他趣| 亚洲午夜av在线| 国内自拍视频一区二区三区| 欧美在线影院| 亚洲欧洲三级| 亚洲欧美电影在线观看| 黑人巨大精品欧美一区二区| 久久中文字幕一区二区三区| 亚洲免费观看高清完整版在线观看熊 | 樱花yy私人影院亚洲| 91久久极品少妇xxxxⅹ软件| 一本色道久久综合亚洲精品不| 亚洲色在线视频| 国产精品毛片高清在线完整版| 久久国产精品99国产精| 欧美高清视频一区二区| 欧美手机在线视频| 久久精品人人| 久久黄金**| 一区二区免费在线视频| 国产精品免费看片| 欧美黄色一区二区| 中文无字幕一区二区三区| 欧美a级片网站| 在线一区二区三区四区| 亚洲高清在线观看一区| 欧美视频福利| 久久综合中文字幕| 一本色道久久综合狠狠躁篇怎么玩| 亚洲性夜色噜噜噜7777| 韩国福利一区| 久久人体大胆视频| 欧美一区久久| 亚洲卡通欧美制服中文| 欧美福利一区| 欧美一区观看| 亚洲欧美综合网| 亚洲国产视频一区| 狠狠久久五月精品中文字幕| 欧美日韩国产在线播放| 欧美激情精品久久久久久黑人 | 久久狠狠亚洲综合| 在线一区亚洲| 蜜桃精品一区二区三区| 久久精品国产欧美亚洲人人爽| 一色屋精品视频在线看| 国产亚洲精品久久久| 欧美激情一区二区三区蜜桃视频 | 国产欧美日韩综合精品二区| 欧美日韩国产片| 久久躁日日躁aaaaxxxx| 久久久久国产免费免费| 亚洲午夜伦理| 亚洲一二三区在线观看| 亚洲欧洲另类| 久久青草久久| 久久成人在线| 久久久九九九九| 亚洲欧美自拍偷拍| 亚洲女人av| 亚洲视频每日更新| 亚洲视频一区二区| 亚洲免费不卡| 亚洲五月六月| 亚洲精品久久久久久久久久久 | 亚洲毛片在线免费观看| 亚洲免费视频中文字幕| 久久免费视频这里只有精品| 久久综合久色欧美综合狠狠| 久久精品国产v日韩v亚洲| 欧美超级免费视 在线| 亚洲欧美日韩一区二区三区在线观看 | 精品不卡在线| 国产精品激情电影| 国产精品va| 国产欧美日韩精品a在线观看| 国产精品成人一区二区| 欧美一级久久久久久久大片| 香蕉视频成人在线观看| 亚洲国产成人一区| 亚洲精品字幕| 一区二区高清在线| 欧美在线播放视频|