青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

隨筆 - 89  文章 - 118  trackbacks - 0
<2025年11月>
2627282930311
2345678
9101112131415
16171819202122
23242526272829
30123456

留言簿(16)

隨筆分類(56)

隨筆檔案(89)

文章分類

推薦博客

搜索

  •  

最新隨筆

最新評(píng)論

閱讀排行榜

檢索模型與搜索排序
最重要的兩個(gè)因素,用戶查詢與網(wǎng)頁相關(guān)性,網(wǎng)頁鏈接情況
檢索模型:用戶查詢與網(wǎng)頁相關(guān)性
布爾模型,向量空間模型,概率模型,語言模型,機(jī)器學(xué)習(xí)排序算法

布爾模型:數(shù)據(jù)基礎(chǔ)是集合論,搜索結(jié)果過于粗糙,無法量化搜索詞與文檔之前的相關(guān)性

向量空間模型:把文檔看做是由T維特征組成的一個(gè)向量,最常用的是以單詞作為特征,實(shí)際應(yīng)用中,文檔的維度相當(dāng)高(成千上萬)
將查詢和文檔之間的內(nèi)容相似性作為相關(guān)性的替代
計(jì)算相似性,使用COSINE,計(jì)算查詢?cè)~特征權(quán)值與文檔中每個(gè)特征權(quán)值向量的點(diǎn)積
特征權(quán)重:由詞頻Tf,逆文檔頻率IDF確定
詞頻TfWtf=a+(1-a)*Tf/Max(Tf)
a取0.4效果較好
逆文檔頻率因子:文檔集合范圍的一種全局因子,特征單詞之間的相對(duì)重要性
有研究者進(jìn)一步分析認(rèn)為:IDF代表了單詞帶有的信息量的多少(熵),其值越高,說明其信息含量越多,越有價(jià)值
IDFk=log(N/nk)
N代表文檔集合中總共有多少個(gè)文檔,nk代表特征單詞k在其中多少個(gè)文檔中出現(xiàn)過
Weight_word=Tf*IDF,特征權(quán)值越大,越可能是好的指示詞
查詢?cè)~在某個(gè)文檔中的詞頻越高,在其他文檔中出現(xiàn)的詞頻越低,這個(gè)詞的權(quán)值越高
向量空間模型是經(jīng)驗(yàn)型的模型,靠直覺和經(jīng)驗(yàn)不斷摸索完善,缺乏明確的理論指導(dǎo)改進(jìn)方向
概率排序原理:給定一個(gè)用戶查詢,如果搜索系統(tǒng)能夠在搜索結(jié)果排序時(shí)按照文檔和用戶需求的相關(guān)性由高到低排序,那么這個(gè)搜索系統(tǒng)的準(zhǔn)確性是最優(yōu)的。
將P(D|R)/P(D|NR)大小進(jìn)行降序排列,得到搜索相關(guān)性排序

二元獨(dú)立模型

二元假設(shè):一遍文檔在由特征進(jìn)行表示的時(shí)候,以特征“出現(xiàn)”和“不出現(xiàn)”兩種情況來表示
詞匯獨(dú)立假:文檔中出現(xiàn)任意一個(gè)詞在文檔的分布概率不依賴于其他單詞是否出現(xiàn)

BMI模型:基于二元假設(shè)推導(dǎo)而出,對(duì)于單詞特征,只考慮是否在文檔中出現(xiàn)過,而了考慮單詞的權(quán)值
P(D|R)/P(D|NR) = pi(1-si)/si(1-pi)
log( pi(1-si)/si(1-pi) )
pi代表第i個(gè)單詞在相關(guān)文檔集合內(nèi)出現(xiàn)的概率,在二元假設(shè)下,可以用包含這個(gè)單詞的相關(guān)文檔個(gè)數(shù)ri除以相關(guān)文檔總數(shù)R來估算,pi=ri/R
si代表第i個(gè)詞在不相關(guān)文檔集合內(nèi)出現(xiàn)的概率,可以用包含這個(gè)單詞的不相關(guān)文檔個(gè)數(shù)ni-ri,除以不相關(guān)文檔總數(shù)(N-R)來估算,si=(ni-ri)/(N-R)
加上平滑處理
log((ri+0.5)/(R-ri+0.5)
/
(ni-ri+0.5)/((N-R)-(ni-ri)+0.5))
其含義:對(duì)于同時(shí)出現(xiàn)在用戶查詢Q和文檔D中的單詞,累加每個(gè)單詞的估值,其和就是文檔D和查詢相關(guān)性度量值

BM25模型
在BIM模型的基礎(chǔ)上,考慮了單詞在查詢中的權(quán)值及單詞在文檔中的權(quán)值,擬合出綜合上述考慮因素的公式,并通過引入一些經(jīng)驗(yàn)參數(shù)
BM25模型是目前最成功的內(nèi)容排序模型
http://hi.csdn.net/attachment/201011/30/0_12911307384w69.gif

k1,k2,K均為經(jīng)驗(yàn)設(shè)置的參數(shù),fi是詞項(xiàng)在文檔中的頻率,qfi是詞項(xiàng)在查詢中的頻率。

K1通常為1.2,通常為0-1000

K的形式較為復(fù)雜

K=http://hi.csdn.net/attachment/201011/30/0_1291130766F92C.gif 

上式中,dl表示文檔的長度,avdl表示文檔的平均長度,b通常取0.75
BM25F模型:是典型的BM25改進(jìn)算法
將文檔內(nèi)容切換成不同的部分,為不同的部分賦予不同的權(quán)重
語言模型方法:借鑒語音識(shí)別領(lǐng)域采用的語言模型技術(shù),將語言模型和信息檢索相互融合
為每個(gè)文檔建立一個(gè)語言模型,語言模型代表了單詞或者單詞序列在文檔中的分布情況
對(duì)于查詢中的單詞來說,每個(gè)單詞都對(duì)應(yīng)一個(gè)抽取概率,將這些單詞的抽取概率相乘就是文檔生成查詢的總體概率
一般采用數(shù)據(jù)平滑方式解決數(shù)據(jù)稀疏問題
用戶提交查詢Q,文檔集合內(nèi)所有文檔都計(jì)算生成Q的概率,然后按照生成概率值由大到小排序,就是搜索結(jié)果
HMM,隱馬爾科夫語言模型、相關(guān)模型、翻譯模型是在基本語言模型的改進(jìn)
語言模型檢索方法效果略優(yōu)于精調(diào)參數(shù)的向量空間模型,與BM25等概率模型效果相當(dāng)
通過理論推導(dǎo),可以得出:語言模型檢索方法的排序公司符合概率模型的概率排序原理,類似向量空間模型Tf*IDF
機(jī)器學(xué)習(xí)排序
為何興起較晚:
1、其他模型和方法,考慮的因素較少,人工進(jìn)行公式擬合完全可行,效果尚可
2、機(jī)器學(xué)習(xí)需要大量訓(xùn)練數(shù)據(jù),用戶點(diǎn)擊記錄可以當(dāng)做機(jī)器學(xué)習(xí)方法訓(xùn)練數(shù)據(jù)的一個(gè)替代品
機(jī)器學(xué)習(xí)排序系統(tǒng)的4個(gè)步驟
人工標(biāo)注訓(xùn)練數(shù)據(jù):用戶點(diǎn)擊記錄來模擬人工打分機(jī)制
文檔特征抽取:查詢?cè)~在文檔中的詞頻、查詢?cè)~的IDF信息,網(wǎng)頁入鏈數(shù)量,網(wǎng)頁出鏈數(shù)量,網(wǎng)頁P(yáng)ageRank值,網(wǎng)頁URL長度,查詢?cè)~的Proximity值(文檔中多大的窗口內(nèi)可以出現(xiàn)所有查詢?cè)~)
學(xué)習(xí)分類函數(shù)
在實(shí)際搜索系統(tǒng)中采用機(jī)器學(xué)習(xí)模型
機(jī)器學(xué)習(xí)方法
1、單文檔方法
對(duì)單獨(dú)的一篇文檔轉(zhuǎn)換為特征向量,機(jī)器學(xué)習(xí)系統(tǒng)根據(jù)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的分類或回歸函數(shù)對(duì)文檔打分,打分結(jié)果為最后得分
在訓(xùn)練過程中,當(dāng)打分大于一定的閾值,為相關(guān)文檔,否則為不相關(guān)文檔。
2、文檔對(duì)方法
通過訓(xùn)練,對(duì)文檔順序關(guān)系是否合理進(jìn)行判斷,判斷兩個(gè)文檔的得分
使用SVM,BOOST,神經(jīng)網(wǎng)絡(luò),都可以做為學(xué)習(xí)方法
缺點(diǎn),只考慮了兩個(gè)文檔對(duì)的相對(duì)先后順序,卻沒有考慮文檔出現(xiàn)的搜索列表中的位置
不同的查詢,相關(guān)文檔數(shù)量差異很大,對(duì)機(jī)器學(xué)習(xí)系統(tǒng)的效果造成評(píng)價(jià)困難
3、文檔列表方法
將每個(gè)查詢對(duì)應(yīng)的所有搜索結(jié)果列表作為一個(gè)訓(xùn)練實(shí)例
通過搜索結(jié)果排列組合的概率分布,訓(xùn)練評(píng)分函數(shù)
搜索質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn):對(duì)于搜索引擎更加關(guān)注精確率
精確率:本次搜索結(jié)果中相關(guān)文檔所占本次搜索返回的所有文檔的比例
招回率:本次搜索結(jié)果中相關(guān)文檔占整個(gè)集合中所有相關(guān)文檔的比例
P@10指標(biāo):在搜索結(jié)果排名最先前的頭10個(gè)文檔中有多大比例是相關(guān)的
MAP:AP兼顧了排在前列的相關(guān)性和系統(tǒng)招架率,MAP多組查詢的AP平均值
posted on 2013-11-04 12:56 胡滿超 閱讀(614) 評(píng)論(0)  編輯 收藏 引用 所屬分類: 搜索引擎
青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            夜夜嗨网站十八久久| 亚洲一级高清| 亚洲精选在线| 久久久国产亚洲精品| 亚洲免费观看视频| 美女精品在线观看| 亚洲高清免费视频| 久久亚洲午夜电影| 久久精品国产91精品亚洲| 国产精品美女久久久久久免费| 亚洲人www| 欧美激情一级片一区二区| 久久久久久免费| 亚洲电影观看| 亚洲第一天堂av| 久久久999精品| …久久精品99久久香蕉国产 | 性色av一区二区三区红粉影视| 欧美精品国产| 亚洲人成小说网站色在线| 媚黑女一区二区| 免费观看成人www动漫视频| 亚洲国产日韩在线| 亚洲欧洲一区二区在线观看| 欧美激情第五页| 一区二区冒白浆视频| 一本色道久久加勒比精品| 国产精品久久福利| 久久久免费精品| 暖暖成人免费视频| 亚洲天堂视频在线观看| 亚洲伊人一本大道中文字幕| 国产日韩欧美综合| 欧美成人dvd在线视频| 欧美成人激情在线| 亚洲综合成人在线| 久久久99爱| 日韩视频在线一区二区三区| 洋洋av久久久久久久一区| 国产精品亚洲综合久久| 麻豆精品精华液| 欧美成人情趣视频| 亚洲欧美在线磁力| 久久精品视频免费| 日韩亚洲精品视频| 香蕉成人伊视频在线观看| 精品福利av| 亚洲最黄网站| 精品成人在线| 这里只有精品在线播放| 激情成人综合网| 99精品福利视频| 欲色影视综合吧| 一区二区三区视频在线观看| 亚洲国产成人porn| 小处雏高清一区二区三区| 亚洲精品一区二区网址| 性欧美大战久久久久久久久| 亚洲免费福利视频| 久久精品九九| 性刺激综合网| 欧美日韩精品一区二区三区| 免费日韩av电影| 国产麻豆精品theporn| 亚洲日本无吗高清不卡| 精品1区2区3区4区| 亚洲一线二线三线久久久| 亚洲精品美女| 久久婷婷麻豆| 久久精品国产999大香线蕉| 欧美男人的天堂| 欧美成人中文字幕在线| 国产美女精品免费电影| 亚洲免费高清视频| 亚洲人成绝费网站色www| 香蕉国产精品偷在线观看不卡| 9色精品在线| 久久这里有精品视频| 久久精品国产清高在天天线| 国产精品不卡在线| 国产视频在线一区二区 | 欧美韩日一区二区三区| 久久精品99国产精品| 国产精品美女久久久久av超清| 亚洲欧洲三级| 亚洲精品免费在线播放| 久久伊人亚洲| 久久综合成人精品亚洲另类欧美| 国产精品青草久久久久福利99| 亚洲老板91色精品久久| 亚洲精品欧美日韩| 免费成年人欧美视频| 欧美gay视频激情| 在线成人免费视频| 久久久精品日韩| 免播放器亚洲一区| 在线观看欧美亚洲| 麻豆91精品| 女仆av观看一区| 亚洲精品123区| 欧美成人午夜激情在线| 欧美激情欧美激情在线五月| 亚洲国产裸拍裸体视频在线观看乱了中文 | 亚洲欧洲在线视频| 欧美国产日韩免费| 亚洲卡通欧美制服中文| 亚洲欧美日韩精品久久久久| 欧美亚州在线观看| 亚洲欧美日韩一区在线观看| 久久久精品网| 91久久久久| 欧美日韩亚洲一区二区三区| 一本一本久久| 久久久久久精| 亚洲国产精品欧美一二99| 欧美精品 国产精品| 一区二区三区久久| 久久人人九九| 99在线精品视频在线观看| 国产精品激情| 久久亚洲综合网| 亚洲小视频在线| 美女999久久久精品视频| 日韩一区二区精品视频| 国产精品一区免费在线观看| 久久久久久午夜| 亚洲色诱最新| 免费不卡欧美自拍视频| 亚洲一区二区三区在线| 含羞草久久爱69一区| 欧美日本中文| 久久国产视频网站| 亚洲黄网站黄| 久久久久九九九| 亚洲色图在线视频| 在线电影国产精品| 国产精品久久久久久影视 | 欧美性jizz18性欧美| 久久成人精品电影| 日韩一本二本av| 久久视频这里只有精品| 一区二区三区欧美成人| 激情一区二区三区| 国产精品久久久99| 亚洲综合好骚| 免费成人网www| 亚洲日本一区二区三区| 欧美一区2区三区4区公司二百| 一色屋精品视频免费看| 国产精品第一区| 欧美大片免费观看| 欧美一区精品| 亚洲午夜视频在线观看| 亚洲国产精品传媒在线观看 | 亚洲免费网址| 亚洲欧洲在线免费| 欧美高清日韩| 麻豆精品国产91久久久久久| 欧美一区二区三区精品电影| 亚洲伦伦在线| 亚洲国产精品日韩| 影音先锋一区| 韩日午夜在线资源一区二区| 国产精品日韩精品| 欧美新色视频| 国产精品草莓在线免费观看| 欧美日韩免费观看中文| 欧美高清视频| 欧美成年人网站| 欧美国产精品久久| 欧美顶级艳妇交换群宴| 免费观看一区| 女女同性精品视频| 欧美国产精品专区| 欧美国产日韩视频| 欧美国产国产综合| 欧美精品久久久久久久久久| 欧美黄色视屏| 欧美日韩国产在线播放| 欧美日本国产视频| 欧美日韩精品欧美日韩精品| 男人的天堂成人在线| 欧美成人69av| 欧美日韩中文字幕| 国产精品视频福利| 国产日韩欧美视频在线| 国产情人节一区| 好吊色欧美一区二区三区四区| 一区二区三区自拍| 亚洲欧洲日夜超级视频| 亚洲每日更新| 亚洲欧美日韩综合一区| 欧美一区二区三区成人| 久久精品女人的天堂av| 久久久久久亚洲精品杨幂换脸| 男人插女人欧美| 亚洲毛片播放| 欧美一区二区三区视频在线| 麻豆av一区二区三区久久| 欧美日韩国产限制|