• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            sunrise

            每天不斷學(xué)習(xí),才能不斷提升自己。

              C++博客 :: 首頁(yè) :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
              64 隨筆 :: 0 文章 :: 92 評(píng)論 :: 0 Trackbacks
            轉(zhuǎn)自:http://uwei.blogbus.com/logs/11424864.html
            外行人做互聯(lián)網(wǎng),很多概念不懂。就拿最基礎(chǔ)的“召回率”和“準(zhǔn)確率”這種概念,看看網(wǎng)上資料知道大概,自己用的時(shí)候,腦子里繞著彎兒能想明白,可碰到別人活用的時(shí)候,腦子里還是沒(méi)法一下子反應(yīng)過(guò)來(lái),還是要繞彎想一下。特地找了些資料,將這兩個(gè)概念整理一下,希望能更熟練。

            召回率和準(zhǔn)確率是搜索引擎(或其它檢索系統(tǒng))的設(shè)計(jì)中很重要的兩個(gè)概念和指標(biāo)。
            召回率:Recall,又稱(chēng)“查全率”;
            準(zhǔn)確率:Precision,又稱(chēng)“精度”、“正確率”。
            在一個(gè)大規(guī)模數(shù)據(jù)集合中檢索文檔時(shí),可把集合中的所有文檔分成四類(lèi):

             
            相關(guān)
            不相關(guān)
            檢索到
            A
            B
            未檢索到
            C
            D

             

             

             

            A:檢索到的,相關(guān)的                   (搜到的也想要的)
            B:檢索到的,但是不相關(guān)的           (搜到的但沒(méi)用的)
            C:未檢索到的,但卻是相關(guān)的        (沒(méi)搜到,然而實(shí)際上想要的)
            D:未檢索到的,也不相關(guān)的          (沒(méi)搜到也沒(méi)用的)

            通常我們希望:數(shù)據(jù)庫(kù)中相關(guān)的文檔,被檢索到的越多越好,這是追求“查全率”,即A/(A+C),越大越好。
            同時(shí)我們還希望:檢索到的文檔中,相關(guān)的越多越好,不相關(guān)的越少越好,這是追求“準(zhǔn)確率”,即A/(A+B),越大越好。
             
            歸納如下:
            召回率:檢索到的相關(guān)文檔 比 庫(kù)中所有的相關(guān)文檔
            準(zhǔn)確率:檢索到的相關(guān)文檔 比 所有被檢索到的文檔
             
            “召回率”與“準(zhǔn)確率”雖然沒(méi)有必然的關(guān)系(從上面公式中可以看到),然而在大規(guī)模數(shù)據(jù)集合中,這兩個(gè)指標(biāo)卻是相互制約的。
            由于“檢索策略”并不完美,希望更多相關(guān)的文檔被檢索到時(shí),放寬“檢索策略”時(shí),往往也會(huì)伴隨出現(xiàn)一些不相關(guān)的結(jié)果,從而使準(zhǔn)確率受到影響。
            而希望去除檢索結(jié)果中的不相關(guān)文檔時(shí),務(wù)必要將“檢索策略”定的更加嚴(yán)格,這樣也會(huì)使有一些相關(guān)的文檔不再能被檢索到,從而使召回率受到影響。

            凡是設(shè)計(jì)到大規(guī)模數(shù)據(jù)集合的檢索和選取,都涉及到“召回率”和“準(zhǔn)確率”這兩個(gè)指標(biāo)。而由于兩個(gè)指標(biāo)相互制約,我們通常也會(huì)根據(jù)需要為“檢索策略”選擇一個(gè)合適的度,不能太嚴(yán)格也不能太松,尋求在召回率和準(zhǔn)確率中間的一個(gè)平衡點(diǎn)。這個(gè)平衡點(diǎn)由具體需求決定。

            其實(shí),準(zhǔn)確率(precision,精度)比較好理解。往往難以迅速反應(yīng)的是“召回率”。我想這與字面意思也有關(guān)系,從“召回”的字面意思不能直接看到其意義。
            我覺(jué)得“召回率”這個(gè)詞翻譯的不夠好。“召回”在中文的意思是:把xx調(diào)回來(lái)。比如sony電池有問(wèn)題,廠家召回。
            既然說(shuō)翻譯的不好,我們回頭看“召回率”對(duì)應(yīng)的英文“recall”,recall除了有上面說(shuō)到的“order sth to return”的意思之外,還有“remember”的意思。

            Recall:the ability to remember sth. that you have learned or sth. that has happened in the past.

            這里,recall應(yīng)該是這個(gè)意思,這樣就更容易理解“召回率”的意思了。
            當(dāng)我們問(wèn)檢索系統(tǒng)某一件事的所有細(xì)節(jié)時(shí)(輸入檢索query),Recall就是指:檢索系統(tǒng)能“回憶”起那些事的多少細(xì)節(jié),通俗來(lái)講就是“回憶的能力”。能回憶起來(lái)的細(xì)節(jié)數(shù) 除以 系統(tǒng)知道這件事的所有細(xì)節(jié),就是“記憶率”,也就是recall——召回率。
             
            這樣想,要容易的多了。

            posted on 2012-07-23 09:41 SunRise_at 閱讀(2394) 評(píng)論(0)  編輯 收藏 引用 所屬分類(lèi): 自然語(yǔ)言處理
            人人狠狠综合久久亚洲| 亚洲午夜精品久久久久久浪潮| 伊人色综合久久天天人手人婷 | 青草久久久国产线免观| 伊人久久大香线蕉av不卡| 久久免费高清视频| 久久无码高潮喷水| 国产 亚洲 欧美 另类 久久| 日韩欧美亚洲综合久久| 青草影院天堂男人久久| 亚洲va久久久噜噜噜久久天堂| 99久久99久久精品国产| 人妻精品久久无码专区精东影业| 国产福利电影一区二区三区久久久久成人精品综合 | 国产巨作麻豆欧美亚洲综合久久| 亚洲午夜无码AV毛片久久| 欧美亚洲国产精品久久蜜芽| 亚洲国产精品无码久久一区二区| 色婷婷综合久久久久中文字幕| 伊人久久综合热线大杳蕉下载| 无码人妻久久一区二区三区免费 | 久久夜色撩人精品国产| 成人综合伊人五月婷久久| 99久久精品免费看国产一区二区三区 | 国内精品久久人妻互换| 久久久久久国产精品美女| 久久久久久青草大香综合精品| 国产精品久久久久无码av| 91视频国产91久久久| 久久久久亚洲av无码专区| 7777久久久国产精品消防器材| 亚洲人成无码网站久久99热国产| 精品人妻伦一二三区久久| 99精品伊人久久久大香线蕉| 国产成人久久久精品二区三区 | 久久无码AV中文出轨人妻| 久久久久久亚洲精品影院| 久久久久亚洲精品日久生情| 97精品依人久久久大香线蕉97 | 久久国产V一级毛多内射| 国产叼嘿久久精品久久|