青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

不會飛的鳥

2010年12月10日 ... 不鳥他們!!! 我要用自己開發的分布式文件系統、分布式調度系統、分布式檢索系統, 做自己的搜索引擎!!!大魚有大志!!! ---楊書童

[轉]TF-IDF與余弦相似性的應用(三):自動摘要

有時候,很簡單的數學方法,就可以完成很復雜的任務。

這個系列的前兩部分就是很好的例子。僅僅依靠統計詞頻,就能找出關鍵詞相似文章。雖然它們算不上效果最好的方法,但肯定是最簡便易行的方法。

今天,依然繼續這個主題。討論如何通過詞頻,對文章進行自動摘要(Automatic summarization)。

如果能從3000字的文章,提煉出150字的摘要,就可以為讀者節省大量閱讀時間。由人完成的摘要叫"人工摘要",由機器完成的就叫"自動摘要"。許多網站都需要它,比如論文網站、新聞網站、搜索引擎等等。2007年,美國學者的論文《A Survey on Automatic Text Summarization》(Dipanjan Das, Andre F.T. Martins, 2007)總結了目前的自動摘要算法。其中,很重要的一種就是詞頻統計。

這種方法最早出自1958年的IBM公司科學家H.P. Luhn的論文《The Automatic Creation of Literature Abstracts》

Luhn博士認為,文章的信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少。"自動摘要"就是要找出那些包含信息最多的句子。

句子的信息量用"關鍵詞"來衡量。如果包含的關鍵詞越多,就說明這個句子越重要。Luhn提出用"簇"(cluster)表示關鍵詞的聚集。所謂"簇"就是包含多個關鍵詞的句子片段。

上圖就是Luhn原始論文的插圖,被框起來的部分就是一個"簇"。只要關鍵詞之間的距離小于"門檻值",它們就被認為處于同一個簇之中。Luhn建議的門檻值是4或5。也就是說,如果兩個關鍵詞之間有5個以上的其他詞,就可以把這兩個關鍵詞分在兩個簇。

下一步,對于每個簇,都計算它的重要性分值。

以前圖為例,其中的簇一共有7個詞,其中4個是關鍵詞。因此,它的重要性分值等于 ( 4 x 4 ) / 7 = 2.3。

然后,找出包含分值最高的簇的句子(比如5句),把它們合在一起,就構成了這篇文章的自動摘要。具體實現可以參見《Mining the Social Web: Analyzing Data from Facebook, Twitter, LinkedIn, and Other Social Media Sites》(O'Reilly, 2011)一書的第8章,python代碼見github

Luhn的這種算法后來被簡化,不再區分"簇",只考慮句子包含的關鍵詞。下面就是一個例子(采用偽碼表示),只考慮關鍵詞首先出現的句子。

  Summarizer(originalText, maxSummarySize):

    // 計算原始文本的詞頻,生成一個數組,比如[(10,'the'), (3,'language'), (8,'code')...]
    wordFrequences = getWordCounts(originalText)

    // 過濾掉停用詞,數組變成[(3, 'language'), (8, 'code')...]
    contentWordFrequences = filtStopWords(wordFrequences)

    // 按照詞頻進行排序,數組變成['code', 'language'...]
    contentWordsSortbyFreq = sortByFreqThenDropFreq(contentWordFrequences)

    // 將文章分成句子
    sentences = getSentences(originalText)

    // 選擇關鍵詞首先出現的句子
    setSummarySentences = {}
    foreach word in contentWordsSortbyFreq:
      firstMatchingSentence = search(sentences, word)
      setSummarySentences.add(firstMatchingSentence)
      if setSummarySentences.size() = maxSummarySize:
        break

    // 將選中的句子按照出現順序,組成摘要
    summary = ""
    foreach sentence in sentences:
      if sentence in setSummarySentences:
        summary = summary + " " + sentence

    return summary

類似的算法已經被寫成了工具,比如基于Java的Classifier4J庫的SimpleSummariser模塊、基于C語言的OTS庫、以及基于classifier4J的C#實現python實現

posted on 2014-03-06 21:37 不會飛的鳥 閱讀(300) 評論(0)  編輯 收藏 引用

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            亚洲午夜电影| 国产日韩欧美自拍| 亚洲黄色在线看| 亚洲电影免费观看高清完整版| 欧美一区国产二区| 牛牛影视久久网| 亚洲精品国产拍免费91在线| 亚洲国产你懂的| 狠狠做深爱婷婷久久综合一区| 国产精品久久影院| 在线观看亚洲精品| 亚洲天堂成人在线视频| 欧美亚洲网站| 亚洲国产精品激情在线观看| 在线亚洲美日韩| 美女图片一区二区| 欧美午夜宅男影院| 亚洲欧美成人精品| 欧美.www| 亚洲女女女同性video| 国产精品99一区二区| 亚洲精品国产精品国自产在线| 亚洲人成网站影音先锋播放| 午夜影院日韩| 国产精品久久毛片a| 日韩一区二区高清| 猛男gaygay欧美视频| 中文亚洲视频在线| 欧美伦理91i| 在线综合+亚洲+欧美中文字幕| 久久久久久综合| 亚洲欧美日韩一区二区三区在线| 亚洲精品少妇30p| 亚洲少妇一区| 亚洲国产成人一区| 美女黄毛**国产精品啪啪| 国产女主播一区二区三区| 午夜久久tv| 欧美一区二区视频97| 国产精品自拍一区| 正在播放欧美视频| 亚洲欧美色婷婷| 国产精品丝袜久久久久久app| 亚洲一卡二卡三卡四卡五卡| 国产精品久久久久高潮| 久久精品成人| 性色av香蕉一区二区| 合欧美一区二区三区| 日韩亚洲一区在线播放| 影音先锋国产精品| 免费中文字幕日韩欧美| 欧美日韩美女在线观看| 欧美一区二区视频97| 欧美精品一区视频| 久久精品国产清高在天天线 | 国产视频自拍一区| 欧美成人一区在线| 国产欧美一区二区三区久久 | 欧美精品久久天天躁| 亚洲欧洲av一区二区| 毛片一区二区| 欧美va亚洲va国产综合| 国产欧亚日韩视频| 亚洲欧美一区二区三区在线| 夜夜嗨av色一区二区不卡| 久久久一二三| 欧美xart系列高清| 亚洲国产成人av| 久久综合久久综合这里只有精品 | 久久精品一区二区三区不卡牛牛| 亚洲天堂av图片| 国产精品日韩一区| 亚洲激情第一页| 欧美成人精品1314www| 欧美第一黄网免费网站| 亚洲国产1区| 欧美激情视频网站| 欧美激情视频给我| 一本久道久久久| 国产精品私人影院| 久久天天躁狠狠躁夜夜爽蜜月| 欧美3dxxxxhd| 亚洲欧美日韩国产综合| 国产日韩在线视频| 欧美不卡激情三级在线观看| 亚洲精品国产系列| 亚洲私人影吧| 国内欧美视频一区二区| 欧美 日韩 国产在线| 亚洲私拍自拍| 亚洲国产成人tv| 久久久久久久国产| 亚洲免费在线电影| 欧美日韩国产麻豆| 午夜久久久久久久久久一区二区| 久久亚洲国产精品一区二区| 亚洲国产一区视频| 国产精品国产精品| 欧美日本久久| 久久精品视频在线播放| 中日韩男男gay无套| 亚洲激情第一区| 欧美aa在线视频| 浪潮色综合久久天堂| 韩国av一区二区三区四区| 久久综合福利| 亚洲欧美中文另类| 亚洲一区二区三区免费观看 | 日韩视频在线观看免费| 中文精品视频| 亚洲理论在线观看| 91久久精品网| 99精品国产在热久久婷婷| 亚洲激情国产精品| 亚洲福利视频二区| 亚洲人成欧美中文字幕| 一区二区自拍| 狠狠色狠狠色综合人人| 国产日韩在线亚洲字幕中文| 国产精品免费一区二区三区观看| 国产精品久久久久久久久久久久久久 | 国产精品私拍pans大尺度在线| 欧美人与性动交cc0o| 老鸭窝毛片一区二区三区| 欧美亚洲三级| 久久在线免费观看视频| 欧美激情黄色片| 国产麻豆91精品| 亚洲黄色影院| 欧美一区二区在线观看| 亚洲欧美怡红院| 久久久人人人| 欧美国产一区二区在线观看| 亚洲黄色在线观看| 欧美一区二区国产| 欧美激情视频一区二区三区在线播放| 欧美激情精品久久久久久久变态| 欧美精品www| 国产日韩欧美三区| 亚洲国产天堂久久综合| 午夜精品久久久久久久久久久久久 | 麻豆精品网站| 狠狠色丁香久久婷婷综合_中| 国内精品视频666| 9l国产精品久久久久麻豆| 欧美一区二区黄| 亚洲美女av电影| 久久欧美中文字幕| 国产精品日本| 亚洲精品视频中文字幕| 亚洲一区综合| 国产精品99久久99久久久二8 | 国产精品专区h在线观看| 亚洲精品欧美极品| 嫩草国产精品入口| 亚洲欧美日韩国产中文在线| 欧美久久电影| 欧美日韩国产成人在线免费| 永久555www成人免费| 久久精品国产999大香线蕉| 日韩视频永久免费| 欧美日韩国产高清视频| 99精品热视频| 亚洲欧洲一区二区在线观看| 久久综合给合| 亚洲精品久久| 日韩视频在线播放| 欧美日韩成人在线观看| 亚洲校园激情| 欧美一区三区二区在线观看| 国产视频在线观看一区二区三区 | 久久久久久久成人| 欧美在线欧美在线| 亚洲剧情一区二区| 亚洲在线中文字幕| 一区二区三区亚洲| 一本色道久久综合精品竹菊 | 亚洲一区视频在线| 国产精品乱码人人做人人爱| 欧美激情精品久久久久| 国产日韩欧美一二三区| 亚洲精品影视在线观看| 一区二区亚洲| 欧美一区午夜精品| 亚洲免费在线视频| 欧美久久综合| 亚洲精品少妇| 最新国产成人在线观看| 99视频精品在线| 国产欧美一区二区三区在线老狼| 欧美丰满高潮xxxx喷水动漫| 国产精品国内视频| 亚洲激情av| 在线日韩精品视频| 久久精品国产亚洲aⅴ| 中文有码久久| 欧美日韩免费网站| 日韩香蕉视频| 亚洲素人在线| 国产精品国产三级国产aⅴ入口|