青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

不會飛的鳥

2010年12月10日 ... 不鳥他們!!! 我要用自己開發的分布式文件系統、分布式調度系統、分布式檢索系統, 做自己的搜索引擎!!!大魚有大志!!! ---楊書童

[轉]TF-IDF與余弦相似性的應用(三):自動摘要

有時候,很簡單的數學方法,就可以完成很復雜的任務。

這個系列的前兩部分就是很好的例子。僅僅依靠統計詞頻,就能找出關鍵詞相似文章。雖然它們算不上效果最好的方法,但肯定是最簡便易行的方法。

今天,依然繼續這個主題。討論如何通過詞頻,對文章進行自動摘要(Automatic summarization)。

如果能從3000字的文章,提煉出150字的摘要,就可以為讀者節省大量閱讀時間。由人完成的摘要叫"人工摘要",由機器完成的就叫"自動摘要"。許多網站都需要它,比如論文網站、新聞網站、搜索引擎等等。2007年,美國學者的論文《A Survey on Automatic Text Summarization》(Dipanjan Das, Andre F.T. Martins, 2007)總結了目前的自動摘要算法。其中,很重要的一種就是詞頻統計。

這種方法最早出自1958年的IBM公司科學家H.P. Luhn的論文《The Automatic Creation of Literature Abstracts》

Luhn博士認為,文章的信息都包含在句子中,有些句子包含的信息多,有些句子包含的信息少。"自動摘要"就是要找出那些包含信息最多的句子。

句子的信息量用"關鍵詞"來衡量。如果包含的關鍵詞越多,就說明這個句子越重要。Luhn提出用"簇"(cluster)表示關鍵詞的聚集。所謂"簇"就是包含多個關鍵詞的句子片段。

上圖就是Luhn原始論文的插圖,被框起來的部分就是一個"簇"。只要關鍵詞之間的距離小于"門檻值",它們就被認為處于同一個簇之中。Luhn建議的門檻值是4或5。也就是說,如果兩個關鍵詞之間有5個以上的其他詞,就可以把這兩個關鍵詞分在兩個簇。

下一步,對于每個簇,都計算它的重要性分值。

以前圖為例,其中的簇一共有7個詞,其中4個是關鍵詞。因此,它的重要性分值等于 ( 4 x 4 ) / 7 = 2.3。

然后,找出包含分值最高的簇的句子(比如5句),把它們合在一起,就構成了這篇文章的自動摘要。具體實現可以參見《Mining the Social Web: Analyzing Data from Facebook, Twitter, LinkedIn, and Other Social Media Sites》(O'Reilly, 2011)一書的第8章,python代碼見github

Luhn的這種算法后來被簡化,不再區分"簇",只考慮句子包含的關鍵詞。下面就是一個例子(采用偽碼表示),只考慮關鍵詞首先出現的句子。

  Summarizer(originalText, maxSummarySize):

    // 計算原始文本的詞頻,生成一個數組,比如[(10,'the'), (3,'language'), (8,'code')...]
    wordFrequences = getWordCounts(originalText)

    // 過濾掉停用詞,數組變成[(3, 'language'), (8, 'code')...]
    contentWordFrequences = filtStopWords(wordFrequences)

    // 按照詞頻進行排序,數組變成['code', 'language'...]
    contentWordsSortbyFreq = sortByFreqThenDropFreq(contentWordFrequences)

    // 將文章分成句子
    sentences = getSentences(originalText)

    // 選擇關鍵詞首先出現的句子
    setSummarySentences = {}
    foreach word in contentWordsSortbyFreq:
      firstMatchingSentence = search(sentences, word)
      setSummarySentences.add(firstMatchingSentence)
      if setSummarySentences.size() = maxSummarySize:
        break

    // 將選中的句子按照出現順序,組成摘要
    summary = ""
    foreach sentence in sentences:
      if sentence in setSummarySentences:
        summary = summary + " " + sentence

    return summary

類似的算法已經被寫成了工具,比如基于Java的Classifier4J庫的SimpleSummariser模塊、基于C語言的OTS庫、以及基于classifier4J的C#實現python實現

posted on 2014-03-06 21:37 不會飛的鳥 閱讀(300) 評論(0)  編輯 收藏 引用

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            亚洲一区成人| 国产真实精品久久二三区| 欧美成人官网二区| 欧美制服丝袜第一页| 亚洲午夜国产成人av电影男同| 国产在线高清精品| 国产精品爽黄69| 国产精品v日韩精品| 欧美国产在线观看| 欧美精品免费播放| 欧美成人国产va精品日本一级| 亚洲欧美日韩区| 久久久久天天天天| 亚洲欧美另类在线观看| 亚洲午夜久久久久久尤物| 一二三区精品福利视频| 亚洲无限av看| 久久精品中文| 中文av字幕一区| 久久久久九九视频| 亚洲午夜国产一区99re久久| 亚洲日本中文字幕区| 国内精品写真在线观看| 欧美大片va欧美在线播放| 亚洲激情在线观看| 亚洲欧美资源在线| 亚洲欧美日本另类| 亚洲精一区二区三区| 久久久久综合一区二区三区| 欧美成人一区二区在线 | 欧美日韩播放| 国产区在线观看成人精品| 国产精品福利在线观看网址| 国产伦精品一区二区| 国产亚洲一区二区三区| 国产午夜精品久久久| 欧美成黄导航| 国产精品久久久久久久午夜片| 国一区二区在线观看| 亚洲欧美激情精品一区二区| 欧美fxxxxxx另类| 久久福利精品| 国产欧美日韩综合一区在线播放| 亚洲精品自在在线观看| 午夜久久资源| 亚洲免费影视| 国内精品视频一区| 国产精品美女久久久久久2018| 一区二区三区高清在线观看| 99国产精品视频免费观看| 极品裸体白嫩激情啪啪国产精品| 亚洲天堂av高清| 亚洲影视中文字幕| 韩日精品视频一区| 国产欧美精品日韩区二区麻豆天美| 亚洲神马久久| 久久爱www久久做| 国产亚洲精品一区二555| 欧美日韩亚洲三区| 亚洲欧美日韩区| 久久综合导航| 99ri日韩精品视频| 宅男在线国产精品| 国内激情久久| 亚洲精品一区二区网址| 国产欧美日韩专区发布| 91久久久一线二线三线品牌| 欧美日韩精品免费观看视一区二区| 亚洲精品自在久久| 亚洲一区二区三区在线视频| 激情文学综合丁香| 亚洲综合国产精品| 亚洲视频狠狠| 欧美国产日韩a欧美在线观看| 亚洲欧美日韩一区二区三区在线 | 91久久精品视频| 国产精品av免费在线观看| 久久精品国产77777蜜臀| 欧美日韩国产不卡| 欧美激情久久久| 在线观看一区| 欧美成人精品在线观看| 欧美华人在线视频| 亚洲电影有码| 欧美成人精品1314www| 欧美激情亚洲另类| 亚洲激情午夜| 欧美日韩亚洲国产一区| 韩国成人理伦片免费播放| 国产一区日韩一区| 欧美体内谢she精2性欧美| 黄网动漫久久久| 欧美成人高清视频| 欧美日韩成人综合在线一区二区| 亚洲女性喷水在线观看一区| 午夜日本精品| 亚洲开发第一视频在线播放| 亚洲视频中文| 亚洲大胆视频| 中文精品视频一区二区在线观看| 国产日韩欧美不卡在线| 欧美黑人在线播放| 国产精品久久久久久久久久三级 | 亚洲精品一区在线观看| 欧美午夜宅男影院在线观看| 久久久人成影片一区二区三区 | 精品成人一区二区三区| 亚洲伦理自拍| 狠狠色伊人亚洲综合网站色| 欧美激情欧美激情在线五月| 国产精品久久久久久久久果冻传媒 | 欧美电影美腿模特1979在线看| 亚洲一级黄色片| 久久综合久久综合久久| 久久国产精品亚洲77777| 亚洲国产精品精华液2区45| 亚洲一级在线观看| 99视频精品全部免费在线| 欧美一级片久久久久久久| 中文精品一区二区三区| 久久精品日韩欧美| 羞羞答答国产精品www一本| 欧美激情亚洲视频| 玖玖综合伊人| 国内精品久久久久影院色| 亚洲网站在线观看| 亚洲一区二区三区四区五区午夜| 一本久久综合亚洲鲁鲁| 一区二区三区在线观看国产| 9久草视频在线视频精品| 国产亚洲欧美日韩日本| 欧美成人免费在线| 国产亚洲综合精品| 亚洲一区二区三区精品视频| 亚洲色图自拍| 欧美日韩另类在线| 亚洲国产欧美不卡在线观看| 性色一区二区| 久久精品国产清自在天天线| 国产欧美日韩一区二区三区| 亚洲午夜性刺激影院| 亚洲欧美日本伦理| 国产欧美日韩伦理| 久久爱www.| 欧美xxx在线观看| 亚洲人体1000| 久久不射网站| 欧美日韩成人免费| 免费视频最近日韩| 亚洲欧美日韩视频二区| 亚洲高清在线观看一区| 久久九九国产精品| 国产麻豆精品theporn| 亚洲综合社区| 久久米奇亚洲| 91久久精品久久国产性色也91| 另类尿喷潮videofree | 极品av少妇一区二区| 亚洲欧美日韩一区二区三区在线观看 | 亚洲日韩欧美视频一区| 麻豆精品传媒视频| 性做久久久久久| 亚洲国产一区二区三区a毛片| 另类综合日韩欧美亚洲| 欧美成年视频| 在线视频日韩| 国产人成精品一区二区三| 快播亚洲色图| 中文国产成人精品| 欧美mv日韩mv亚洲| 亚洲一区自拍| 在线精品国精品国产尤物884a| 欧美国产第一页| 亚洲自拍啪啪| 亚洲欧洲在线播放| 久久精品av麻豆的观看方式| 亚洲精品国产系列| 国产模特精品视频久久久久| 美女啪啪无遮挡免费久久网站| 中文av字幕一区| 亚洲大胆人体视频| 亚洲欧美视频在线观看| 亚洲国产精品久久| 国产日本欧美一区二区三区| 欧美日韩另类字幕中文| 久久中文字幕一区二区三区| 亚洲综合大片69999| 亚洲高清在线观看| 久久免费国产| 欧美一区二区女人| 这里只有精品电影| 亚洲成人在线观看视频| 国产女主播一区二区| 久久久综合精品| 性感少妇一区| 亚洲网站在线播放| 一本一道久久综合狠狠老精东影业 | 亚洲大片av| 老色批av在线精品| 久久久美女艺术照精彩视频福利播放 |