Bag of words,也叫做“詞袋”,在信息檢索中,Bag of words model假定對(duì)于一個(gè)文本,忽略其詞序和語(yǔ)法,句法,將其僅僅看做是一個(gè)詞集合,或者說(shuō)是詞的一個(gè)組合,文本中每個(gè)詞的出現(xiàn)都是獨(dú)立的,不依賴于其他詞是否出現(xiàn),或者說(shuō)當(dāng)這篇文章的作者在任意一個(gè)位置選擇一個(gè)詞匯都不受前面句子的影響而獨(dú)立選擇的。     

     這種假設(shè)雖然對(duì)自然語(yǔ)言進(jìn)行了簡(jiǎn)化,便于模型化,但是其假定在有些情況下是不合理的,例如在新聞個(gè)性化推薦中,采用Bag of words的模型就會(huì)出現(xiàn)問(wèn)題。例如用戶甲對(duì)“南京醉酒駕車事故”這個(gè)短語(yǔ)很感興趣,采用bag of words忽略了順序和句法,則認(rèn)為用戶甲對(duì)“南京”、“醉酒”、“駕車”和“事故”感興趣,因此可能推薦出和“南京”,“公交車”,“事故”相關(guān)的新聞,這顯然是不合理的。

     解決的方法可以采用SCPCD的方法抽取出整個(gè)短語(yǔ),或者采用高階(2階以上)統(tǒng)計(jì)語(yǔ)言模型,例如bigram,trigram來(lái)將詞序保留下來(lái),相當(dāng)于bag of bigram和bag of trigram,這樣能在一定程度上解決這種問(wèn)題。

    簡(jiǎn)言之,bag of words模型是否適用需要根據(jù)實(shí)際情況來(lái)確定。對(duì)于那些不可以忽視詞序,語(yǔ)法和句法的場(chǎng)合均不能采用bag of words的方法。
網(wǎng)址:http://blog.csdn.net/pennyliang/article/details/4325664