青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

posts - 7,  comments - 64,  trackbacks - 0

我現在需要統計一篇文章中的單詞數量,并排序輸出。
格式

單詞1 500
單詞2 499
單詞3 300
.....
...
..
.

現在的思路是
第一步:先將單詞讀入到map<string,size_t> ssmap;當中;這樣每次掃描到一個新單詞后都可以++ssmap[str];來統計單詞數;
第二步:將map中的內容拷貝到vector<pair<string*,size_t> > vec;當中,之后對vec用sort進行排序。(之所以要用string*是因為不希望發生string的拷貝構造,以免浪費時間)。
第三步:將vec輸出。

試驗了一下上述方法可以正確執行。
但我想應該有更快的方法,請各位賜教一下!


呵呵,謝謝大家這么積極。

字符串長度沒有限制,這個從一個分詞程序對文章進行分詞處理以后的結果。單詞可能是“的,了”這種單個字,也可能是“中華人民共和國”這種字符串。還有可能遇到像“\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\...(n個)”這種比較變態的符號。

posted on 2009-09-03 16:05 HIT@ME 閱讀(2025) 評論(16)  編輯 收藏 引用

FeedBack:
# re: 有沒有更快的辦法來統計一篇文章中的詞組數量并排序輸出(挑戰速度)![未登錄]
2009-09-03 16:20 | foxriver
map查找已經足夠快了。你看看是不是單詞多,排序浪費了太多的時間。可以修改成radix sort, 加快速度。不過可能會有點難度,你要把string轉換成int,還用到多重排序。

個人測試大規模數據,速度還能接受。貼點逼人的簡陋代碼,僅供參考,核心算法見:http://www.codercorner.com/RadixSortRevisited.htm

class vector_string : public vector<string>
{
public:
vector_string()
{
}
~vector_string()
{
}

public:
void sort(vector<int>* r_offsetset = 0)
{
vector<string> swaplist;
swaplist.resize(_Num);

vector<uint> sorttable1;
vector<uint> sorttable2;
vector<uint> sorttable3;

sorttable1.resize(_Num);
sorttable2.resize(_Num);
sorttable3.resize(_Num);

int i;
for (i=0;i<_Num;i++)
{
const string& str = _First[i];
uint b;
int n;

b = 0;
for (n=0;n<4 && n<str.size();n++)
{
if (n == 0) b |= (str[n] << 24) & 0xff000000;
if (n == 1) b |= (str[n] << 16) & 0x00ff0000;
if (n == 2) b |= (str[n] << 8) & 0x0000ff00;
if (n == 3) b |= (str[n]) & 0x000000ff;
}
sorttable1[i] = b;

b = 0;
for (n=4;n<8 && n<str.size();n++)
{
if (n == 4) b |= (str[n] << 24) & 0xff000000;
if (n == 5) b |= (str[n] << 16) & 0x00ff0000;
if (n == 6) b |= (str[n] << 8) & 0x0000ff00;
if (n == 7) b |= (str[n]) & 0x000000ff;
}
sorttable2[i] = b;

b = 0;
for (n=8;n<12 && n<str.size();n++)
{
if (n == 8) b |= (str[n] << 24) & 0xff000000;
if (n == 9) b |= (str[n] << 16) & 0x00ff0000;
if (n == 10) b |= (str[n] << 8) & 0x0000ff00;
if (n == 11) b |= (str[n]) & 0x000000ff;
}
sorttable3[i] = b;
}

radixsort_t radix;
uint* sorted = radix.Sort((uint*)&sorttable3[0], sorttable3.size(), false).Sort((uint*)&sorttable2[0], sorttable2.size(), false).Sort((uint*)&sorttable1[0], sorttable1.size(), false).GetIndices();

resort(sorted, 0, _Num, swaplist);
if (r_offsetset) r_offsetset->resort(sorted, 0, _Num);

// ------- 2 ------
vector<uint> swaptable;
swaptable.resize(_Num);

for (i=0;i<_Num;i++) swaptable[i] = sorttable1[i];
for (i=0;i<_Num;i++) sorttable1[i] = swaptable[sorted[i]];

for (i=0;i<_Num;i++) swaptable[i] = sorttable2[i];
for (i=0;i<_Num;i++) sorttable2[i] = swaptable[sorted[i]];

for (i=0;i<_Num;i++) swaptable[i] = sorttable3[i];
for (i=0;i<_Num;i++) sorttable3[i] = swaptable[sorted[i]];

// 測試 程序 文字 1
// 測試 程序 文字
// 測試 程序 文比
uint tab1 = 0xFFFFFFFF;
uint tab2 = 0xFFFFFFFF;
uint tab3 = 0xFFFFFFFF;

int samecount = 0;
for (i=0;i<_Num;i++)
{
if (tab1 == sorttable1[i] && tab2 == sorttable2[i] && tab3 == sorttable3[i])
{
samecount++;
continue;
}

if (samecount)
{
int start = i - samecount-1;
int total = samecount + 1;

bool exactsame = true;
for (int n=start+1;n<start+total;n++)
{
if (_First[n-1] != _First[n])
{
exactsame = false;
break;
}
}

if (exactsame == false)
{
quicksort_t::sort((int*)sorted, _First+start, total, _cmp);
resort(sorted, start, total, swaplist);
if (r_offsetset) r_offsetset->resort(sorted, start, total);
}
}

tab1 = sorttable1[i];
tab2 = sorttable2[i];
tab3 = sorttable3[i];
samecount = 0;
}

if (samecount)
{
int start = i - samecount-1;
int total = samecount + 1;

quicksort_t::sort((int*)sorted, _First+start, total, _cmp);
resort(sorted, start, total, swaplist);
if (r_offsetset) r_offsetset->resort(sorted, start, total);
}
}

protected:
void resort(const uint* r_sorted, int r_offset, int r_num, vector<string>& r_swaplist)
{
int i;
for (i=0;i<r_num;i++) r_swaplist[i].swap(_First[r_sorted[i]+r_offset]);
for (i=0;i<r_num;i++) _First[i+r_offset].swap(r_swaplist[i]);
}
};

  回復  更多評論
  
# re: 有沒有更快的辦法來統計一篇文章中的詞組數量并排序輸出(挑戰速度)![未登錄]
2009-09-03 16:32 | foxriver
如果你用的是標準的new,stl的string會頻繁調用也耗費不少時間。可以改用id software的那個idHeap,官網quake4 sdk里就有,速度號稱是vc版本的N倍。

當然,前提必須是單線程。  回復  更多評論
  
# re: 有沒有更快的辦法來統計一篇文章中的詞組數量并排序輸出(挑戰速度)!
2009-09-03 16:38 | Vincent
今年的astar就有一道牽扯到這個的題目.
樓主的做法應該就是利用hash表統計吧..
我提出另外一個做法用trie樹..  回復  更多評論
  
# re: 有沒有更快的辦法來統計一篇文章中的詞組數量并排序輸出(挑戰速度)![未登錄]
2009-09-03 16:42 | foxriver
樓主應該不是hash表,是rt樹,不過兩者速度也差不多了,沒什么可優化的地方。hash只有在數據相當大的情況下(>1000萬條),才會有明顯優勢。  回復  更多評論
  
# re: 有沒有更快的辦法來統計一篇文章中的詞組數量并排序輸出(挑戰速度)!
2009-09-03 16:46 | Vincent
哦..呵呵..我不太清楚rt樹是什么..
而且樓主說的這個還是太籠統..
比如單詞字符串的長度上限等等.
不同的條件下不同的方法有著不同的效率..

hash的話,就想到一個比較出名的elfhash..  回復  更多評論
  
# re: 有沒有更快的辦法來統計一篇文章中的詞組數量并排序輸出(挑戰速度)![未登錄]
2009-09-03 16:46 | foxriver
暈死,打錯字了,是RB-TREE.  回復  更多評論
  
# re: 有沒有更快的辦法來統計一篇文章中的詞組數量并排序輸出(挑戰速度)!
2009-09-03 16:48 | Vincent
紅黑樹啊..
呵呵...個人覺得只要能設計出合理的hash還是hash更快些吧..  回復  更多評論
  
# re: 有沒有更快的辦法來統計一篇文章中的詞組數量并排序輸出(挑戰速度)![未登錄]
2009-09-03 16:49 | foxriver
我喜歡用BKDR Hash Function,簡單方便,散布率對本人而言,已經相當滿意了。  回復  更多評論
  
# re: 有沒有更快的辦法來統計一篇文章中的詞組數量并排序輸出(挑戰速度)!
2009-09-03 16:51 | Vincent
慚愧啊..事實上我只會寫elfhash...  回復  更多評論
  
# re: 有沒有更快的辦法來統計一篇文章中的詞組數量并排序輸出(挑戰速度)![未登錄]
2009-09-03 16:53 | foxriver
"個人覺得只要能設計出合理的hash還是hash更快些吧", 嚴重同意!不過對于樓主來說,寫一個hash查找來替換std::map挺費時間的,內存管理上弄不好的話,效率和穩定性會下降,說不定還沒人家stl的快,所以不是很推薦呢。  回復  更多評論
  
# re: 有沒有更快的辦法來統計一篇文章中的詞組數量并排序輸出(挑戰速度)!
2009-09-03 16:56 | Vincent
^_^stl王道  回復  更多評論
  
# re: 有沒有更快的辦法來統計一篇文章中的詞組數量并排序輸出(挑戰速度)!
2009-09-03 23:00 | wcdj
用Unix or Linux下的使用程序 sort wc 是相當的快  回復  更多評論
  
# re: 有沒有更快的辦法來統計一篇文章中的詞組數量并排序輸出(挑戰速度)![未登錄]
2009-09-03 23:26 | dskit
map的底層用紅黑樹實現,
可以用trie樹,但是有中文,還有其他符號,好像就不好處理了  回復  更多評論
  
# re: 有沒有更快的辦法來統計一篇文章中的詞組數量并排序輸出(挑戰速度)!
2009-09-03 23:46 | gbb
這個不是標準的mapreduce樣例么?  回復  更多評論
  
# re: 有沒有更快的辦法來統計一篇文章中的詞組數量并排序輸出(挑戰速度)!
2009-09-04 14:30 | 凡客誠品
不錯哦  回復  更多評論
  
# re: 有沒有更快的辦法來統計一篇文章中的詞組數量并排序輸出(挑戰速度)!
2009-09-06 23:19 | 唐風
std::map
本身不就是排序的嗎?為什么還要倒到vector里排?不解  回復  更多評論
  

只有注冊用戶登錄后才能發表評論。
網站導航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


<2009年9月>
303112345
6789101112
13141516171819
20212223242526
27282930123
45678910

常用鏈接

留言簿(5)

隨筆檔案

test

搜索

  •  

最新評論

閱讀排行榜

評論排行榜

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            鲁鲁狠狠狠7777一区二区| 国产精品无码专区在线观看| 亚洲黄色三级| 国产一区二三区| 国产亚洲欧洲一区高清在线观看 | 99精品国产在热久久婷婷| 欧美性做爰猛烈叫床潮| 欧美激情精品久久久久久大尺度| 亚洲男人影院| 亚洲欧美日韩在线不卡| 亚洲免费视频观看| 久久精品99国产精品酒店日本| 亚洲天堂激情| 久久理论片午夜琪琪电影网| 久久久久女教师免费一区| 欧美制服丝袜| 欧美日本国产一区| 欧美日本中文字幕| 国产精品乱码一区二三区小蝌蚪 | 亚洲国产精品一区| 日韩视频一区二区在线观看| 99精品视频一区二区三区| 欧美一区二区| 鲁大师影院一区二区三区| 亚洲国产成人精品女人久久久 | 久久久91精品国产| 欧美成人综合网站| 国产在线视频欧美| 99视频一区二区| 亚洲欧美在线免费| 一区二区欧美日韩视频| 久久综合激情| 国产手机视频精品| 午夜精品久久| 亚洲乱码精品一二三四区日韩在线| 午夜精品久久久久久久男人的天堂| 欧美在线视屏| 欧美电影资源| 国产老肥熟一区二区三区| 欧美成人亚洲成人日韩成人| 亚洲精品久久视频| 午夜国产精品视频| 国产精品亚洲一区| 欧美在线观看网址综合| 亚洲一区二区在线播放| 一本久久青青| 欧美激情在线播放| 国产一区二区三区四区老人| 欧美夜福利tv在线| 亚欧美中日韩视频| 极品av少妇一区二区| 欧美影院成年免费版| 亚洲欧美日韩一区二区三区在线| 国产日产欧美a一级在线| 一区二区三区日韩精品视频| 久久噜噜亚洲综合| 午夜精品久久久久久久久久久| 欧美激情91| 久久久www| 国产精品入口夜色视频大尺度| 久久婷婷成人综合色| 91久久精品一区二区三区| 欧美福利在线观看| 久久在线免费观看视频| 欧美日韩亚洲高清一区二区| 欧美一区二区视频在线观看| 久久蜜桃av一区精品变态类天堂| 亚洲精品国产精品国自产观看浪潮 | 亚洲国产高清自拍| 狠狠干成人综合网| 亚洲精品视频在线播放| 国产亚洲一区在线| 亚洲图片欧美一区| 一本久久a久久精品亚洲| 久久精品人人做人人爽| 亚洲福利视频专区| 国产麻豆精品视频| 亚洲国产黄色| 99成人在线| 亚洲香蕉伊综合在人在线视看| 篠田优中文在线播放第一区| 在线国产日韩| 日韩写真在线| 一区二区三区**美女毛片| 国产人成精品一区二区三| 久久婷婷av| 在线天堂一区av电影| 久久久久久夜| 99热在这里有精品免费| 欧美日韩影院| 蜜桃久久精品一区二区| 日韩一级黄色片| 久久精品一区二区三区不卡牛牛| 在线观看日韩av| 国产精品久久久久久模特| 久久精品盗摄| 亚洲视频在线观看一区| 欧美黄色大片网站| 久久福利电影| 一区二区三区视频在线播放| 韩国av一区二区三区| 欧美日韩视频在线| 欧美成年人网站| 欧美三级日本三级少妇99| 最新日韩在线| 欧美黑人国产人伦爽爽爽| 欧美高清视频一区二区三区在线观看 | 性欧美video另类hd性玩具| 国产精品成人观看视频国产奇米| 欧美成人免费全部| 久久综合导航| 久久夜色精品国产| 免费成人av资源网| 性欧美精品高清| 亚洲视频狠狠| 国产一区二区三区在线免费观看 | 欧美伊久线香蕉线新在线| 亚洲黄色免费电影| 久久久青草婷婷精品综合日韩| 亚洲在线免费视频| 亚洲欧美激情四射在线日 | 午夜视频在线观看一区二区三区| 亚洲综合视频1区| 久久久久九九九九| 亚洲少妇中出一区| 99国产精品久久久久久久久久| 亚洲私人影院在线观看| 蜜桃精品久久久久久久免费影院| 一本久道久久久| 宅男66日本亚洲欧美视频| 亚洲理论在线观看| 亚洲一级免费视频| 久久精品成人一区二区三区| 免费亚洲一区| 国产日韩欧美中文| 亚洲毛片在线观看| 久久精品一区二区| 91久久国产综合久久蜜月精品 | 美女主播精品视频一二三四| 欧美成人午夜77777| 一本不卡影院| 久久精品亚洲一区二区三区浴池| 欧美日韩国产色视频| 亚洲精品国产精品乱码不99按摩 | 国产精品久久网站| 日韩亚洲欧美综合| 中国亚洲黄色| 国产精品女人毛片| 久久精品人人做人人综合| 日韩网站免费观看| 欧美一区二区三区免费在线看| 亚洲精品123区| 欧美精品一区二区在线播放| 在线欧美三区| 亚洲韩国一区二区三区| 欧美日韩免费观看一区二区三区| 国产一区二区三区高清播放| 欧美黄在线观看| 免费日韩视频| 狠狠v欧美v日韩v亚洲ⅴ| 亚洲第一成人在线| 久久激情视频久久| 亚洲一区二区在线播放| 国产精品人人爽人人做我的可爱 | 亚洲欧美日韩国产成人精品影院| 欧美日韩视频在线一区二区观看视频| 91久久精品美女高潮| 欧美激情片在线观看| 欧美日韩中国免费专区在线看| 亚洲综合视频网| 玖玖在线精品| 亚洲精品一区二区三| 亚洲视频网站在线观看| 欧美在线不卡| 亚洲欧美另类国产| 久久夜色精品国产| 亚洲欧美影院| 久久午夜影视| 久久精品国产一区二区三区免费看 | 免费看亚洲片| 欧美在线观看一区| 欧美人与性动交cc0o| 欧美jizz19hd性欧美| 亚洲一区二区三区四区视频| 合欧美一区二区三区| 亚洲视频视频在线| 一本久久综合| 欧美日韩免费观看一区三区| 免费91麻豆精品国产自产在线观看| 欧美成人xxx| 欧美成人综合| 亚洲国产成人午夜在线一区| 久久福利影视| 久久久一区二区三区| 黄色在线成人| 欧美精品在线网站| 久久这里只精品最新地址| 国产女同一区二区| 欧美中文字幕视频| 亚洲成色777777女色窝|