青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

posts - 7,  comments - 64,  trackbacks - 0

我現(xiàn)在需要統(tǒng)計(jì)一篇文章中的單詞數(shù)量,并排序輸出。
格式

單詞1 500
單詞2 499
單詞3 300
.....
...
..
.

現(xiàn)在的思路是
第一步:先將單詞讀入到map<string,size_t> ssmap;當(dāng)中;這樣每次掃描到一個(gè)新單詞后都可以++ssmap[str];來(lái)統(tǒng)計(jì)單詞數(shù);
第二步:將map中的內(nèi)容拷貝到vector<pair<string*,size_t> > vec;當(dāng)中,之后對(duì)vec用sort進(jìn)行排序。(之所以要用string*是因?yàn)椴幌Ml(fā)生string的拷貝構(gòu)造,以免浪費(fèi)時(shí)間)。
第三步:將vec輸出。

試驗(yàn)了一下上述方法可以正確執(zhí)行。
但我想應(yīng)該有更快的方法,請(qǐng)各位賜教一下!


呵呵,謝謝大家這么積極。

字符串長(zhǎng)度沒有限制,這個(gè)從一個(gè)分詞程序?qū)ξ恼逻M(jìn)行分詞處理以后的結(jié)果。單詞可能是“的,了”這種單個(gè)字,也可能是“中華人民共和國(guó)”這種字符串。還有可能遇到像“\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\...(n個(gè))”這種比較變態(tài)的符號(hào)。

posted on 2009-09-03 16:05 HIT@ME 閱讀(2026) 評(píng)論(16)  編輯 收藏 引用

FeedBack:
# re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)![未登錄]
2009-09-03 16:20 | foxriver
map查找已經(jīng)足夠快了。你看看是不是單詞多,排序浪費(fèi)了太多的時(shí)間。可以修改成radix sort, 加快速度。不過(guò)可能會(huì)有點(diǎn)難度,你要把string轉(zhuǎn)換成int,還用到多重排序。

個(gè)人測(cè)試大規(guī)模數(shù)據(jù),速度還能接受。貼點(diǎn)逼人的簡(jiǎn)陋代碼,僅供參考,核心算法見:http://www.codercorner.com/RadixSortRevisited.htm

class vector_string : public vector<string>
{
public:
vector_string()
{
}
~vector_string()
{
}

public:
void sort(vector<int>* r_offsetset = 0)
{
vector<string> swaplist;
swaplist.resize(_Num);

vector<uint> sorttable1;
vector<uint> sorttable2;
vector<uint> sorttable3;

sorttable1.resize(_Num);
sorttable2.resize(_Num);
sorttable3.resize(_Num);

int i;
for (i=0;i<_Num;i++)
{
const string& str = _First[i];
uint b;
int n;

b = 0;
for (n=0;n<4 && n<str.size();n++)
{
if (n == 0) b |= (str[n] << 24) & 0xff000000;
if (n == 1) b |= (str[n] << 16) & 0x00ff0000;
if (n == 2) b |= (str[n] << 8) & 0x0000ff00;
if (n == 3) b |= (str[n]) & 0x000000ff;
}
sorttable1[i] = b;

b = 0;
for (n=4;n<8 && n<str.size();n++)
{
if (n == 4) b |= (str[n] << 24) & 0xff000000;
if (n == 5) b |= (str[n] << 16) & 0x00ff0000;
if (n == 6) b |= (str[n] << 8) & 0x0000ff00;
if (n == 7) b |= (str[n]) & 0x000000ff;
}
sorttable2[i] = b;

b = 0;
for (n=8;n<12 && n<str.size();n++)
{
if (n == 8) b |= (str[n] << 24) & 0xff000000;
if (n == 9) b |= (str[n] << 16) & 0x00ff0000;
if (n == 10) b |= (str[n] << 8) & 0x0000ff00;
if (n == 11) b |= (str[n]) & 0x000000ff;
}
sorttable3[i] = b;
}

radixsort_t radix;
uint* sorted = radix.Sort((uint*)&sorttable3[0], sorttable3.size(), false).Sort((uint*)&sorttable2[0], sorttable2.size(), false).Sort((uint*)&sorttable1[0], sorttable1.size(), false).GetIndices();

resort(sorted, 0, _Num, swaplist);
if (r_offsetset) r_offsetset->resort(sorted, 0, _Num);

// ------- 2 ------
vector<uint> swaptable;
swaptable.resize(_Num);

for (i=0;i<_Num;i++) swaptable[i] = sorttable1[i];
for (i=0;i<_Num;i++) sorttable1[i] = swaptable[sorted[i]];

for (i=0;i<_Num;i++) swaptable[i] = sorttable2[i];
for (i=0;i<_Num;i++) sorttable2[i] = swaptable[sorted[i]];

for (i=0;i<_Num;i++) swaptable[i] = sorttable3[i];
for (i=0;i<_Num;i++) sorttable3[i] = swaptable[sorted[i]];

// 測(cè)試 程序 文字 1
// 測(cè)試 程序 文字
// 測(cè)試 程序 文比
uint tab1 = 0xFFFFFFFF;
uint tab2 = 0xFFFFFFFF;
uint tab3 = 0xFFFFFFFF;

int samecount = 0;
for (i=0;i<_Num;i++)
{
if (tab1 == sorttable1[i] && tab2 == sorttable2[i] && tab3 == sorttable3[i])
{
samecount++;
continue;
}

if (samecount)
{
int start = i - samecount-1;
int total = samecount + 1;

bool exactsame = true;
for (int n=start+1;n<start+total;n++)
{
if (_First[n-1] != _First[n])
{
exactsame = false;
break;
}
}

if (exactsame == false)
{
quicksort_t::sort((int*)sorted, _First+start, total, _cmp);
resort(sorted, start, total, swaplist);
if (r_offsetset) r_offsetset->resort(sorted, start, total);
}
}

tab1 = sorttable1[i];
tab2 = sorttable2[i];
tab3 = sorttable3[i];
samecount = 0;
}

if (samecount)
{
int start = i - samecount-1;
int total = samecount + 1;

quicksort_t::sort((int*)sorted, _First+start, total, _cmp);
resort(sorted, start, total, swaplist);
if (r_offsetset) r_offsetset->resort(sorted, start, total);
}
}

protected:
void resort(const uint* r_sorted, int r_offset, int r_num, vector<string>& r_swaplist)
{
int i;
for (i=0;i<r_num;i++) r_swaplist[i].swap(_First[r_sorted[i]+r_offset]);
for (i=0;i<r_num;i++) _First[i+r_offset].swap(r_swaplist[i]);
}
};

  回復(fù)  更多評(píng)論
  
# re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)![未登錄]
2009-09-03 16:32 | foxriver
如果你用的是標(biāo)準(zhǔn)的new,stl的string會(huì)頻繁調(diào)用也耗費(fèi)不少時(shí)間。可以改用id software的那個(gè)idHeap,官網(wǎng)quake4 sdk里就有,速度號(hào)稱是vc版本的N倍。

當(dāng)然,前提必須是單線程。  回復(fù)  更多評(píng)論
  
# re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
2009-09-03 16:38 | Vincent
今年的astar就有一道牽扯到這個(gè)的題目.
樓主的做法應(yīng)該就是利用hash表統(tǒng)計(jì)吧..
我提出另外一個(gè)做法用trie樹..  回復(fù)  更多評(píng)論
  
# re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)![未登錄]
2009-09-03 16:42 | foxriver
樓主應(yīng)該不是hash表,是rt樹,不過(guò)兩者速度也差不多了,沒什么可優(yōu)化的地方。hash只有在數(shù)據(jù)相當(dāng)大的情況下(>1000萬(wàn)條),才會(huì)有明顯優(yōu)勢(shì)。  回復(fù)  更多評(píng)論
  
# re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
2009-09-03 16:46 | Vincent
哦..呵呵..我不太清楚rt樹是什么..
而且樓主說(shuō)的這個(gè)還是太籠統(tǒng)..
比如單詞字符串的長(zhǎng)度上限等等.
不同的條件下不同的方法有著不同的效率..

hash的話,就想到一個(gè)比較出名的elfhash..  回復(fù)  更多評(píng)論
  
# re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)![未登錄]
2009-09-03 16:46 | foxriver
暈死,打錯(cuò)字了,是RB-TREE.  回復(fù)  更多評(píng)論
  
# re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
2009-09-03 16:48 | Vincent
紅黑樹啊..
呵呵...個(gè)人覺得只要能設(shè)計(jì)出合理的hash還是hash更快些吧..  回復(fù)  更多評(píng)論
  
# re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)![未登錄]
2009-09-03 16:49 | foxriver
我喜歡用BKDR Hash Function,簡(jiǎn)單方便,散布率對(duì)本人而言,已經(jīng)相當(dāng)滿意了。  回復(fù)  更多評(píng)論
  
# re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
2009-09-03 16:51 | Vincent
慚愧啊..事實(shí)上我只會(huì)寫elfhash...  回復(fù)  更多評(píng)論
  
# re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)![未登錄]
2009-09-03 16:53 | foxriver
"個(gè)人覺得只要能設(shè)計(jì)出合理的hash還是hash更快些吧", 嚴(yán)重同意!不過(guò)對(duì)于樓主來(lái)說(shuō),寫一個(gè)hash查找來(lái)替換std::map挺費(fèi)時(shí)間的,內(nèi)存管理上弄不好的話,效率和穩(wěn)定性會(huì)下降,說(shuō)不定還沒人家stl的快,所以不是很推薦呢。  回復(fù)  更多評(píng)論
  
# re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
2009-09-03 16:56 | Vincent
^_^stl王道  回復(fù)  更多評(píng)論
  
# re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
2009-09-03 23:00 | wcdj
用Unix or Linux下的使用程序 sort wc 是相當(dāng)?shù)目?nbsp; 回復(fù)  更多評(píng)論
  
# re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)![未登錄]
2009-09-03 23:26 | dskit
map的底層用紅黑樹實(shí)現(xiàn),
可以用trie樹,但是有中文,還有其他符號(hào),好像就不好處理了  回復(fù)  更多評(píng)論
  
# re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
2009-09-03 23:46 | gbb
這個(gè)不是標(biāo)準(zhǔn)的mapreduce樣例么?  回復(fù)  更多評(píng)論
  
# re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
2009-09-04 14:30 | 凡客誠(chéng)品
不錯(cuò)哦  回復(fù)  更多評(píng)論
  
# re: 有沒有更快的辦法來(lái)統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
2009-09-06 23:19 | 唐風(fēng)
std::map
本身不就是排序的嗎?為什么還要倒到vector里排?不解  回復(fù)  更多評(píng)論
  

只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問(wèn)   Chat2DB   管理


<2009年9月>
303112345
6789101112
13141516171819
20212223242526
27282930123
45678910

常用鏈接

留言簿(5)

隨筆檔案

test

搜索

  •  

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            亚洲国产精品传媒在线观看| 国产精品嫩草影院av蜜臀| 在线观看日产精品| 久久激情五月婷婷| 欧美91视频| 亚洲免费在线播放| 亚洲第一黄色| 国产精品免费在线| 欧美成va人片在线观看| 亚洲精品乱码久久久久久| 国产美女扒开尿口久久久| 欧美高清视频在线 | 亚洲第一在线| 久久五月婷婷丁香社区| 亚洲一区二区三区成人在线视频精品| 欧美成人一区二免费视频软件| 欧美成人免费视频| 久久精品国产99| 一区二区三区日韩精品| 久久这里只精品最新地址| 久久狠狠亚洲综合| 久久精品亚洲乱码伦伦中文| 久久综合给合久久狠狠狠97色69| 久久久久久久久综合| 亚洲国产精品女人久久久| 亚洲特色特黄| 欧美成人精品在线观看| 美女视频网站黄色亚洲| 亚洲国产婷婷综合在线精品| 先锋影音一区二区三区| 免费不卡视频| 亚洲国产另类 国产精品国产免费| 亚洲电影在线播放| 久久高清国产| 在线亚洲成人| 亚洲精品国久久99热| 欧美电影打屁股sp| 99热这里只有精品8| 欧美大片网址| 伊人久久大香线蕉综合热线| 亚洲精品一区二区三| 国产一区二区黄| 亚洲欧美影院| 亚洲欧美日韩精品久久| 一本色道久久加勒比88综合| 狠狠色狠狠色综合人人| 久久国产主播| 久久成人久久爱| 亚洲国产精品成人va在线观看| 久久九九热免费视频| 亚洲午夜精品| 国产精品外国| 美女性感视频久久久| 久久亚洲色图| 亚洲美女av电影| 亚洲综合999| 亚洲免费视频网站| 精品成人a区在线观看| 亚洲高清影视| 国产精品进线69影院| 久久―日本道色综合久久| 午夜精品视频在线观看| 午夜精品久久久久久99热| 欧美性jizz18性欧美| 午夜精品久久久久久久99水蜜桃 | 欧美国产在线观看| 亚洲一区亚洲二区| 欧美激情1区| 老司机67194精品线观看| 欧美激情精品久久久久久变态| 亚洲免费婷婷| 欧美成人免费在线| 欧美成人a视频| 一区在线播放视频| 午夜视频一区| 亚洲欧美激情一区| 欧美成年人视频| 久久精品视频在线免费观看| 欧美啪啪一区| 亚洲人成在线播放网站岛国| 狠狠综合久久av一区二区老牛| 狠狠色丁香婷婷综合| 日韩午夜av电影| 亚洲欧美区自拍先锋| 欧美视频导航| 99国产精品久久久久久久久久| 一区二区三区国产盗摄| 欧美国产日韩在线| 一本一本久久a久久精品综合妖精| 亚洲三级视频在线观看| 欧美高清视频一二三区| 亚洲视频你懂的| 亚洲欧美综合v| 在线观看成人av电影| 欧美国产三区| 在线观看视频日韩| 免费不卡在线视频| 亚洲天堂激情| 亚洲区国产区| 美女国产精品| 欧美一区二区三区免费视| 激情视频一区二区| 欧美激情一区二区三区四区| 999亚洲国产精| 久热精品视频在线| 亚洲精品三级| 国产欧美欧美| 欧美日韩精品欧美日韩精品| 亚洲性图久久| 亚洲天堂av图片| 亚洲六月丁香色婷婷综合久久| 午夜欧美精品久久久久久久| 国产亚洲毛片在线| 国产色综合网| 国产日韩亚洲| 国产一区二区三区高清播放| 久久午夜电影网| 性刺激综合网| 久久精品亚洲一区| 久久久亚洲一区| 久久久久久久久久久久久9999| 亚洲精品在线二区| 亚洲深夜福利在线| 亚洲午夜激情| 久久av在线| 久久久久国产精品一区二区| 久久久久久一区二区三区| 久久福利视频导航| 欧美电影免费| 亚洲一区二区精品在线| 久久一日本道色综合久久| 男同欧美伦乱| 国产日韩欧美在线视频观看| 亚洲人成欧美中文字幕| 亚洲性夜色噜噜噜7777| 久久人体大胆视频| 日韩天堂av| 久久婷婷丁香| 亚洲欧美日韩精品久久亚洲区| 久久在线免费观看视频| 国产欧美日韩一区| 亚洲欧美资源在线| 夜夜精品视频| 久久精彩免费视频| 欧美国产一区二区| 国产精品日韩在线观看| 亚洲日韩欧美视频一区| 久久午夜电影| 午夜精品在线| 国产免费一区二区三区香蕉精| 亚洲免费在线观看视频| 久久久久久久国产| 国语自产在线不卡| 美女亚洲精品| 欧美www视频| a4yy欧美一区二区三区| 欧美国产一区二区| 久久精品国产免费看久久精品| 欧美国内亚洲| 亚洲精品网站在线播放gif| 亚洲精品乱码久久久久久黑人| 女同一区二区| 一本色道久久88亚洲综合88| 这里只有精品视频| 国产一区二区三区观看| 欧美成人一区二区| 国产精品视频网站| 免费视频一区| 国产欧美91| 免费试看一区| 久久久久久久久久久成人| 国产精品免费一区豆花| 久久久久久久综合日本| 蜜桃av噜噜一区| 久久久久一区二区三区| 欧美精品一区二区三区很污很色的| 亚洲一区二区三区免费在线观看| 欧美一区二区观看视频| 亚洲一区观看| 欧美日韩的一区二区| 国产午夜精品美女毛片视频| 欧美激情欧美激情在线五月| 国产日韩欧美在线视频观看| 在线亚洲欧美视频| 在线性视频日韩欧美| 亚洲影音先锋| 亚洲午夜成aⅴ人片| 欧美成人一区二区三区片免费| 久久亚洲精选| 欧美高潮视频| 国内外成人免费视频 | 亚洲最快最全在线视频| 欧美成人黑人xx视频免费观看| 免费成人高清| 亚洲精品裸体| 欧美视频一区二区| 一区二区三区你懂的| 欧美影院午夜播放| 永久免费视频成人| 欧美日韩成人综合在线一区二区|