我現(xiàn)在需要統(tǒng)計(jì)一篇文章中的單詞數(shù)量,并排序輸出。
格式
單詞1 500
單詞2 499
單詞3 300
.....
...
..
.
現(xiàn)在的思路是
第一步:先將單詞讀入到map<string,size_t> ssmap;當(dāng)中;這樣每次掃描到一個(gè)新單詞后都可以++ssmap[str];來統(tǒng)計(jì)單詞數(shù);
第二步:將map中的內(nèi)容拷貝到vector<pair<string*,size_t> > vec;當(dāng)中,之后對(duì)vec用sort進(jìn)行排序。(之所以要用string*是因?yàn)椴幌Ml(fā)生string的拷貝構(gòu)造,以免浪費(fèi)時(shí)間)。
第三步:將vec輸出。
試驗(yàn)了一下上述方法可以正確執(zhí)行。
但我想應(yīng)該有更快的方法,請(qǐng)各位賜教一下!
呵呵,謝謝大家這么積極。
字符串長度沒有限制,這個(gè)從一個(gè)分詞程序?qū)ξ恼逻M(jìn)行分詞處理以后的結(jié)果。單詞可能是“的,了”這種單個(gè)字,也可能是“中華人民共和國”這種字符串。還有可能遇到像“\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\...(n個(gè))”這種比較變態(tài)的符號(hào)。
FeedBack:
# re: 有沒有更快的辦法來統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)![未登錄]
2009-09-03 16:20 | foxriver
map查找已經(jīng)足夠快了。你看看是不是單詞多,排序浪費(fèi)了太多的時(shí)間。可以修改成radix sort, 加快速度。不過可能會(huì)有點(diǎn)難度,你要把string轉(zhuǎn)換成int,還用到多重排序。
個(gè)人測試大規(guī)模數(shù)據(jù),速度還能接受。貼點(diǎn)逼人的簡陋代碼,僅供參考,核心算法見:http://www.codercorner.com/RadixSortRevisited.htm
class vector_string : public vector<string>
{
public:
vector_string()
{
}
~vector_string()
{
}
public:
void sort(vector<int>* r_offsetset = 0)
{
vector<string> swaplist;
swaplist.resize(_Num);
vector<uint> sorttable1;
vector<uint> sorttable2;
vector<uint> sorttable3;
sorttable1.resize(_Num);
sorttable2.resize(_Num);
sorttable3.resize(_Num);
int i;
for (i=0;i<_Num;i++)
{
const string& str = _First[i];
uint b;
int n;
b = 0;
for (n=0;n<4 && n<str.size();n++)
{
if (n == 0) b |= (str[n] << 24) & 0xff000000;
if (n == 1) b |= (str[n] << 16) & 0x00ff0000;
if (n == 2) b |= (str[n] << 8) & 0x0000ff00;
if (n == 3) b |= (str[n]) & 0x000000ff;
}
sorttable1[i] = b;
b = 0;
for (n=4;n<8 && n<str.size();n++)
{
if (n == 4) b |= (str[n] << 24) & 0xff000000;
if (n == 5) b |= (str[n] << 16) & 0x00ff0000;
if (n == 6) b |= (str[n] << 8) & 0x0000ff00;
if (n == 7) b |= (str[n]) & 0x000000ff;
}
sorttable2[i] = b;
b = 0;
for (n=8;n<12 && n<str.size();n++)
{
if (n == 8) b |= (str[n] << 24) & 0xff000000;
if (n == 9) b |= (str[n] << 16) & 0x00ff0000;
if (n == 10) b |= (str[n] << 8) & 0x0000ff00;
if (n == 11) b |= (str[n]) & 0x000000ff;
}
sorttable3[i] = b;
}
radixsort_t radix;
uint* sorted = radix.Sort((uint*)&sorttable3[0], sorttable3.size(), false).Sort((uint*)&sorttable2[0], sorttable2.size(), false).Sort((uint*)&sorttable1[0], sorttable1.size(), false).GetIndices();
resort(sorted, 0, _Num, swaplist);
if (r_offsetset) r_offsetset->resort(sorted, 0, _Num);
// ------- 2 ------
vector<uint> swaptable;
swaptable.resize(_Num);
for (i=0;i<_Num;i++) swaptable[i] = sorttable1[i];
for (i=0;i<_Num;i++) sorttable1[i] = swaptable[sorted[i]];
for (i=0;i<_Num;i++) swaptable[i] = sorttable2[i];
for (i=0;i<_Num;i++) sorttable2[i] = swaptable[sorted[i]];
for (i=0;i<_Num;i++) swaptable[i] = sorttable3[i];
for (i=0;i<_Num;i++) sorttable3[i] = swaptable[sorted[i]];
// 測試 程序 文字 1
// 測試 程序 文字
// 測試 程序 文比
uint tab1 = 0xFFFFFFFF;
uint tab2 = 0xFFFFFFFF;
uint tab3 = 0xFFFFFFFF;
int samecount = 0;
for (i=0;i<_Num;i++)
{
if (tab1 == sorttable1[i] && tab2 == sorttable2[i] && tab3 == sorttable3[i])
{
samecount++;
continue;
}
if (samecount)
{
int start = i - samecount-1;
int total = samecount + 1;
bool exactsame = true;
for (int n=start+1;n<start+total;n++)
{
if (_First[n-1] != _First[n])
{
exactsame = false;
break;
}
}
if (exactsame == false)
{
quicksort_t::sort((int*)sorted, _First+start, total, _cmp);
resort(sorted, start, total, swaplist);
if (r_offsetset) r_offsetset->resort(sorted, start, total);
}
}
tab1 = sorttable1[i];
tab2 = sorttable2[i];
tab3 = sorttable3[i];
samecount = 0;
}
if (samecount)
{
int start = i - samecount-1;
int total = samecount + 1;
quicksort_t::sort((int*)sorted, _First+start, total, _cmp);
resort(sorted, start, total, swaplist);
if (r_offsetset) r_offsetset->resort(sorted, start, total);
}
}
protected:
void resort(const uint* r_sorted, int r_offset, int r_num, vector<string>& r_swaplist)
{
int i;
for (i=0;i<r_num;i++) r_swaplist[i].swap(_First[r_sorted[i]+r_offset]);
for (i=0;i<r_num;i++) _First[i+r_offset].swap(r_swaplist[i]);
}
};
回復(fù) 更多評(píng)論
個(gè)人測試大規(guī)模數(shù)據(jù),速度還能接受。貼點(diǎn)逼人的簡陋代碼,僅供參考,核心算法見:http://www.codercorner.com/RadixSortRevisited.htm
class vector_string : public vector<string>
{
public:
vector_string()
{
}
~vector_string()
{
}
public:
void sort(vector<int>* r_offsetset = 0)
{
vector<string> swaplist;
swaplist.resize(_Num);
vector<uint> sorttable1;
vector<uint> sorttable2;
vector<uint> sorttable3;
sorttable1.resize(_Num);
sorttable2.resize(_Num);
sorttable3.resize(_Num);
int i;
for (i=0;i<_Num;i++)
{
const string& str = _First[i];
uint b;
int n;
b = 0;
for (n=0;n<4 && n<str.size();n++)
{
if (n == 0) b |= (str[n] << 24) & 0xff000000;
if (n == 1) b |= (str[n] << 16) & 0x00ff0000;
if (n == 2) b |= (str[n] << 8) & 0x0000ff00;
if (n == 3) b |= (str[n]) & 0x000000ff;
}
sorttable1[i] = b;
b = 0;
for (n=4;n<8 && n<str.size();n++)
{
if (n == 4) b |= (str[n] << 24) & 0xff000000;
if (n == 5) b |= (str[n] << 16) & 0x00ff0000;
if (n == 6) b |= (str[n] << 8) & 0x0000ff00;
if (n == 7) b |= (str[n]) & 0x000000ff;
}
sorttable2[i] = b;
b = 0;
for (n=8;n<12 && n<str.size();n++)
{
if (n == 8) b |= (str[n] << 24) & 0xff000000;
if (n == 9) b |= (str[n] << 16) & 0x00ff0000;
if (n == 10) b |= (str[n] << 8) & 0x0000ff00;
if (n == 11) b |= (str[n]) & 0x000000ff;
}
sorttable3[i] = b;
}
radixsort_t radix;
uint* sorted = radix.Sort((uint*)&sorttable3[0], sorttable3.size(), false).Sort((uint*)&sorttable2[0], sorttable2.size(), false).Sort((uint*)&sorttable1[0], sorttable1.size(), false).GetIndices();
resort(sorted, 0, _Num, swaplist);
if (r_offsetset) r_offsetset->resort(sorted, 0, _Num);
// ------- 2 ------
vector<uint> swaptable;
swaptable.resize(_Num);
for (i=0;i<_Num;i++) swaptable[i] = sorttable1[i];
for (i=0;i<_Num;i++) sorttable1[i] = swaptable[sorted[i]];
for (i=0;i<_Num;i++) swaptable[i] = sorttable2[i];
for (i=0;i<_Num;i++) sorttable2[i] = swaptable[sorted[i]];
for (i=0;i<_Num;i++) swaptable[i] = sorttable3[i];
for (i=0;i<_Num;i++) sorttable3[i] = swaptable[sorted[i]];
// 測試 程序 文字 1
// 測試 程序 文字
// 測試 程序 文比
uint tab1 = 0xFFFFFFFF;
uint tab2 = 0xFFFFFFFF;
uint tab3 = 0xFFFFFFFF;
int samecount = 0;
for (i=0;i<_Num;i++)
{
if (tab1 == sorttable1[i] && tab2 == sorttable2[i] && tab3 == sorttable3[i])
{
samecount++;
continue;
}
if (samecount)
{
int start = i - samecount-1;
int total = samecount + 1;
bool exactsame = true;
for (int n=start+1;n<start+total;n++)
{
if (_First[n-1] != _First[n])
{
exactsame = false;
break;
}
}
if (exactsame == false)
{
quicksort_t::sort((int*)sorted, _First+start, total, _cmp);
resort(sorted, start, total, swaplist);
if (r_offsetset) r_offsetset->resort(sorted, start, total);
}
}
tab1 = sorttable1[i];
tab2 = sorttable2[i];
tab3 = sorttable3[i];
samecount = 0;
}
if (samecount)
{
int start = i - samecount-1;
int total = samecount + 1;
quicksort_t::sort((int*)sorted, _First+start, total, _cmp);
resort(sorted, start, total, swaplist);
if (r_offsetset) r_offsetset->resort(sorted, start, total);
}
}
protected:
void resort(const uint* r_sorted, int r_offset, int r_num, vector<string>& r_swaplist)
{
int i;
for (i=0;i<r_num;i++) r_swaplist[i].swap(_First[r_sorted[i]+r_offset]);
for (i=0;i<r_num;i++) _First[i+r_offset].swap(r_swaplist[i]);
}
};
回復(fù) 更多評(píng)論
# re: 有沒有更快的辦法來統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)![未登錄]
2009-09-03 16:32 | foxriver
如果你用的是標(biāo)準(zhǔn)的new,stl的string會(huì)頻繁調(diào)用也耗費(fèi)不少時(shí)間。可以改用id software的那個(gè)idHeap,官網(wǎng)quake4 sdk里就有,速度號(hào)稱是vc版本的N倍。
當(dāng)然,前提必須是單線程。 回復(fù) 更多評(píng)論
當(dāng)然,前提必須是單線程。 回復(fù) 更多評(píng)論
# re: 有沒有更快的辦法來統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
2009-09-03 16:38 | Vincent
今年的astar就有一道牽扯到這個(gè)的題目.
樓主的做法應(yīng)該就是利用hash表統(tǒng)計(jì)吧..
我提出另外一個(gè)做法用trie樹.. 回復(fù) 更多評(píng)論
樓主的做法應(yīng)該就是利用hash表統(tǒng)計(jì)吧..
我提出另外一個(gè)做法用trie樹.. 回復(fù) 更多評(píng)論
# re: 有沒有更快的辦法來統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)![未登錄]
2009-09-03 16:42 | foxriver
樓主應(yīng)該不是hash表,是rt樹,不過兩者速度也差不多了,沒什么可優(yōu)化的地方。hash只有在數(shù)據(jù)相當(dāng)大的情況下(>1000萬條),才會(huì)有明顯優(yōu)勢。 回復(fù) 更多評(píng)論
# re: 有沒有更快的辦法來統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
2009-09-03 16:46 | Vincent
哦..呵呵..我不太清楚rt樹是什么..
而且樓主說的這個(gè)還是太籠統(tǒng)..
比如單詞字符串的長度上限等等.
不同的條件下不同的方法有著不同的效率..
hash的話,就想到一個(gè)比較出名的elfhash.. 回復(fù) 更多評(píng)論
而且樓主說的這個(gè)還是太籠統(tǒng)..
比如單詞字符串的長度上限等等.
不同的條件下不同的方法有著不同的效率..
hash的話,就想到一個(gè)比較出名的elfhash.. 回復(fù) 更多評(píng)論
# re: 有沒有更快的辦法來統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)![未登錄]
# re: 有沒有更快的辦法來統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
# re: 有沒有更快的辦法來統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
# re: 有沒有更快的辦法來統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)![未登錄]
2009-09-03 16:53 | foxriver
"個(gè)人覺得只要能設(shè)計(jì)出合理的hash還是hash更快些吧", 嚴(yán)重同意!不過對(duì)于樓主來說,寫一個(gè)hash查找來替換std::map挺費(fèi)時(shí)間的,內(nèi)存管理上弄不好的話,效率和穩(wěn)定性會(huì)下降,說不定還沒人家stl的快,所以不是很推薦呢。 回復(fù) 更多評(píng)論
# re: 有沒有更快的辦法來統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
# re: 有沒有更快的辦法來統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
# re: 有沒有更快的辦法來統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
# re: 有沒有更快的辦法來統(tǒng)計(jì)一篇文章中的詞組數(shù)量并排序輸出(挑戰(zhàn)速度)!
只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。 | ||
【推薦】100%開源!大型工業(yè)跨平臺(tái)軟件C++源碼提供,建模,組態(tài)!
![]() |
||
網(wǎng)站導(dǎo)航:
博客園
IT新聞
BlogJava
博問
Chat2DB
管理
|
||
|
| |||||||||
日 | 一 | 二 | 三 | 四 | 五 | 六 | |||
---|---|---|---|---|---|---|---|---|---|
30 | 31 | 1 | 2 | 3 | 4 | 5 | |||
6 | 7 | 8 | 9 | 10 | 11 | 12 | |||
13 | 14 | 15 | 16 | 17 | 18 | 19 | |||
20 | 21 | 22 | 23 | 24 | 25 | 26 | |||
27 | 28 | 29 | 30 | 1 | 2 | 3 | |||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
常用鏈接
留言簿(5)
隨筆檔案
test
搜索
最新評(píng)論

- 1.?re: 虛擬文件加密系統(tǒng)
- 我可以請(qǐng)教一下應(yīng)該怎么調(diào)試嗎?小弟是初學(xué),還不太明白應(yīng)該怎么調(diào)試您的代碼。。。
- --xiqxin
- 2.?re: 中國象棋程序開發(fā)筆記 --遇到困難,大家?guī)兔Γ。?/a>
- 我也在看那個(gè),你的代碼我發(fā)過來我看看。915389553@qq.com
- --朝陽
- 3.?re: 關(guān)于boost庫中shared_ptr執(zhí)行速度的簡單測試
- 我測試了share_ptr版式1847,new delete版是104,測試是用的VS2010版本,share_ptr不是用的boost庫,是用的VS2010自帶的
- --qindh
- 4.?re: 中國象棋程序開發(fā)筆記 --遇到困難,大家?guī)兔Γ。未登錄]
- 您好 我也在學(xué)習(xí)并編寫這個(gè)程序,前輩!!!您能把您的源代碼發(fā)過來嗎! 謝謝啦! 很頭疼啊 harrypotter85701@126.com
- --小偉
- 5.?re: 關(guān)于boost庫中shared_ptr執(zhí)行速度的簡單測試
- 評(píng)論內(nèi)容較長,點(diǎn)擊標(biāo)題查看
- --張立斌