關(guān)于內(nèi)存數(shù)據(jù)庫(kù)
最近要將一些數(shù)據(jù)放到內(nèi)存里面做很高的并發(fā)操作,考慮了很多方案,
1、 簡(jiǎn)單點(diǎn)使用map hash_map等自己管理。
2、 用sqlite內(nèi)存表。
3、 用fastdb內(nèi)存數(shù)據(jù)庫(kù)。
4、 用ExtremeDb,TimesTen等。
比較測(cè)試了一下123,發(fā)現(xiàn)還是自己實(shí)現(xiàn)速度最快,比fastdb模式快3-5倍,fastdb模式比sqlite內(nèi)存表模式快10倍左右,由于自己實(shí)現(xiàn)不具有典型通用性,多線程下訪問效率會(huì)下降,要管理多線程下各種更新查找等還是比較麻煩的,所以在1和3方案之間糾結(jié)。
為了使得決策更好一些,暫時(shí)還沒做決定,順便到萬方等上面搜索了一些論文來看,看來看去看得真來氣啊,雖然都叫內(nèi)存數(shù)據(jù)庫(kù)但各種實(shí)現(xiàn)的都有,有用gdbm來做的,有直接map管理的,有hash管理數(shù)據(jù)的,有t樹管理的,有數(shù)組隊(duì)列管理的,有的明顯就是個(gè)不大變的東西還弄個(gè)啥事務(wù)的,靠,剛剛居然還看到一篇鳥文《電網(wǎng)監(jiān)控系統(tǒng)實(shí)時(shí)數(shù)據(jù)庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)》里面的測(cè)試居然是1000條,插入時(shí)間80毫秒,真可笑啊,區(qū)區(qū)這么點(diǎn)數(shù)據(jù)也好意思測(cè),還要花80毫秒,還自以為很快,這個(gè)速度至少可提高1000倍以上啊,這幫垃圾,寫的啥鳥文章,研究個(gè)屁啊。
看完這十來篇論文,俺的思緒又回到1999年,當(dāng)年我給別人優(yōu)化過一個(gè)電信計(jì)費(fèi)的軟件(看的論文里面有好幾篇講電信計(jì)費(fèi)的),當(dāng)時(shí)有個(gè)朋友的朋友拿了個(gè)需求過來,7000萬條記錄,原來計(jì)算費(fèi)單要花十幾個(gè)小時(shí)吧,我?guī)退牧讼?,十來分鐘就算完了,朋友很滿意,當(dāng)時(shí)的做法很簡(jiǎn)單,就是弄了個(gè)mmtable,大體就是跟map類似的東西吧,那個(gè)時(shí)候map還沒流行起來,俺也不知道,所以就自己弄了個(gè)內(nèi)存表,內(nèi)部基本就是二分查找了,那個(gè)時(shí)候我對(duì)hash都不大熟悉,B樹之類的算法剛接觸也不會(huì)用,就這么個(gè)東西當(dāng)時(shí)的電腦也只要花十來分鐘,我估計(jì)就算是那個(gè)老程序放在現(xiàn)在的普通臺(tái)式機(jī)上要不了幾秒鐘就可算完。也不知道這么幾千萬條記錄的小需求怎么在這幫人眼里就成了什么海量數(shù)據(jù),對(duì)俺來說跟玩似的,區(qū)區(qū)幾千萬嘛,不過是俺拿來測(cè)試用的。
去年中做了個(gè)md5 hash反查的東西,數(shù)據(jù)都是幾百億到幾萬億的,后來的效果就是一個(gè)文件可存萬億記錄,一次查詢平均1.2次IO,即使全放在SATA磁盤上也就十來毫秒而已。
區(qū)區(qū)幾千萬條記錄咋就叫什么海量數(shù)據(jù)呢,海量個(gè)毛啊,內(nèi)存都放得下的叫什么海量,現(xiàn)在服務(wù)器動(dòng)不動(dòng)都是幾十G內(nèi)存,區(qū)區(qū)千萬根本算不上什么,查詢定位都可到微妙了,1秒插入至少千萬條了,居然還看到1000條插入的測(cè)試,真是不得不佩服國(guó)內(nèi)這幫垃圾研究生的水平,也不知道這種論文咋就能通過審查,只能得出結(jié)論他們的老師也都是豬。
罵歸罵自己的問題還需要繼續(xù)努力,對(duì)咱目前的需求來說自己管理數(shù)據(jù),即使一個(gè)線程都搞得定,因?yàn)椴贿^區(qū)區(qū)幾個(gè)表,幾十萬條記錄而已,不過這種10年前咱就會(huì)的技術(shù)還真是拿不出手,怎么的也得做得更好一點(diǎn),呵呵,繼續(xù)研究吧,多線程下內(nèi)存數(shù)據(jù)庫(kù),從概念上看的確是個(gè)很有吸引力的東西,要是性能跟得上,其實(shí)在很多地方可以取代普通的數(shù)據(jù)結(jié)構(gòu)用法了,可以大大減少編程難度,甚至我在想如果有個(gè)支持事務(wù)的內(nèi)存數(shù)據(jù)庫(kù),之前設(shè)計(jì)的cad類軟件的undo/redo都可以用事務(wù)來實(shí)現(xiàn),完全可以拋棄先前設(shè)計(jì)的復(fù)雜結(jié)構(gòu),其實(shí)這種東西即使不用內(nèi)存數(shù)據(jù)庫(kù)就算是用個(gè)sqlite都完全能搞定,唉,往事不堪回首啊,看來數(shù)據(jù)庫(kù)方面的確得多花功夫,特別是多線程和分布式模式下的內(nèi)存數(shù)據(jù)庫(kù)。