青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

隨筆 - 42  文章 - 3  trackbacks - 0
<2012年7月>
24252627282930
1234567
891011121314
15161718192021
22232425262728
2930311234

常用鏈接

留言簿(2)

隨筆檔案

文章檔案

網(wǎng)頁收藏

搜索

  •  

最新評論

閱讀排行榜

評論排行榜

問題實(shí)例:給你A,B兩個文件,各存放50億條URL,每條URL占用64字節(jié),內(nèi)存限制是4G,讓你找出A,B文件共同的URL。如果是三個乃至n個文件呢?

根據(jù)這個問題我們來計(jì)算下內(nèi)存的占用,4G=2^32大概是40億*8大概是340億,n=50億,如果按出錯率0.01算需要的大概是650億個bit。現(xiàn)在可用的是340億,相差并不多,這樣可能會使出錯率上升些。另外如果這些urlip是一一對應(yīng)的,就可以轉(zhuǎn)換成ip,則大大簡單了。

問題實(shí)例:
1).海量日志數(shù)據(jù),提取出某日訪問百度次數(shù)最多的那個IP。

IP的數(shù)目還是有限的,最多2^32個,所以可以考慮使用hash將ip直接存入內(nèi)存,然后進(jìn)行統(tǒng)計(jì)。

問題實(shí)例:

1)已知某個文件內(nèi)包含一些電話號碼,每個號碼為8位數(shù)字,統(tǒng)計(jì)不同號碼的個數(shù)。

8位最多99 999 999,大概需要99m個bit,大概10幾m字節(jié)的內(nèi)存即可。

2)2.5億個整數(shù)中找出不重復(fù)的整數(shù)的個數(shù),內(nèi)存空間不足以容納這2.5億個整數(shù)。

將bit-map擴(kuò)展一下,用2bit表示一個數(shù)即可,0表示未出現(xiàn),1表示出現(xiàn)一次,2表示出現(xiàn)2次及以上。或者我們不用2bit來進(jìn)行表示,我們用兩個bit-map即可模擬實(shí)現(xiàn)這個2bit-map。

問題實(shí)例:
1)100w個數(shù)中找最大的前100個數(shù)。

用一個100個元素大小的最小堆即可。

問題實(shí)例:
1).2.5億個整數(shù)中找出不重復(fù)的整數(shù)的個數(shù),內(nèi)存空間不足以容納這2.5億個整數(shù)。

有點(diǎn)像鴿巢原理,整數(shù)個數(shù)為2^32,也就是,我們可以將這2^32個數(shù),劃分為2^8個區(qū)域(比如用單個文件代表一個區(qū)域),然后將數(shù)據(jù)分離到不同的區(qū)域,然后不同的區(qū)域在利用bitmap就可以直接解決了。也就是說只要有足夠的磁盤空間,就可以很方便的解決。

2).5億個int找它們的中位數(shù)。

這個例子比上面那個更明顯。首先我們將int劃分為2^16個區(qū)域,然后讀取數(shù)據(jù)統(tǒng)計(jì)落到各個區(qū)域里的數(shù)的個數(shù),之后我們根據(jù)統(tǒng)計(jì)結(jié)果就可以判斷中位數(shù)落到那個區(qū)域,同時知道這個區(qū)域中的第幾大數(shù)剛好是中位數(shù)。然后第二次掃描我們只統(tǒng)計(jì)落在這個區(qū)域中的那些數(shù)就可以了。

實(shí)際上,如果不是int是int64,我們可以經(jīng)過3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2^24個區(qū)域,然后確定區(qū)域的第幾大數(shù),在將該區(qū)域分成2^20個子區(qū)域,然后確定是子區(qū)域的第幾大數(shù),然后子區(qū)域里的數(shù)的個數(shù)只有2^20,就可以直接利用direct addr table進(jìn)行統(tǒng)計(jì)了。

問題實(shí)例:
1).有一個1G大小的一個文件,里面每一行是一個詞,詞的大小不超過16個字節(jié),內(nèi)存限制大小是1M。返回頻數(shù)最高的100個詞。

這個數(shù)據(jù)具有很明顯的特點(diǎn),詞的大小為16個字節(jié),但是內(nèi)存只有1m做hash有些不夠,所以可以用來排序。內(nèi)存可以當(dāng)輸入緩沖區(qū)使用。

問題實(shí)例:
1).有10個文件,每個文件1G, 每個文件的每一行都存放的是用戶的query,每個文件的query都可能重復(fù)。要你按照query的頻度排序 。

2).1000萬字符串,其中有些是相同的(重復(fù)),需要把重復(fù)的全部去掉,保留沒有重復(fù)的字符串。請問怎么設(shè)計(jì)和實(shí)現(xiàn)?

3).尋找熱門查詢:查詢串的重復(fù)度比較高,雖然總數(shù)是1千萬,但如果除去重復(fù)后,不超過3百萬個,每個不超過255字節(jié)。

1. 給你A,B兩個文件,各存放50億條URL,每條URL占用64字節(jié),內(nèi)存限制是4G,讓你找出:A,B文件共同的URL。 
解法一:Hash成內(nèi)存大小的小塊文件,然后分塊內(nèi)存內(nèi)查交集。
解法二:Bloom Filter(廣泛應(yīng)用于URL過濾、查重。參考http://en.wikipedia.org/wiki/Bloom_filterhttp://blog.csdn.net/jiaomeng/archive/2007/01/28/1496329.aspx

2. 有10個文件,每個文件1G, 每個文件的每一行都存放的是用戶的query,每個文件的query都可能重復(fù)。要你按照query的頻度排序。
解法一:根據(jù)數(shù)據(jù)稀疏程度算法會有不同,通用方法是用Hash把文件重排,讓相同query一定會在同一個文件,同時進(jìn)行計(jì)數(shù),然后歸并,用最小堆來統(tǒng)計(jì)頻度最大的。
解法二:類似1,但是用的是與簡單Bloom Filter稍有不同的CBF(Counting Bloom Filter)或者更進(jìn)一步的SBF(Spectral Bloom Filter,參考http://blog.csdn.net/jiaomeng/archive/2007/03/19/1534238.aspx
解法三:MapReduce,幾分鐘可以在hadoop集群上搞定。參考http://en.wikipedia.org/wiki/MapReduce

3. 有一個1G大小的一個文件,里面每一行是一個詞,詞的大小不超過16個字節(jié),內(nèi)存限制大小是1M。返回頻數(shù)最高的100個詞。
解法一:跟2類似,只是不需要排序,各個文件分別統(tǒng)計(jì)前100,然后一起找前100。

posted on 2011-03-14 14:25 鷹擊長空 閱讀(1247) 評論(0)  編輯 收藏 引用

只有注冊用戶登錄后才能發(fā)表評論。
網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問   Chat2DB   管理


青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            亚洲深夜福利| 亚洲欧美美女| 久久只精品国产| 免费不卡视频| 亚洲承认在线| 欧美成ee人免费视频| 精久久久久久久久久久| 麻豆成人在线播放| 激情久久五月天| 欧美大片在线观看一区| 亚洲四色影视在线观看| 免费看精品久久片| 亚洲欧美在线aaa| 国产一区二区黄色| 欧美二区在线播放| 欧美影院视频| 91久久精品www人人做人人爽| 亚洲激情视频在线| 欧美激情视频一区二区三区不卡| 中日韩美女免费视频网站在线观看| 久久精品国产99| 亚洲伦伦在线| 国模精品一区二区三区| 国产精品欧美一区喷水 | 免费观看亚洲视频大全| 一区二区三区产品免费精品久久75| 亚洲一级片在线观看| 国产综合色精品一区二区三区| 国产精品日本精品| 国产精品一区二区三区四区五区| 麻豆91精品| 久久精品人人做人人综合 | 久久欧美肥婆一二区| 亚洲欧美激情一区| 亚洲精品国产视频| 国产区欧美区日韩区| 欧美小视频在线| 国产精品日韩欧美一区二区三区| 欧美日韩天堂| 国产精品―色哟哟| 国产精品无码永久免费888| 国产精品qvod| 国产日韩免费| 在线观看欧美亚洲| 亚洲韩日在线| 欧美一级网站| 欧美激情影院| 亚洲欧美在线一区| 久久蜜桃av一区精品变态类天堂| 久久精品久久99精品久久| 久久精品一区二区三区不卡牛牛 | 亚洲在线播放| 亚洲女优在线| 欧美成人一区二免费视频软件| 老司机一区二区| 欧美日韩国产二区| 国内精品久久久久影院优| 亚洲精品欧美在线| 久久久久久91香蕉国产| 一区二区三区高清在线| 久久精品国产91精品亚洲| 欧美国产日韩在线观看| 欧美午夜不卡在线观看免费| 亚洲国产成人在线播放| 在线视频精品一区| 美女国产一区| 久久成人免费日本黄色| 欧美色精品天天在线观看视频| 国产视频一区二区在线观看 | 欧美日本一区| 国产精品裸体一区二区三区| 狠狠色狠狠色综合日日91app| 午夜视频在线观看一区二区三区| 玖玖综合伊人| 国产在线观看一区| 欧美一区二区视频免费观看| 一区二区免费在线视频| 欧美日韩小视频| 日韩视频在线一区| 亚洲黄色性网站| 久久本道综合色狠狠五月| 国产精品久久福利| 亚洲欧美三级在线| 欧美在线一级va免费观看| 国产农村妇女毛片精品久久莱园子 | 欧美一区二区三区在线| 欧美三级乱人伦电影| 亚洲精品偷拍| 亚洲国产精品久久久久婷婷老年| 久久精品系列| 亚洲韩国精品一区| 亚洲国产婷婷综合在线精品| 欧美日产国产成人免费图片| 亚洲免费影院| 欧美在线关看| 亚洲少妇一区| 亚洲欧美另类国产| 亚洲国产精品欧美一二99| 亚洲国产天堂久久国产91| 欧美天天在线| 久久精品一本| 欧美极品影院| 麻豆精品视频| 国产农村妇女毛片精品久久麻豆| 伊大人香蕉综合8在线视| 夜夜嗨av一区二区三区四区| 亚洲国产日韩欧美| 亚洲欧美在线磁力| 亚洲人成啪啪网站| 亚洲第一精品福利| 国产精品亚洲成人| 欧美不卡视频一区| 中文欧美在线视频| 久久亚洲一区二区| 亚洲尤物视频在线| 欧美电影美腿模特1979在线看| 日韩一级黄色大片| 久久av一区二区三区| 香蕉久久夜色精品国产| 欧美精品在线视频| 亚洲国产精品成人综合色在线婷婷| 国产视频一区在线观看一区免费 | 夜夜嗨网站十八久久| 亚洲激情av在线| 国产精品专区第二| 亚洲男人影院| 亚洲欧美精品在线| 国产精品美女久久久浪潮软件| 亚洲日韩视频| 亚洲乱码国产乱码精品精| 欧美第一黄色网| 亚洲激情视频在线| 日韩午夜在线| 欧美日韩一区二区三区视频| 最新精品在线| 久久高清国产| 欧美日韩免费观看一区| 国产精品视频第一区| 亚洲另类在线视频| 欧美在线观看一二区| 亚洲一区免费| 国产日韩精品久久| 蜜臀av国产精品久久久久| 亚洲无毛电影| 欧美三区免费完整视频在线观看| 国产中文一区二区| 午夜久久久久| 久久精品导航| 亚洲国产精品久久精品怡红院| 亚洲第一页中文字幕| 国产精品美女久久久久久久| 亚洲永久在线观看| 亚洲一级高清| 一本久道综合久久精品| 亚洲激情成人在线| 欧美久色视频| 国内精品一区二区三区| 一区二区三区 在线观看视频| 欧美福利一区二区三区| 免费成人毛片| 日韩午夜在线观看视频| 美国十次了思思久久精品导航| 欧美国产日韩一区二区| 亚洲你懂的在线视频| 久久久久久久一区二区三区| 亚洲欧美网站| 日韩午夜三级在线| 久久伊人一区二区| 欧美一二三视频| 久久精品91久久久久久再现| 久久伊人亚洲| 亚洲欧洲中文日韩久久av乱码| 国产精品嫩草影院一区二区| 欧美成人性生活| 久久久久免费观看| 午夜日韩福利| 午夜精品美女久久久久av福利| 欧美激情一区在线| 久久综合九色九九| 久久久久久网| 亚洲一区二区在线视频| 激情小说亚洲一区| 欧美久色视频| 欧美激情一区在线| 亚洲免费在线播放| 亚洲欧洲日本国产| 久久久女女女女999久久| 欧美一区二区视频97| 亚洲天堂网站在线观看视频| 在线视频亚洲欧美| 亚洲精品亚洲人成人网| 亚洲人成人一区二区三区| 精品不卡一区| 影音先锋在线一区| 国产日韩欧美在线播放不卡| 国产欧美日本一区视频| 欧美日韩一区二区视频在线观看| 国产精品久久久一区二区三区| 国产欧美日韩一区| 激情六月婷婷综合|