青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

隨筆 - 42  文章 - 3  trackbacks - 0
<2025年9月>
31123456
78910111213
14151617181920
21222324252627
2829301234
567891011

常用鏈接

留言簿(2)

隨筆檔案

文章檔案

網(wǎng)頁(yè)收藏

搜索

  •  

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

問(wèn)題實(shí)例:給你A,B兩個(gè)文件,各存放50億條URL,每條URL占用64字節(jié),內(nèi)存限制是4G,讓你找出A,B文件共同的URL。如果是三個(gè)乃至n個(gè)文件呢?

根據(jù)這個(gè)問(wèn)題我們來(lái)計(jì)算下內(nèi)存的占用,4G=2^32大概是40億*8大概是340億,n=50億,如果按出錯(cuò)率0.01算需要的大概是650億個(gè)bit。現(xiàn)在可用的是340億,相差并不多,這樣可能會(huì)使出錯(cuò)率上升些。另外如果這些urlip是一一對(duì)應(yīng)的,就可以轉(zhuǎn)換成ip,則大大簡(jiǎn)單了。

問(wèn)題實(shí)例:
1).海量日志數(shù)據(jù),提取出某日訪問(wèn)百度次數(shù)最多的那個(gè)IP。

IP的數(shù)目還是有限的,最多2^32個(gè),所以可以考慮使用hash將ip直接存入內(nèi)存,然后進(jìn)行統(tǒng)計(jì)。

問(wèn)題實(shí)例:

1)已知某個(gè)文件內(nèi)包含一些電話號(hào)碼,每個(gè)號(hào)碼為8位數(shù)字,統(tǒng)計(jì)不同號(hào)碼的個(gè)數(shù)。

8位最多99 999 999,大概需要99m個(gè)bit,大概10幾m字節(jié)的內(nèi)存即可。

2)2.5億個(gè)整數(shù)中找出不重復(fù)的整數(shù)的個(gè)數(shù),內(nèi)存空間不足以容納這2.5億個(gè)整數(shù)。

將bit-map擴(kuò)展一下,用2bit表示一個(gè)數(shù)即可,0表示未出現(xiàn),1表示出現(xiàn)一次,2表示出現(xiàn)2次及以上。或者我們不用2bit來(lái)進(jìn)行表示,我們用兩個(gè)bit-map即可模擬實(shí)現(xiàn)這個(gè)2bit-map。

問(wèn)題實(shí)例:
1)100w個(gè)數(shù)中找最大的前100個(gè)數(shù)。

用一個(gè)100個(gè)元素大小的最小堆即可。

問(wèn)題實(shí)例:
1).2.5億個(gè)整數(shù)中找出不重復(fù)的整數(shù)的個(gè)數(shù),內(nèi)存空間不足以容納這2.5億個(gè)整數(shù)。

有點(diǎn)像鴿巢原理,整數(shù)個(gè)數(shù)為2^32,也就是,我們可以將這2^32個(gè)數(shù),劃分為2^8個(gè)區(qū)域(比如用單個(gè)文件代表一個(gè)區(qū)域),然后將數(shù)據(jù)分離到不同的區(qū)域,然后不同的區(qū)域在利用bitmap就可以直接解決了。也就是說(shuō)只要有足夠的磁盤空間,就可以很方便的解決。

2).5億個(gè)int找它們的中位數(shù)。

這個(gè)例子比上面那個(gè)更明顯。首先我們將int劃分為2^16個(gè)區(qū)域,然后讀取數(shù)據(jù)統(tǒng)計(jì)落到各個(gè)區(qū)域里的數(shù)的個(gè)數(shù),之后我們根據(jù)統(tǒng)計(jì)結(jié)果就可以判斷中位數(shù)落到那個(gè)區(qū)域,同時(shí)知道這個(gè)區(qū)域中的第幾大數(shù)剛好是中位數(shù)。然后第二次掃描我們只統(tǒng)計(jì)落在這個(gè)區(qū)域中的那些數(shù)就可以了。

實(shí)際上,如果不是int是int64,我們可以經(jīng)過(guò)3次這樣的劃分即可降低到可以接受的程度。即可以先將int64分成2^24個(gè)區(qū)域,然后確定區(qū)域的第幾大數(shù),在將該區(qū)域分成2^20個(gè)子區(qū)域,然后確定是子區(qū)域的第幾大數(shù),然后子區(qū)域里的數(shù)的個(gè)數(shù)只有2^20,就可以直接利用direct addr table進(jìn)行統(tǒng)計(jì)了。

問(wèn)題實(shí)例:
1).有一個(gè)1G大小的一個(gè)文件,里面每一行是一個(gè)詞,詞的大小不超過(guò)16個(gè)字節(jié),內(nèi)存限制大小是1M。返回頻數(shù)最高的100個(gè)詞。

這個(gè)數(shù)據(jù)具有很明顯的特點(diǎn),詞的大小為16個(gè)字節(jié),但是內(nèi)存只有1m做hash有些不夠,所以可以用來(lái)排序。內(nèi)存可以當(dāng)輸入緩沖區(qū)使用。

問(wèn)題實(shí)例:
1).有10個(gè)文件,每個(gè)文件1G, 每個(gè)文件的每一行都存放的是用戶的query,每個(gè)文件的query都可能重復(fù)。要你按照query的頻度排序 。

2).1000萬(wàn)字符串,其中有些是相同的(重復(fù)),需要把重復(fù)的全部去掉,保留沒(méi)有重復(fù)的字符串。請(qǐng)問(wèn)怎么設(shè)計(jì)和實(shí)現(xiàn)?

3).尋找熱門查詢:查詢串的重復(fù)度比較高,雖然總數(shù)是1千萬(wàn),但如果除去重復(fù)后,不超過(guò)3百萬(wàn)個(gè),每個(gè)不超過(guò)255字節(jié)。

1. 給你A,B兩個(gè)文件,各存放50億條URL,每條URL占用64字節(jié),內(nèi)存限制是4G,讓你找出:A,B文件共同的URL。 
解法一:Hash成內(nèi)存大小的小塊文件,然后分塊內(nèi)存內(nèi)查交集。
解法二:Bloom Filter(廣泛應(yīng)用于URL過(guò)濾、查重。參考http://en.wikipedia.org/wiki/Bloom_filterhttp://blog.csdn.net/jiaomeng/archive/2007/01/28/1496329.aspx

2. 有10個(gè)文件,每個(gè)文件1G, 每個(gè)文件的每一行都存放的是用戶的query,每個(gè)文件的query都可能重復(fù)。要你按照query的頻度排序。
解法一:根據(jù)數(shù)據(jù)稀疏程度算法會(huì)有不同,通用方法是用Hash把文件重排,讓相同query一定會(huì)在同一個(gè)文件,同時(shí)進(jìn)行計(jì)數(shù),然后歸并,用最小堆來(lái)統(tǒng)計(jì)頻度最大的。
解法二:類似1,但是用的是與簡(jiǎn)單Bloom Filter稍有不同的CBF(Counting Bloom Filter)或者更進(jìn)一步的SBF(Spectral Bloom Filter,參考http://blog.csdn.net/jiaomeng/archive/2007/03/19/1534238.aspx
解法三:MapReduce,幾分鐘可以在hadoop集群上搞定。參考http://en.wikipedia.org/wiki/MapReduce

3. 有一個(gè)1G大小的一個(gè)文件,里面每一行是一個(gè)詞,詞的大小不超過(guò)16個(gè)字節(jié),內(nèi)存限制大小是1M。返回頻數(shù)最高的100個(gè)詞。
解法一:跟2類似,只是不需要排序,各個(gè)文件分別統(tǒng)計(jì)前100,然后一起找前100。

posted on 2011-03-14 14:25 鷹擊長(zhǎng)空 閱讀(1239) 評(píng)論(0)  編輯 收藏 引用

只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問(wèn)   Chat2DB   管理


青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美一区二区三区精品 | 国产精品爱啪在线线免费观看| 欧美黄色免费| 99成人在线| 国产在线不卡精品| 国产精品激情| 国产精品一区二区久久久久| 欧美日韩国语| 欧美—级在线免费片| 另类图片综合电影| 久久综合激情| 久久精品视频免费播放| 欧美一区二区三区播放老司机| 中文日韩电影网站| 一本色道久久综合狠狠躁篇怎么玩 | 欧美性色综合| 欧美片在线观看| 欧美日韩国产成人| 欧美国产免费| 欧美日韩精品欧美日韩精品一| 欧美黄免费看| 欧美日韩一区自拍| 国产精品jizz在线观看美国| 欧美在线不卡视频| 午夜激情综合网| 亚洲黄色在线视频| 毛片一区二区| 亚洲国产精品va| 亚洲精选91| 欧美成人精品一区二区| 亚洲三级视频| 99精品国产99久久久久久福利| 亚洲午夜精品久久久久久浪潮 | 久久久久久久网| 快she精品国产999| 欧美精品一区二区在线观看| 欧美mv日韩mv国产网站app| 免费成人av资源网| 欧美日韩免费在线视频| 国产精品人人做人人爽| 国产亚洲日本欧美韩国| 亚洲国产高清在线观看视频| 亚洲伦理一区| 性亚洲最疯狂xxxx高清| 久久精品免视看| 欧美福利电影网| 999在线观看精品免费不卡网站| 欧美福利视频| 日韩视频免费观看| 欧美一二区视频| 免费在线观看日韩欧美| 艳妇臀荡乳欲伦亚洲一区| 亚洲欧美国产精品桃花| 久久中文字幕一区| 99热精品在线| 欧美一区二视频| 欧美丰满少妇xxxbbb| 国产精品推荐精品| 亚洲第一伊人| 午夜精彩视频在线观看不卡 | 国产欧美视频一区二区| 亚洲美女在线视频| 久久综合久久综合九色| 亚洲精品乱码久久久久久| 一区二区三区视频在线观看 | 欧美大片91| 亚洲已满18点击进入久久| 欧美电影电视剧在线观看| 国产欧美日韩在线| 亚洲网址在线| 亚洲黄色一区| 巨乳诱惑日韩免费av| 国产精品一区二区你懂的| 日韩午夜视频在线观看| 免费日韩av| 午夜国产精品影院在线观看| 欧美片网站免费| 亚洲精品黄色| 亚洲第一中文字幕在线观看| 久久久久成人精品| 国产欧美视频在线观看| 亚洲午夜精品久久| 午夜日韩在线| 99视频精品全部免费在线| 欧美99久久| 亚洲国产成人tv| 久久精品一区二区三区中文字幕| 一区二区三区www| 欧美日精品一区视频| 中文av字幕一区| 亚洲人成人一区二区三区| 老司机67194精品线观看| 国内精品视频在线播放| 久久免费黄色| 久久av一区二区三区| 国模私拍一区二区三区| 一区二区高清视频在线观看| 亚洲国产另类精品专区| 亚洲国产精品久久久久秋霞影院| 美女脱光内衣内裤视频久久影院| 在线观看视频一区二区欧美日韩| 久久久噜噜噜久久人人看| 欧美在线视频日韩| 影音先锋日韩资源| 一区二区欧美视频| 男女激情视频一区| 亚洲精品国久久99热| 亚洲黄网站黄| 国产精品久久久久一区二区三区| 亚洲综合成人婷婷小说| 亚洲嫩草精品久久| 韩国美女久久| 欧美福利电影在线观看| 欧美精品国产一区二区| 亚洲欧美国产制服动漫| 亚洲一区久久| 国产欧美日韩亚洲精品| 久久在线91| 欧美噜噜久久久xxx| 在线观看国产日韩| 91久久精品www人人做人人爽| 亚洲美女尤物影院| 日韩视频专区| 国产精品影音先锋| 欧美v日韩v国产v| 蜜臀va亚洲va欧美va天堂| 正在播放欧美视频| 亚洲欧美中文日韩v在线观看| 国产精品美女久久久| 日韩视频中午一区| 欧美一区二区三区四区在线 | 亚洲免费视频观看| 日韩视频在线观看免费| 午夜精品视频在线观看| 亚洲久久一区二区| 亚洲人成人一区二区三区| 国产欧美一区二区三区国产幕精品 | 国产精品中文字幕欧美| 亚洲人成小说网站色在线| 国产一区在线免费观看| 日韩亚洲国产欧美| 亚洲欧洲另类国产综合| 亚洲欧美日韩系列| 黄色成人在线网址| 亚洲国产精品第一区二区| 国产午夜精品一区二区三区视频 | 欧美a一区二区| 欧美一区二区三区视频免费| 欧美激情区在线播放| 欧美自拍偷拍| 欧美在线精品一区| 欧美一级大片在线免费观看| 欧美日本国产视频| 欧美韩日一区| 亚洲精品影院在线观看| 欧美成年人网站| 国产精品老牛| 亚洲精品日日夜夜| 亚洲激情视频网站| 男人的天堂亚洲在线| 久久免费国产| 欧美电影在线观看完整版| 另类尿喷潮videofree| 国产一区二区精品久久99| 亚洲一区二区三区乱码aⅴ蜜桃女 亚洲一区二区三区乱码aⅴ | 久久精品国产一区二区三区免费看| 一区二区三区欧美在线| 欧美 日韩 国产精品免费观看| 亚洲日本乱码在线观看| 欧美三级电影网| 午夜精品久久久久久99热软件| 久久成人精品视频| 亚洲人成网站影音先锋播放| 欧美日本乱大交xxxxx| 久久精品国产亚洲精品| 欧美freesex交免费视频| 亚洲图色在线| 国产精品免费观看在线| 欧美国产日韩一二三区| 一本久久青青| 欧美激情乱人伦| 亚洲深夜福利| 国产亚洲一级| 久久野战av| 亚洲综合日本| 欧美成人高清| 亚洲特级片在线| 国产精品日韩电影| 久久精品一二三| 亚洲欧美中文另类| 激情久久久久久久| 欧美激情亚洲综合一区| 亚洲婷婷国产精品电影人久久| 国产欧美大片| 女人色偷偷aa久久天堂| 亚洲精一区二区三区| 久久国产福利| 亚洲精品在线视频观看| 在线免费观看日韩欧美| 国产精品久久久久久久app|