青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品

a tutorial on computer science

  C++博客 :: 首頁(yè) :: 新隨筆 :: 聯(lián)系 :: 聚合  :: 管理 ::
  21 隨筆 :: 0 文章 :: 17 評(píng)論 :: 0 Trackbacks
   hash算法一直被我認(rèn)為成一種處理大數(shù)據(jù)量的高效算法(時(shí)間復(fù)雜度)。
   從一道百度面試題開(kāi)始。
    搜索引擎會(huì)通過(guò)日志文件把用戶每次檢索使用的所有檢索串都記錄下來(lái),每個(gè)查詢串的長(zhǎng)度為1-255字節(jié)。
    假設(shè)目前有一千萬(wàn)個(gè)記錄(這些查詢串的重復(fù)度比較高,雖然總數(shù)是1千萬(wàn),但如果除去重復(fù)后,不超過(guò)3百萬(wàn)個(gè)。一個(gè)查詢串的重復(fù)度越高,說(shuō)明查詢它的用戶越多,也就是越熱門。),請(qǐng)你統(tǒng)計(jì)最熱門的10個(gè)查詢串,要求使用的內(nèi)存不能超過(guò)1G。

   好。首先想暴力解決下,看看內(nèi)存夠不夠。大約255X10^8B內(nèi)存,2.4G的樣子。。超內(nèi)存了。。汗。。300萬(wàn),那就是0.8G,剛剛好。很自然的,我們可以想到,如果每次向內(nèi)存讀一個(gè)字符串,然后把那個(gè)字符串出現(xiàn)的次數(shù)和字符串存起來(lái),這樣,就可以在不超過(guò)1G的情況下搞定。編程珠璣上面有這道題目的int版本,大概就是問(wèn)10億個(gè)整數(shù)(從1到10億,缺一個(gè)),不超過(guò)多少內(nèi)存,要求最快找出缺少的數(shù)。那個(gè)題目也是利用hash的思想,不過(guò)它的hash函數(shù)就是它自己就是了。開(kāi)一個(gè)10億比特的內(nèi)存,然后把flag[num]設(shè)置一下,最后再統(tǒng)計(jì)一下。好吧,這個(gè)題目是不是可以利用類似的思想呢?好吧,hash吧。
   hash算法的基本步驟是:把數(shù)據(jù)存放到key(data[i])里面。如此簡(jiǎn)單。就是建立data[i]和i的映射關(guān)系,然后利用數(shù)組可以隨機(jī)訪問(wèn)的特點(diǎn),使得在O(1)的時(shí)間復(fù)雜度再次找到數(shù)據(jù)(理想情況,可能沖突)!hash最直接的利用就是lookup table,查找表。建立一個(gè)hash表,然后可以進(jìn)行快速查找。(如果出現(xiàn)訪問(wèn)沖突怎么辦呢?大致分為兩種辦法:開(kāi)散列和閉散列。開(kāi)散列就是找到了這個(gè)位置被別人占了,好,找個(gè)規(guī)則換地方。閉散列就是這個(gè)地方被別人站著,我跟在他后面(鏈表)。高深的玩意研究不懂,MARK之,以后慢慢看)。
   hash解決此題:網(wǎng)上找一個(gè)字符串hash函數(shù)看看先(看不懂,直接用。哪位大神可以告訴我為什么或者詳細(xì)資料??)。建立一個(gè)空的hash表,每次讀一個(gè)字符串。找到這個(gè)字符串的key(就是用hash函數(shù)對(duì)它XXX),返回一個(gè)位置。看看那個(gè)位置是不是被別人占了。如果被別人占了,我就往后走,直到找到一個(gè)空位子。坐下。當(dāng)然這個(gè)過(guò)程也許會(huì)找到和自己一樣的,那樣就把它的訪問(wèn)次數(shù)+1。好了,hash表建好了,里面有300萬(wàn)個(gè)字符串,每一個(gè)字符串的搜索次數(shù)也統(tǒng)計(jì)出來(lái)了。
   問(wèn)題完成了第一步。
  第二部是,統(tǒng)計(jì)TOP K字符串。這個(gè)。。可以排個(gè)序,qsort,O(N*logN),太挫了。果斷用個(gè)小頂堆,把復(fù)雜度降到O(N*log(K)),K 很小,這個(gè)很劃算啊。
  關(guān)于堆的問(wèn)題就不詳細(xì)闡述了,實(shí)現(xiàn)簡(jiǎn)單(siftdown(int),siftup(int)),目的明確(取最值,增加刪除元素)。下面是測(cè)試的代碼。當(dāng)然我沒(méi)有那么大的數(shù)據(jù)量,寫的代碼也僅供測(cè)試之用。
 
#include <stdio.h>
#include 
<string.h>
#define MAXN 47
#define NUM 10

typedef 
struct
{
  
char str[256];
  
int time;
}
node;

node data[MAXN];

node heap[NUM];
//小頂堆
int hcount = 0;

void swap(node& a,node& b)
{
     node tmp;
     tmp 
= a;
     a 
= b;
     b 
= tmp;
}



void siftdown(int i)
{
   
int minst = i;
   
if(2*i<=hcount&&heap[i].time>heap[2*i].time)
     minst 
= 2*i;
    
if(2*i+1<=hcount&&heap[minst].time>heap[2*i+1].time)
     minst 
= 2*i+1;
    swap(heap[i],heap[minst]);          
    
if(i!=minst)
    
{
      siftdown(minst);        
    }
   
}


void siftup(int i)
{
   
while(heap[i].time<heap[i/2].time)
   
{
     swap(heap[i],heap[i
/2]);
     siftup(i);     
   }

}


void pop()
{
   
if(hcount<=0)
     
return;
   swap(heap[
1],heap[hcount]);
   hcount
--;
   siftdown(
1);      
}


void add(node n)
{
  
if(hcount<NUM)
   
{
     data[hcount
++= n;
     siftup(hcount);
     
return;
   }

  
if(heap[0].time<n.time)
   
{
     pop();
     data[hcount
++= n;
     siftup(hcount);
     
return;
   }

}


int strhash(char* str)
{
   
//BKDRHash
   int seed = 131;
   
int hash = 0;
   
   
while(*str)
   
{
      hash 
= hash *seed + (*str++);
   }

   
return (hash & 0x7FFFFFFF);
}


void init()
{
  
int i;
  
for(i=0;i<MAXN;i++)
     data[i].time
=-1;
}


void solve()
{
   
int i;
   
for(i=0;i<MAXN;i++)
   
{
     
if(data[i].time>=0)
     
{
    add(data[i]);    
     }
 
   }

  
//輸出heap   
  for(i=0;i<NUM;i++)
  
{
    printf(
"%s %d\n",data[i].str,data[i].time);
  }

}


int main()
{
   init();
   
int index;
   
char str[256];
   freopen(
"in.txt","r",stdin);
   freopen(
"out.txt","w",stdout);
   
while(scanf("%s",str)!=EOF)
   
{
      index 
= strhash(str);
      index 
= index%MAXN;
      
//找一個(gè)沒(méi)放的或者和它相同的
      while(data[index].time != -1 && strcmp(data[index].str,str) != 0
      
{
         index
++;
         index
%=MAXN;
      }

      
if(data[index].time == -1)
      
{
         strcpy(data[index].str,str);
         data[index].time 
= 1;
      }

      
else
      
{
         data[index].time
++;
      }

   }

 
#include <stdio.h>
#include 
<string.h>
#include 
<stdlib.h>
#define DEBUG
#define MAXN 7997997


typedef 
struct _node
{
  
int num;
  
int time;
  
struct _node* next;
}
node;

node zhash[MAXN],fhash[MAXN];

int A[5000],B[5000],C[5000],D[5000];

void init(int n)
{
int i;
  
for(i=0;i<n;i++
  
{
   zhash[i].time 
= -1;
   fhash[i].time 
= -1;
   zhash[i].next 
= NULL;
   fhash[i].next 
= NULL;
  }

}


void insert(int num)
{
   node
* h;
   
if(num >= 0)
     h 
= zhash;
   
else
     h 
= fhash;
 
   
int index = abs(num)%MAXN;
   
if(h[index].time==-1)
   
{
      h[index].time 
= 1;
      h[index].num 
= num;
   }

  
else
   
{
      node
* p = &h[index];
      
while(p!=NULL && p->num!=num)
        p 
= p->next;
      
if(p != NULL)
      
{
        p
->time++
      }

      
else
      
{
        p 
= (node*)malloc(sizeof(node));
        p
->num = num;
        p
->time = 1;
        p
->next =NULL;
      }

   }

}


int getres(int num)
{
   node
* h;
   
if(num <= 0)
     h 
= zhash;
   
else
     h 
= fhash;
   
   
int index = abs(num)%MAXN;
   
   node
* p = &h[index];
   
while(p!=NULL && p->num!=(num*(-1)))
   
{
     p 
= p->next;
   }

   
if(p == NULL)
     
return 0;
   
else
     
return p->time;
}


int main()
{
   
int i,j,count,res=0,tmp;
   scanf(
"%d",&count);
   init(MAXN);
   
for(i=0;i<count;i++)
   
{
     scanf(
"%d%d%d%d",&A[i],&B[i],&C[i],&D[i]);     
   }

   
for(i=0;i<count;i++)
    
for(j=0;j<count;j++)
     
{
        tmp 
= A[i]+B[j];
        insert(tmp);
     }


   
for(i=0;i<count;i++)
     
for(j=0;j<count;j++)
     
{
        tmp 
= C[i]+D[j];
        res 
+= getres(tmp);
     }

     printf(
"%d\n",res);
   #ifdef DEBUG
     scanf(
"%d",&i);
   
#endif
   
return 0;
}

 solve();
  
return 0;
}

繼續(xù)hash算法。
其實(shí)本來(lái)是想搞ACM的hash的,苦于各種找不到資料。
POJ2785。http://poj.org/problem?id=2785
下面代碼沒(méi)AC。
題目自己看吧,思路是正數(shù)一個(gè)hash表,負(fù)數(shù)一個(gè)hash表,然后把O(N^4)復(fù)雜度搞成O(N^2)。上面玩的是開(kāi)散列。下面是閉散列。無(wú)代碼規(guī)范代碼。

posted on 2011-11-15 19:57 bigrabbit 閱讀(6011) 評(píng)論(4)  編輯 收藏 引用

評(píng)論

# re: hash初步[未登錄](méi) 2011-11-17 11:51 遠(yuǎn)行
頂  回復(fù)  更多評(píng)論
  

# re: hash初步 2011-11-18 16:42 jc_ontheroad
先頂一下。  回復(fù)  更多評(píng)論
  

# re: hash初步 2011-11-20 14:00 春秋十二月
對(duì)于關(guān)鍵字為字符串類型的散列函數(shù),其本質(zhì)和整數(shù)模散列差不多,對(duì)7位acsii碼的字符串,先把它轉(zhuǎn)到對(duì)應(yīng)的整數(shù),比如"abcd",對(duì)應(yīng)的整數(shù)為97*128^3+98*128^2+99*128^1+100(128為基數(shù)),考慮到字符串長(zhǎng)度,上面的公式計(jì)算的結(jié)果可能會(huì)溢出,因此根據(jù)mod函數(shù)的性質(zhì)及霍納算法,可以改進(jìn)為:((((((97%M)*128+98)%M)*128+99)%M)*128+100)%M,你的strhash實(shí)現(xiàn)是累加求和,131為因子,最終結(jié)果再取31位而得散列值,而131、31都是素?cái)?shù),素?cái)?shù)有處于減少?zèng)_突。  回復(fù)  更多評(píng)論
  

# re: hash初步 2011-11-20 18:34 bigrabbit
@春秋十二月
原來(lái)ELFhash做的是這個(gè)事情。。。請(qǐng)問(wèn)有沒(méi)有什么關(guān)于hash深入一些全面一些的資料?  回復(fù)  更多評(píng)論
  


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。
網(wǎng)站導(dǎo)航: 博客園   IT新聞   BlogJava   博問(wèn)   Chat2DB   管理


青青草原综合久久大伊人导航_色综合久久天天综合_日日噜噜夜夜狠狠久久丁香五月_热久久这里只有精品
  • <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>
            欧美一进一出视频| 这里只有精品丝袜| 欧美国产日本高清在线| 欧美一级二级三级蜜桃| 亚洲午夜一级| 亚洲天堂久久| 午夜精品视频网站| 久久国内精品自在自线400部| 国产精品手机在线| 欧美资源在线| 欧美理论电影网| 久久久久在线观看| 欧美日韩三区| 免费亚洲婷婷| 欧美www视频| 欧美特黄一级大片| 久久久免费精品| 欧美日韩在线一二三| 久久精品国产一区二区三区免费看| 久久免费视频观看| 亚洲欧美在线视频观看| 欧美激情精品久久久久久免费印度| 亚洲欧美一区二区三区在线| 美女成人午夜| 六十路精品视频| 国产日韩欧美在线播放| 一二美女精品欧洲| 一本久久综合亚洲鲁鲁| 欧美18av| 欧美成人午夜激情在线| 国内精品免费午夜毛片| 欧美一区二区三区四区在线观看地址| 日韩视频―中文字幕| 欧美电影免费观看网站| 中文av字幕一区| 亚洲国产一区视频| 久久久国产午夜精品| 好吊日精品视频| 欧美sm视频| 欧美美女bb生活片| 亚洲欧美日韩天堂一区二区| 免费观看一级特黄欧美大片| 欧美成人一品| 亚洲欧美韩国| 在线精品视频免费观看 | 欧美专区在线观看一区| 红桃视频成人| 欧美午夜不卡| 卡通动漫国产精品| 一区二区三区回区在观看免费视频 | 久久久精彩视频| 韩国v欧美v日本v亚洲v| 亚洲欧美电影院| 久久www免费人成看片高清| 在线日韩视频| 欧美国产三级| 日韩午夜在线播放| 先锋影音久久久| 亚洲国产欧美在线| 国产精品激情偷乱一区二区∴| 亚洲影视在线| 欧美成人小视频| 午夜精品网站| 亚洲人成啪啪网站| 国产精品视频在线观看| 欧美电影资源| 亚洲素人一区二区| 亚洲第一级黄色片| 久久国产精品电影| 亚洲国产裸拍裸体视频在线观看乱了中文| 亚洲高清久久久| 老巨人导航500精品| 一区二区三区**美女毛片| 亚洲欧美日本精品| 欧美一区精品| 亚洲欧美国产77777| 亚洲国产黄色片| 影音先锋日韩资源| 国产日韩精品一区二区浪潮av| 久久久久久久久久久久久女国产乱| 91久久久在线| 久久全球大尺度高清视频| 亚洲午夜激情在线| 日韩网站免费观看| 亚洲黄色片网站| 欧美va亚洲va香蕉在线| 久久aⅴ国产紧身牛仔裤| 亚洲精品乱码视频| 最新亚洲视频| 日韩香蕉视频| 一本色道久久| 午夜久久tv| 久久视频一区| 久久人体大胆视频| 久久视频这里只有精品| 欧美激情视频给我| 亚洲二区在线| 亚洲三级视频在线观看| 亚洲精品欧美激情| 香蕉久久久久久久av网站| 久久九九精品| 亚洲欧洲日本国产| 午夜日韩在线观看| 免费看的黄色欧美网站| 国产精品高清网站| 国内精品国产成人| 99国产一区| 久久一本综合频道| 99视频有精品| 巨胸喷奶水www久久久免费动漫| 欧美日韩精品在线视频| 国产一区二区精品久久99| 亚洲国产一区二区三区在线播| 一本色道久久综合亚洲精品按摩| 欧美一区二区三区四区在线 | 欧美一二三视频| 久久精品国产成人| 亚洲欧美春色| 亚洲男人影院| 欧美日韩专区| 亚洲深夜福利在线| 91久久亚洲| 久久久久久久性| 亚洲综合成人婷婷小说| 欧美电影资源| 91久久精品国产91久久| av成人免费观看| 亚洲免费一级电影| 久久国产精品第一页| 久久精品国产亚洲精品| 久久久久这里只有精品| 麻豆精品传媒视频| 欧美www在线| 中文亚洲字幕| 久久久久99| 欧美色图天堂网| 国产精品成人免费| 国产午夜精品一区二区三区欧美 | 亚洲自拍三区| 久久精品最新地址| 亚洲国产色一区| 亚洲少妇最新在线视频| 欧美在线亚洲一区| 美女网站在线免费欧美精品| 国产精品国产三级国产aⅴ无密码| 国产精品一区久久久久| 亚洲欧洲日产国产网站| 亚洲一本视频| 欧美多人爱爱视频网站| 国产一区二区三区在线观看免费 | 欧美在线观看一二区| 久久亚洲欧美国产精品乐播| 欧美日韩视频在线第一区| 国产精品久久久久国产a级| 亚洲午夜视频在线| 久久激情网站| 国产伦精品一区二区三区照片91| 尤物精品国产第一福利三区| 一本色道久久加勒比88综合| 欧美中文在线观看| 国产精品久久久久久av下载红粉| 99riav国产精品| 亚洲美女在线视频| 免费人成精品欧美精品| 国产午夜一区二区三区| 国产精品免费观看在线| 亚洲性感美女99在线| 日韩视频免费观看高清在线视频| 亚洲视频导航| 中文在线资源观看网站视频免费不卡| 美女脱光内衣内裤视频久久网站| 亚洲国产精品成人精品| 玖玖视频精品| 免费一级欧美在线大片| 日韩一级大片在线| 免费视频久久| 欧美巨乳在线观看| 欧美一区二区黄色| 性做久久久久久免费观看欧美| 国产精品一区二区三区久久 | 久久久综合免费视频| 欧美日韩午夜视频在线观看| 欧美与欧洲交xxxx免费观看 | 国产一区二区三区黄| 欧美日韩亚洲一区二区| 久久精品色图| 欧美激情综合网| 欧美一区二区三区久久精品茉莉花| 欧美中文字幕精品| 亚洲国产一二三| 亚洲欧美在线网| 亚洲三级免费电影| 欧美一级成年大片在线观看| 欧美激情欧美狂野欧美精品| 一区二区三区波多野结衣在线观看| 久久精品二区| 欧美不卡一区| 亚洲一区三区电影在线观看| 欧美色图一区二区三区| 午夜精品在线|