最近也不知道在干什么,每天沒精打采的,寫點(diǎn)代碼,有時(shí)候是垃圾代碼,有時(shí)候精妙的代碼,呵呵可是不是我的原創(chuàng)從
HACKER'S DELIGHT上copy來的東西,至于想干什么,我自己現(xiàn)在都有點(diǎn)不知道。究竟該去讀書,還是繼續(xù)上班也沒個(gè)定數(shù),反正心里很亂。要盡快下個(gè)決定,時(shí)間不等人!
最近在做數(shù)據(jù)挖掘中的web usage mining,關(guān)于apache
log的東西,準(zhǔn)備這次用C寫了,惡心的java,感這種事情就是瘋子的想法,我上次的一個(gè)相關(guān)性分析和聚類的模型使用Java寫的,讓我惱火至極,可能
我比較懶學(xué)不好Java的思想,還是寫C,寫匯編比較好玩,呵呵,我還是比較擅長(zhǎng)和機(jī)器打交道,不適合和人說話,呵呵因?yàn)镺O太像人類說話的思維了,沒有
機(jī)器的那種優(yōu)美的感覺,要是匯編高手的話,就會(huì)有和“尤尼5號(hào)”談話的感覺,很早的一部機(jī)器人電影了,感覺非常的好,呵呵,可能Java然我感覺不到我在
控制計(jì)算機(jī),感覺不到控制一堆破銅爛鐵硅,所以我學(xué)不好Java吧,不過,存在就是合理的,Java的確很優(yōu)秀,以后也要好好學(xué)習(xí)一下。
做Web log
mining的時(shí)候現(xiàn)在最大的問題就是運(yùn)算效率,現(xiàn)在數(shù)據(jù)量小,要是以后的log數(shù)據(jù)每天上了幾百GB,呵呵,幾百GB的文本的有多少行,呵呵至少是分文
件的,不過就算是10GB的文本操作起來,統(tǒng)計(jì)起來,挖掘起來也是個(gè)要命的事情,而且極其要命,這個(gè)和在學(xué)校做實(shí)驗(yàn)不一樣,在學(xué)校做實(shí)驗(yàn)可能50行的數(shù)據(jù)
就算不錯(cuò)了,根本不會(huì)去考慮那么大的數(shù)據(jù),現(xiàn)在不同了,在公司要做東西,唉,上班是很無聊的事情,還是那句話真想去讀Ph.D,而且是數(shù)學(xué)Ph.D、計(jì)算
機(jī)Ph.D一起讀,朕相信自己能力!
web log
mining的paper看了不少,但是做的很牛的公司卻不知道都在干什么,比如google一定也在做,不過分析什么東西就不知道了,手段更是不得而
知,天曉得他們?cè)趺聪氲模戳艘欢裵aper,照著paper寫代碼呵呵這可真是一種挑戰(zhàn)。從國(guó)外到國(guó)內(nèi)大家分析的都是那一點(diǎn)東西,key
page,權(quán)威頁面,訪問統(tǒng)計(jì),URL聚類,URL關(guān)聯(lián),etc……不過這些東西寫起來還真的是更像實(shí)驗(yàn)品而不能夠做成產(chǎn)品,呵呵,究竟什么是產(chǎn)品,老子
也不知道,反正每天聽一幫傻逼談?wù)摰念^頭是道,那天聽見他們說:
產(chǎn)品@#¥……%&……#%@&,
操作系統(tǒng)¥%#……!@&*(#……,
算法&……#%*!@&*(¥!,
挖掘&*……#@)(*,
web OS&
*(……#&*#@,靠,都是瘋子,什么叫做狗屁不懂,什么叫半吊子,老子見識(shí)了。我雖然學(xué)的不好,但我不出來到處亂講啊,就是認(rèn)真學(xué)就是了。可
是他們,明明沒學(xué)過也能瞎他媽的胡編亂造的叭叭,真讓我哭笑不得。那天聽見一個(gè)驚天之語:“算法就是做小學(xué)應(yīng)用題的東西”。哇哈哈哈,笑的我真不想在說什
么了,這也太搞了吧,操,一群不學(xué)無術(shù)的家伙!!