版權(quán)聲明:可以任意轉(zhuǎn)載,轉(zhuǎn)載時(shí)請(qǐng)務(wù)必以超鏈接形式標(biāo)明文章原始出處和作者信息及本聲明
http://www.chedong.com/tech/study.html
關(guān)鍵詞: google Open Source Gnu search 工具箱 學(xué)習(xí) E-learning
內(nèi)容摘要:
Google的使用如此重要, O"Reilly有本專門的書介紹了如何優(yōu)化網(wǎng)站面向Google的設(shè)計(jì),和使用Google的一些技巧:
http://www.oreilly.com/catalog/googlehks/ 這里我很想把以前遇到類似問題時(shí)在Google上尋找資料的思路和大家分享一下:
足夠“多”的特征關(guān)鍵詞是快速定位的關(guān)鍵
有朋友問我:在
如果用戶理解了使用更多的關(guān)鍵詞可以更快的定位到所需要的信息這一點(diǎn)的話,那么每次查詢時(shí)用戶使用的關(guān)鍵詞個(gè)數(shù)就反映了用戶的搜索引擎使用水平,根據(jù)在1997年,英語國(guó)家的用戶平均每次上網(wǎng)查詢鍵入2.1個(gè)單詞,歐洲其他國(guó)家為1.5個(gè)單詞;到1999年,英語國(guó)家是2.7個(gè)單詞,歐洲國(guó)家是2個(gè)單詞。英語國(guó)家用戶的經(jīng)驗(yàn)值要領(lǐng)先其他國(guó)家將近1年半的時(shí)間。中文搜索引擎也將經(jīng)歷一個(gè)用戶經(jīng)驗(yàn)值逐漸提高的過程。 
從中我們可以想象在互聯(lián)網(wǎng)資源的使用水平上中國(guó)和國(guó)際先進(jìn)水平的差距。
提高搜索結(jié)果質(zhì)量的途徑:使用英文專業(yè)術(shù)語、文件類型過濾、專業(yè)站點(diǎn)站內(nèi)搜索
2000年1月,Excite公司的科學(xué)家對(duì)全球約6.4億的Internet網(wǎng)頁進(jìn)行了語言認(rèn)證,發(fā)現(xiàn)其中英文信息內(nèi)容占了71%,而日文是6.82%、德文是5.08%、法文是 1.75%、中文則為1.52%。如此豐富多彩的英文海量數(shù)據(jù)庫,勢(shì)必吸引著英語國(guó)家的上網(wǎng)用戶不斷應(yīng)用搜索引擎去尋找那些有價(jià)值的信息內(nèi)容。使用英文專業(yè)術(shù)語:學(xué)會(huì)把自己的問題翻譯成英文后再查最近一次經(jīng)歷是找一個(gè)Linux應(yīng)用的安裝文檔,但用中文關(guān)鍵詞搜出的內(nèi)容大部分很多都很舊,甚至有基于RedHat5.2的,而且絕大部分只是的把臺(tái)灣開發(fā)人員寫的繁體板HOWTO轉(zhuǎn)成了簡(jiǎn)體中文,此外,由于一些計(jì)算機(jī)名次中文名稱的翻譯不一致也限制了搜索結(jié)果的數(shù)量和質(zhì)量。所以目前來說,質(zhì)量比較高的仍然基于是相應(yīng)領(lǐng)域英文關(guān)鍵詞的搜索。比如,我在解決Perl源代碼格式美化的過程中學(xué)到了 indent,pretty print和source code beatufier這些術(shù)語。通過這些關(guān)鍵詞,也方便我找到了其他開發(fā)語言的代碼格式美化工具。
文件類型過濾:
Google有對(duì)PDF, Word(Power Point, Excel), PS文檔的索引能力,由于這種文檔的內(nèi)容比一般的HTML經(jīng)過了更多的整理,學(xué)術(shù)價(jià)值一般比較高,所以這些類型的文檔天生就比一般的HTML類型的文檔 PageRank要高。可以通過"filetype:pdf keywords"這種格式過濾返回結(jié)果的文件類型,從而提高搜索結(jié)果的質(zhì)量。
利用站內(nèi)搜索減小搜索范圍:
如果某個(gè)站點(diǎn)的結(jié)果數(shù)很多,Google會(huì)類聚成2條,并可以通過“www.example.com 站內(nèi)的其它相關(guān)信息”執(zhí)行站內(nèi)檢索,在查詢的命令中其實(shí)就是"site:www.example.com keywords",所以很多時(shí)候可以進(jìn)一步通過站內(nèi)檢索將搜索結(jié)果限制在某些專業(yè)站點(diǎn)的范圍內(nèi),這樣很多問題的資料往往可以從其官方站點(diǎn)的FAQ或郵件列表HTML歸檔中查到。
此外Google本身也有按操作系統(tǒng)分類的主題搜索入口:
http://www.google.com/linux
http://www.google.com/bsd
http://www.google.com/mac
http://www.google.com/microsoft
我的猜測(cè):Google其實(shí)是針對(duì)有相應(yīng)內(nèi)容的WEB站點(diǎn)根據(jù)其服務(wù)器進(jìn)行了類聚,要知道關(guān)于Office的內(nèi)容如果跑在Linux服務(wù)器的 Apache上那么很有可能是OpenOffice,而關(guān)于Office 2000的文檔項(xiàng)目肯定是跑在Windows服務(wù)器的IIS上的多。
BUG反饋/改進(jìn)意見也是一種非常有價(jià)值的勞動(dòng)
首先,如果發(fā)現(xiàn)了問題一定要進(jìn)行主動(dòng)的反饋:有朋友問我說他以前早就遇到過類似的問題,說明Resin在CPU比較慢的機(jī)器上自動(dòng)啟動(dòng)這個(gè)問題應(yīng)該是比較普遍了,但為什么一致沒有作為BUG提交上去呢?
其次,如果找到了解決方法,千萬不要為自己的一點(diǎn)小技巧沾沾自喜,像在Java 編程技術(shù)中漢字問題的分析及解決這篇文章中提到的那個(gè)的高手那樣,雖然他自己知道了通過Hacking Servert包的源文件解決中文字符集問題的方法,如果這真是一個(gè)正確的思路為什么不作為一個(gè)議程直接提交給JCP呢?
所以我在找到解決Resin自動(dòng)啟動(dòng)這個(gè)問題以后,在相應(yīng)的BUG跟蹤報(bào)告中提交了自己的方法,如果以后的版本中有了改進(jìn),大家安裝使用中可以少考慮一個(gè)問題不是更好嗎。(雖然這個(gè)方法最后沒有被采納),有時(shí)候在反饋過程中你也許會(huì)發(fā)現(xiàn)讓別人接受你的建議其實(shí)更難。尤其在中文支持問題上:但如果中文用戶自己不主動(dòng)反饋,以后很多的設(shè)計(jì)中就會(huì)繼續(xù)忽略中文用戶的一些特殊需求。
事實(shí)上無論是BUG提交還是改進(jìn)意見,對(duì)于軟件的進(jìn)步都是一種非常有價(jià)值的。雖然目前國(guó)內(nèi)還沒有很多人直接參與開源軟件的開發(fā),但通過以上這些方式積極的參與也是在為開源軟件加油。
更主動(dòng)的反饋莫過于像Blogger一樣的主動(dòng)表達(dá):把你的理解和想法通過互聯(lián)網(wǎng)傳播出去,由于在表達(dá)和交流過程中同時(shí)你也總結(jié)提煉了自己的思想,所以“教授他人其實(shí)正是一個(gè)非常好的學(xué)習(xí)過程”。
GNU的“工具箱”哲學(xué):?jiǎn)栴}的分解
雖然常常發(fā)現(xiàn)自己碰到的很多問題在國(guó)外幾年前就有人遇到過了,而且往往能通過Google找到大量相關(guān)資源。而且類似需求非常多的話,往往還會(huì)有很多 Open Source的解決方案發(fā)布在
SourceForge.netApache.org上。
但也不要指望所有問題都能夠直接在互聯(lián)網(wǎng)上找到答案,因?yàn)閺?fù)雜問題本身的解決有可能利用其他一些工具組合解決完成的。比如:我在解決
多臺(tái)服務(wù)器之間的日志合并統(tǒng)計(jì)過程中找到的Apache的日志輪循工具cronolog,在
OutLook Express郵件的HTML歸檔過程中找到的mbx2mbox+mhonarc,以及在
CVS的常用工具整理過程中找到的大量?jī)?yōu)秀應(yīng)用等。
GNU很推崇“工具箱”哲學(xué):因?yàn)楹芏鄰?fù)雜的問題都可以通過幾個(gè)更簡(jiǎn)單的工具通過一定的組合加以解決的。而Perl往往就是粘合這些優(yōu)秀工具的“膠水語言”。這也是為什么Perl(或者說Perl的哲學(xué))是任何一個(gè)程序員都因該學(xué)習(xí)并掌握的語言。
如果一個(gè)問題在Google上也找不到,有時(shí)候反思一下是不是自身需求本身的問題,因?yàn)橹挥泻侠淼男枨笫前l(fā)展的源動(dòng)力:如果你發(fā)現(xiàn)提出需求目前很多系統(tǒng)中不支持,說明我們對(duì)其設(shè)計(jì)目標(biāo)理解不夠深入或者對(duì)問題的復(fù)雜度缺乏正確的估計(jì)造成的。比如:MySQL早期版本中沒有外鍵和事務(wù)處理的支持,CVS沒有文件的鎖定機(jī)制,但事實(shí)上經(jīng)過很長(zhǎng)時(shí)間的實(shí)踐證明:這些功能并非必需,而且沒有這些功能系統(tǒng)也是“夠用”的,而且是高效的。
總結(jié)
- 畢竟搜索引擎只是幫助我們把“模糊的”人類語言轉(zhuǎn)換成立了計(jì)算機(jī)比較擅長(zhǎng)的“精確”匹配,因此往往需要使用一些真正能夠幫助去其他信息區(qū)分開的特征關(guān)鍵詞(不僅是多)才能夠把自己真正需要的資源比較高效的提煉出來;
- 而返回的結(jié)果不可能達(dá)到非常完美的程度,所以有時(shí)候除了一些技巧外,還是需要我們自己從頭幾十條比較相關(guān)的結(jié)果中進(jìn)行一下歸納總結(jié)。“搜索= =>總結(jié)==>再搜索……”,我想基于搜索引擎的學(xué)習(xí)基本上就是這么一個(gè)不斷提煉過程吧;
- 如果直接找不到問題的答案就想辦法把問題分解,如果還找不到,就反思一下自己的需求是否合理;
- 把自己的經(jīng)驗(yàn)通過互聯(lián)網(wǎng)加以總結(jié),反饋和推廣,網(wǎng)志W(wǎng)eblog是一個(gè)不錯(cuò)的手段,善于把你的觀點(diǎn)共享給別人;
相關(guān)資源:
Google搜索幫助
http://www.google.com/help/
NEC Research Institute CiteSeer
http://citeseer.nj.nec.com
The Apache Software Foundation
http://www.apache.org/
GNU項(xiàng)目
http://www.gnu.org
各種開源項(xiàng)目資源
http://sourceforge.net
http://freshmeat.net