2007/9-2007/12: 知識問答搜索項目
角色:項目經理/規(guī)劃/技術設計/開發(fā) 人員:4位工程師 系統(tǒng)平臺:FreeBSD pc server 開發(fā)語言和相關技術:Java, Lucene, Hadoop
2007年9月至12月,帶領5位同事負責研發(fā)知識搜索平臺,吸取了Lucene/Hadoop/Nutch開源項目的優(yōu)點,設計并開發(fā)一套已擴展的搜索平臺,并在它基礎上設計并開發(fā)智能型搜索項目知識搜索,此搜索平臺也同時應用于多個中小型垂直搜索產品中。在此項目中同時運用了一些極限編程思想來管理項目過程。
2007/5-2007/6: 網絡字典1.0優(yōu)化項目
角色:技術設計/開發(fā) 人員:3位工程師 系統(tǒng)平臺:FreeBSD pc server 開發(fā)語言和相關技術:Vespa, C/C++, Perl, Java
參與網絡字典項目組改進其索引和檢索性能和相關性等。
2006/10-2007/1: Hadoop小組及應用項目
角色:小組組長/規(guī)劃/應用項目設計開發(fā) 人員:6位工程師 均part-time 系統(tǒng)平臺:Redhat Linux, 5 pc server 開發(fā)語言和相關技術:Java, Hadoop
2006年8月2008年1月,任引擎研究小組組長,并負責與US同事合作并加入開源的hadoop項目,承擔部分任務,同時負責公司hadoop cluster的建設及其應用的推廣支持等。后期負責公司Vespa搜索引擎的源碼研究以及多重索引改造工作,編寫了其完整的索引結構和檢索技術文檔。
這段時間在負責本部門team的工作同時,開始任領導要求成立并負責hadoop小組虛擬團隊,與6位不同部門同事與US團隊合作參與hadoop項目研發(fā)。在前期工作進行比較順利,并成功建立了2個測試用cluster并完成幾個應用項目。后期由于需要投入更多硬件資源和公司的戰(zhàn)略變化等原因不得不擱置最后暫停了本項目。本人希望能通過此項目深入理解分布式計算,并有實際應用。
2007/2-2007/5: Vespa搜索引擎多重索引研究項目
角色:項目經理/規(guī)劃/設計開發(fā) 人員:2位工程師 + 2位工程師part-time 系統(tǒng)平臺:FreeBSD pc server 開發(fā)語言和相關技術:C/C++, Vespa , Word segmentation and YWS
另外一個項目就是負責一個4人小組研究公司vespa搜索引擎源碼,并且進行多重索引改造和測試等研究,同時完成部分引擎技術文檔和培訓。不僅對vespa的架構有了更充分認識,對其索引結構和檢索算法也有了更深入理解。此項目的同時本人還在研究lucene源碼,并想完成一個系列文章貼在自己blog上,與同道中人交流,還在進行中,本人希望能盡快更深入地理解搜索引擎技術以及在學習智能檢索,人工智能等方向有所成效。
2006/6-2006/12: 網頁搜索拼寫糾錯2.0項目
角色:項目經理/總體設計/基礎代碼設計開發(fā) 人員:3位工程師 系統(tǒng)平臺:FreeBSD pc server 開發(fā)語言和相關技術:C++, Php/extension, perl, Java, Hadoop
2006年3月至12月,帶領6位新同事負責相關搜索和拼寫糾錯等產品,大部分是剛畢業(yè)學生,對自己有一定挑戰(zhàn),做了多種工作方式調整并如期成功發(fā)布了新版相關搜索和全新開發(fā)的拼寫糾錯產品,質量和穩(wěn)定性都達到了國內領先水平。 這段時間的主要工作除了培養(yǎng)新人,具體的項目一個就是開發(fā)相關搜索3.0和4.0,重點解決成人詞識別等問題,并加入了詞性識別,同時完善了詞典管理工具等,使得相關搜索更加成熟。拼寫糾錯是另一個全新開發(fā)的系統(tǒng),包括拼寫糾錯和拼音推薦兩個模塊,此新版本在US同事設計的算法基礎下進行全新設計和開發(fā),本人劃分了幾個獨立模塊:詞典管理和搜索基礎框架模塊,拼寫糾錯模塊,拼音推薦模塊,管理系統(tǒng)模塊等與二位同事協(xié)同開發(fā),并第一次使用hadoop系統(tǒng)挖掘網絡日志計算出同現(xiàn)頻率等詞庫,同時開發(fā)出高效的詞庫批量review工具和批量測試工具,使得項目在預計時間內按質按要求成功完成并一次上線成功,一直穩(wěn)定運行至今。
2005/12-2006/12: 網頁搜索相關搜索2.0項目
角色:項目經理/總體設計/代碼設計開發(fā) 人員:4位工程師+1位工程(臺灣)+1位架構師(美國) 系統(tǒng)平臺:FreeBSD pc server 開發(fā)語言和相關技術:C++, Php/extension, perl, Vespa Search Engine
2005年12月,接手相關搜索項目,并任項目經理負責全新架構的相關搜索的設計和開發(fā),與國內外三地工程師聯(lián)合開發(fā),項目如期上線并達到了國內同類產品前列,并創(chuàng)新加入多種技術如query分析,Re-rank等。 本人接手第一個項目是相關搜索1.0,由于在一些詞的相關性方面與國內大搜索引擎公司還有較大差距,所以2.0重點解決相關性問題。本人首先熟悉目前系統(tǒng)的架構和檢索算法,并考察競爭對手的特點,得出幾條主要的不足之處,最重要的是中心詞識別問題,1.0版本在這方面改進較少,所以重點分析加入了中心詞識別技術,大大提高了相關性。另一個重點問題是數(shù)據(jù)量加大后的檢索效率問題,新版本引入了更先進的vespa搜索引擎平臺,使得2.0在各方面都有了很大提高,并成為網頁搜索內部最重要的PV來源之一。 |