• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            Javen-Studio 咖啡小屋

            http://javenstudio.org - C++ Java 分布式 搜索引擎
            Naven's Research Laboratory - Thinking of Life, Imagination of Future

              C++博客 :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
              24 隨筆 :: 57 文章 :: 170 評論 :: 4 Trackbacks

                  Hawk 搜索引擎平臺是面向中小型網站,可以定制的垂直搜索引擎平臺。本搜索引擎平臺
            目標是方便用戶搭建站內搜索、某個領域的垂直搜索、以及檢索個人文檔以及自己關注的
            網站信息的桌面搜索等應用領域。它改造自Lucene/Hadoop/Nutch系統,是純Java的搜索平臺軟件,
            可以運行于Windows及Linux等平臺。目前發布版本為初始版本Hawk-0.4.35-test版,具備基本的
            抓取、索引和檢索功能,本搜索引擎將免費提供,歡迎大家測試和使用,謝謝!
                  下一個版本將實現可根據語法以及新詞進行分詞的分詞模塊,以及抓取數據的過濾及優化,
            索引的消重等方面,以實現可以應用于實際在線產品的版本。
                  下面介紹本搜索引擎的使用和演示版本

                  1, 下載和安裝
                  a. 請下載Java運行環境,推薦Java SE 1.6版本
                  b. 下載Hawk-0.4.35-test(稍后提供,謝謝)
                  c. 解壓:tar -zxf hawk-0.4.35-test.tar.gz
                  d. 假設Hawk已被解壓到 ~/hawk-0.4.35 目錄,以下敘述以 $HAWK表示

                  2, 配置
                  a. 將Java運行環境的bin目錄添加到系統PATH環境變量中,同時修改$HAWK/conf/hawk-env.sh
            文件設置正確的Java路徑。備注:Java缺省會安裝在/usr/java目錄下
                  b. 也可以將hawk解壓后目錄 $HAWK/bin 添加到PATH環境變量中,方便啟動和停止Hawk服務。
                  c. 修改 $HAWK/conf/hawk-site.xml 文件中的“search.dir”的值為索引數據存放路徑,如
            <property>
              <name>searcher.dir</name>
              <value>/tmp/hawkdb</value>
            </property>

                  d. Hawk系統服務會綁定若干個端口,請查看$HAWK/conf/site.xml,酌情修改

                  3, 訪問
                  a. 啟動Hawk服務:運行 $HAWK/bin/start-hawk.sh 和 $HAWK/bin/start-server.sh 腳本
                  b. 訪問Hawk管理界面(缺省端口為20090),例如:http://localhost:20090/

                  4, 抓取網頁
                  a.  編輯一個文本文件,錄入要抓取網站地址,并放入一個獨立的目錄中,
            如:vi /tmp/test/urls.txt 錄入 http//www.sina.com.cn

                  b. 執行命令:$HAWK/bin/hawk crawl /tmp/test/ -depth 2 (指定抓取深度為2層網頁)

                  
                  c. 點擊管理界面上方的“任務”按鈕,可以監控任務的執行情況,如下

                   d. 完成后控制臺顯示如下所示:


                  5,檢索網頁

             

                  a. 在管理界面的搜索框中輸入要檢索的關鍵詞,點擊“搜索”按鈕,即可查詢到上面
            抓取的網頁,如下所示:


                  到此基本介紹完了搜索引擎平臺的使用步驟,由于還未完成分詞等模塊,所以相關性還不
            盡入如人意,敬請期待,謝謝!


                  作者:naven  2008-02-20
            posted on 2008-02-21 01:29 Javen-Studio 閱讀(850) 評論(3)  編輯 收藏 引用

            評論

            # re: Hawk-0.4.35開發版搜索引擎平臺發布 2008-02-25 10:21 Puserchen
            期待下面的舉措!  回復  更多評論
              

            # re: Hawk-0.4.35開發版搜索引擎平臺發布 2008-03-04 02:44 Connor
            Hello,

            I am Connor Avery and I am interested in your search alot.
            I am Ceo of Crystal Productions and I am offering you the chance to come work alongside me?

            E-Mail me: cjavo@hotmail.co.uk

            Note: I translated this page by google, I do not speak chineese.  回復  更多評論
              

            # re: Hawk-0.4.35開發版搜索引擎平臺發布 2008-03-04 10:21 Javen-Studio
            To Connor, Thanks for your interested in my project, Sorry I dosent plan to go abroad in the near future, but I will persist in this project. thanks for your invitation.  回復  更多評論
              

            久久精品国产99国产精品导航 | 久久精品国产亚洲αv忘忧草| 国产偷久久久精品专区| 久久露脸国产精品| 久久久久四虎国产精品| 久久成人精品视频| 亚洲国产精品久久久久久| 精品国产91久久久久久久| 久久99国产综合精品免费| 亚洲国产一成人久久精品| 色欲综合久久中文字幕网| 国产高潮国产高潮久久久| 国产精品99久久久久久人| 久久精品国产男包| 亚洲av日韩精品久久久久久a| 久久香蕉超碰97国产精品| 国产精品一区二区久久不卡| 久久综合亚洲欧美成人| 国产成人久久精品区一区二区| 久久婷婷五月综合色奶水99啪| 国产69精品久久久久777| 久久精品国产久精国产| 久久99久久成人免费播放| 久久综合精品国产一区二区三区| 久久综合视频网| 久久亚洲中文字幕精品有坂深雪| 久久综合欧美成人| 亚洲国产成人久久一区WWW| 日产精品99久久久久久| 久久九九有精品国产23百花影院| 久久久精品久久久久久| 亚洲AV日韩精品久久久久久| 国产精品综合久久第一页| 久久亚洲精品无码VA大香大香| 久久97精品久久久久久久不卡| 久久AⅤ人妻少妇嫩草影院| 亚洲色欲久久久综合网东京热| 91超碰碰碰碰久久久久久综合| 亚洲熟妇无码另类久久久| 国产精品青草久久久久福利99| 久久久久久午夜成人影院|