• <ins id="pjuwb"></ins>
    <blockquote id="pjuwb"><pre id="pjuwb"></pre></blockquote>
    <noscript id="pjuwb"></noscript>
          <sup id="pjuwb"><pre id="pjuwb"></pre></sup>
            <dd id="pjuwb"></dd>
            <abbr id="pjuwb"></abbr>

            Benjamin

            靜以修身,儉以養(yǎng)德,非澹薄無以明志,非寧靜無以致遠。
            隨筆 - 398, 文章 - 0, 評論 - 196, 引用 - 0
            數(shù)據(jù)加載中……

            數(shù)據(jù)采集搜索平臺 Gather Platform(網(wǎng)絡爬蟲)在win10部署

            1、安裝 JDK 8 以上版本, ORACLE,需要設置環(huán)境變量JAVA_HOME; 下載安裝Mvnen,down maven,將mvn路徑加入到環(huán)境變量Path
            2、下載并安裝Elasticsearch 5.2.2, elastic.co ,版本必須是5.2.2,不要選最新的。
            3、安裝ansj-elasticsearch插件, github;這里不需要編譯安裝,直接下載插件
                 進入Elasticsearch目錄運行如下命令 ./bin/elasticsearch-plugin install https://github.com/NLPchina/elasticsearch-analysis-ansj/releases/download/v5.2.2/elasticsearch-analysis-ansj-5.2.2.0-release.zip
                 運行Elasticsearch
            4、安裝Tomcat 8, Apache Tomcat,安裝路徑中不能有空格,最好是英文目錄
            5、下載本項目源碼包  spider
                   main/src/resource/staticvalue.json 配置文件, 將 needEs 配置項改為true
                   main/src/resource/mvc-dispatcher-servlet.xml 配置文件,找到輸出源配置項,按照下面進行配置:
                 <property name="pipelineList">
                     <list>
                         <ref bean="commonWebpagePipeline"/>
                         <!--<ref bean="jsonFilePipeline"/>-->
                     </list>
                 </property>
                  這樣的配置就是不再向Json文件進行輸出,而將數(shù)據(jù)輸出至ES進行存儲.
                  執(zhí)行 mvn package 編譯打包
            6、將spider.war放入Tomcat下面的webapp文件夾
                 運行tomcat
            7、安裝phantomjs,然后下載腳本https://raw.githubusercontent.com/gsh199449/spider/master/ajaxDownloader/phantomjs_fetcher.js。
                 建議將此腳本放在phantomjs的bin目錄下。需要注意的是,phantomjs需要安裝在不包含空格和中文的路徑下。 
                 安裝完畢之后,使用phantomjs啟動此腳本即可,啟動時需要帶一個端口參數(shù),建議值:7788.啟動命令:phantomjs.exe phantomjs_fetcher.js 7788
                 如果ajax渲染器與采集平臺不在同一臺機器或者不使用此端口(7788),需要在src/resource/staticvalue.json 配置文件中修改。
            8、localhost:8080/spider進入數(shù)采頁面(需要啟動Elasticsearch、tomcat、phantomjs)

            注意:Elasticsearch版本必須是5.2.2,tomcat的安裝目錄必須不能有空格。

            posted on 2019-01-05 21:40 Benjamin 閱讀(838) 評論(0)  編輯 收藏 引用 所屬分類: 雜談

            亚洲AV日韩AV天堂久久| 国内精品久久国产大陆| 久久这里只精品99re66| 亚洲国产另类久久久精品| 国产精品久久久久久搜索| 亚洲中文字幕伊人久久无码| 亚洲欧美日韩中文久久| 国产精品免费久久久久影院 | 日本精品久久久久中文字幕8| 久久久无码精品亚洲日韩软件| 青草国产精品久久久久久| 色综合久久88色综合天天| 亚洲欧美成人综合久久久| 久久福利片| 91久久精品国产91性色也| 777午夜精品久久av蜜臀| 久久久久女教师免费一区| 97热久久免费频精品99| 亚洲精品无码久久久久sm| 久久久免费观成人影院| 国产精品xxxx国产喷水亚洲国产精品无码久久一区 | 国产精品伊人久久伊人电影 | 亚洲?V乱码久久精品蜜桃 | 国内精品欧美久久精品| 久久久久久久综合日本亚洲| 亚洲人成伊人成综合网久久久| 欧美亚洲另类久久综合婷婷 | 伊人久久亚洲综合影院| 久久精品不卡| 久久综合九色欧美综合狠狠 | 国产精品一区二区久久 | 久久综合久久性久99毛片| 亚洲国产精品人久久| 香蕉久久一区二区不卡无毒影院| 久久亚洲精精品中文字幕| 久久国产精品成人片免费| 久久久久亚洲AV片无码下载蜜桃| 伊人久久大香线焦AV综合影院 | 国产亚洲精久久久久久无码AV| 亚洲国产精品久久久久| 久久99精品久久久久久噜噜|