1、安裝 JDK 8 以上版本,
ORACLE,需要設置環境變量JAVA_HOME; 下載安裝Mvnen,
down maven,將mvn路徑加入到環境變量Path
2、下載并安裝Elasticsearch 5.2.2,
elastic.co ,版本必須是5.2.2,不要選最新的。
3、安裝ansj-elasticsearch插件,
github;這里不需要編譯安裝,直接下載插件
進入Elasticsearch目錄運行如下命令 ./bin/elasticsearch-plugin install https://github.com/NLPchina/elasticsearch-analysis-ansj/releases/download/v5.2.2/elasticsearch-analysis-ansj-5.2.2.0-release.zip
運行Elasticsearch
4、安裝Tomcat 8,
Apache Tomcat,安裝路徑中不能有空格,最好是英文目錄
5、下載本項目源碼包
spider main/src/resource/staticvalue.json 配置文件, 將 needEs 配置項改為true
main/src/resource/mvc-dispatcher-servlet.xml 配置文件,找到輸出源配置項,按照下面進行配置:
<property name="pipelineList">
<list>
<ref bean="commonWebpagePipeline"/>
<!--<ref bean="jsonFilePipeline"/>-->
</list>
</property>
這樣的配置就是不再向Json文件進行輸出,而將數據輸出至ES進行存儲.
執行 mvn package 編譯打包
6、將spider.war放入Tomcat下面的webapp文件夾
運行tomcat
7、安裝
phantomjs,然后下載腳本https://raw.githubusercontent.com/gsh199449/spider/master/ajaxDownloader/phantomjs_fetcher.js。
建議將此腳本放在phantomjs的bin目錄下。需要注意的是,phantomjs需要安裝在不包含空格和中文的路徑下。
安裝完畢之后,使用phantomjs啟動此腳本即可,啟動時需要帶一個端口參數,建議值:7788.啟動命令:
phantomjs.exe phantomjs_fetcher.js 7788 如果ajax渲染器與采集平臺不在同一臺機器或者不使用此端口(7788),需要在src/resource/staticvalue.json 配置文件中修改。
8、localhost:8080/spider進入數采頁面(需要啟動
Elasticsearch、tomcat、phantomjs)
注意:Elasticsearch版本必須是5.2.2,tomcat的安裝目錄必須不能有空格。