日期:2014-05-16  浏览次数:20664 次

linux下如何配置分布式检索

1、确保这台机子上已经安装了tomcat.
2、把nutch-1.2/nutch-1.2.war拷贝到$TOMCAT_HOME/webapps.
3、进入$TOMCAT_HOME/webapps/WEB-INF/classes.
?? 3.1 配置nutch-site.xml
?????? <property>
?????? ??? ? <name>http.agent.name</name>
??? ? <value>nutch-1.0</value>
??? ? <description>HTTP 'User-Agent' request header.</description>
?????? </property>
?????? <property>
??? ? <name>searcher.dir</name>
??? ? <value>/opt/hadoop/51crawl< alue>
??? ? <description>Path to root of crawl.</description>
?????? </property>
?? 3.2、配置hadoop-site.xml
?????? <property>
????????? <name>fs.default.name</name>
????????? <value>hdfs://192.168.9.170:9080</value>
????????? <description> </description>
?????? </property>
?????? 这个配置很重要,主要是通过RPC链接到HDFS上,路径:hdfs://192.168.9.170:9080/opt/hadoop/51crawl ,然后做检索。
?? 3.3、配置master
?????? 这里面写上你hadoop运行的master即可。
?? 3.4、配置slave
?????? 这里面写上你hadoop运行的slave即可。
4、启动tomcat
总结:在单机上配置和分布式配置唯一的区别是在多了一步hadoop-site.xml。