日期:2014-05-16  浏览次数:20547 次

linux下部署nutch-1.2

转载:转自?linux下部署nutch-1.2

?

Nucth 配置

1.准备工作

VMware Workstation虚拟机

Linux操作系统镜像实例使用红帽社区的centos

Java Jdk包,实例使用jdk-6u23-linux-i586.bin包:备注不要下载安装jdk-6u23-linux-i586-rpm.bin包会导致tomcat无法启动

Tomcat 服务器实例采用apache-tomcat-6.0.29.tar.gz

Nutch 包,实例采用apache-nutch-1.2-bin.zip包

2.开始部署

2.1安装linux系统

现在虚拟机中安装好centos镜像,直到进入linux操作界面为止。

上传所用的包到linux系统~/tmp目录下,~表示用户目录

启动linux控制台,

2.2.安装jdk

?

#cd  ~/tmp

#chmod a+x  jdk-6u23-linux-i586.bin

#sh jdk-6u23-linux-i586.bin

#mkdir /usr/java

#mv jdk1.6.0_23  /usr/java/
?

?

配置用户环境变量

?

#vi ~/.bash_profile

#java

export JAVA_HOME=/usr/java/jdk1.6.0_23

export CLASSPATH=.:/usr/java/jdk1.6.0_23/lib:/usr/java/jdk1.6.0_23/jre/lib:$CLASSPATH

#path

export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH

#source  ~/.bash_profile
?

?

测试

?

#java –version
?

?

输出

java version "1.6.0_23"

Java(TM) SE Runtime Environment (build 1.6.0_23-b05)

Java HotSpot(TM) Client VM (build 19.0-b09, mixed mode, sharing)

Jdk安装成功

2.3.配置nutch创建索引

?

#unzip apache-nutch-1.2-bin.zip

#mv nutch-1.2  /opt/

#cd /opt/nutch-12
?
#vim conf/crawl-urlfilter.txt
?
# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

?改为

?

?

# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*sina.com.cn/
?

?

?

#vim conf/nutch-site.xml

?

<configuration>
	<property>
		<name>http.agent.name</name>
		<value>HD nutch agent</value>
	</property>
	<property>
		<name>http.agent.version</name>
		<value>1.0</value>
	</property>
</configuration>    
?

?

?

?

#cd bin
#mkdir urls
?

?

?