日期:2014-05-20  浏览次数:20601 次

请教关于nutch定时抓取网页的问题
环境:windows+cygwin(用于模拟unix系统)+nutch1.0 

要用于生产环境。


当我抓取完网页以后,启动tomcat,输入关键字搜索网页后,那么我再次运行nutch抓取网页的时候就会报错!
当我把tomcat关闭以后抓取网页就没有任何问题。后来我仔细查了一下是因为tomcat启动后占用了nutch的索引文件而没有释放资源造成的。 也就是说在tomcat启动的时候,nutch是不能抓取网站合并索引的。

在生产环境下,要求每一个小时就要增量抓取一次,我总不能把tomcat关了吧。

在生产环境下,这个问题应该怎么解决呢?

多谢了!



------解决方案--------------------
帮顶 以免沉下去了