日期:2014-05-20  浏览次数:20604 次

爬虫提取网页上的数据
爬虫提取网页上的数据 谢谢,重谢,有解决方法马上结贴

------解决方案--------------------
首先你得先控制你要截取的东西.标题,内容,,作者...
然后你得根据不同的网站定义不同的截取方法,,必然xx网的标题前是<div class=title>这是标题</div>
那么你的标题截取就应该从<div class=title>开始....</div>结束...其实爬虫就是一个过滤的过程,,
看你如何过滤了
------解决方案--------------------
网络爬虫,不停的在网络上爬,然后建立索引你搜索的时候是到索引库中去找的,直接根绝关键词找到相应的索引.

兴趣可以看一下Lucene(Java的,相应的有Lucene.NET)
------解决方案--------------------
是做搜索还是采集
搜索用LUCENE
采集用HTTPCLIENT
------解决方案--------------------
java有个htmlPase类可以很方便的操作网页数据
给你个地址 自己看吧
http://hi.baidu.com/shenxiaolei_it/blog/item/bd41f3fb78f913126d22eb50.html
------解决方案--------------------
http://www.locoy.com/locoy/2008/0123/down-55.html这是一个很好的采集器..你可以下下来用用..看看人家是怎么做的
jf..
jf
jf
jf.......................