爬虫提取网页上的数据,该如何解决-Java教程-爱易网页

爬虫提取网页上的数据,该如何解决

日期：2014-05-20　浏览次数：21092 次

爬虫提取网页上的数据
爬虫提取网页上的数据谢谢,重谢,有解决方法马上结贴

------解决方案--------------------
首先你得先控制你要截取的东西.标题,内容,,作者...
然后你得根据不同的网站定义不同的截取方法,,必然xx网的标题前是<div class=title>这是标题</div>
那么你的标题截取就应该从<div class=title>开始....</div>结束...其实爬虫就是一个过滤的过程,,
看你如何过滤了
------解决方案--------------------
网络爬虫,不停的在网络上爬，然后建立索引你搜索的时候是到索引库中去找的，直接根绝关键词找到相应的索引.

兴趣可以看一下Lucene(Java的，相应的有Lucene.NET)
------解决方案--------------------
是做搜索还是采集
搜索用LUCENE
采集用HTTPCLIENT
------解决方案--------------------
java有个htmlPase类可以很方便的操作网页数据
给你个地址自己看吧
http://hi.baidu.com/shenxiaolei_it/blog/item/bd41f3fb78f913126d22eb50.html
------解决方案--------------------
http://www.locoy.com/locoy/2008/0123/down-55.html这是一个很好的采集器..你可以下下来用用..看看人家是怎么做的
jf..
jf
jf
jf.......................

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

相关资料更多>

怎么用DAO自动生成函数向数据库插入数据？persist merge等

struts1+hibernate+spring如何调用Oracle函数

如果一个错误发生，但一个合适的错误处理都没有找到，那么会发生什么

关于Android用移动2G网络访问WebService的有关问题

关于JSP和JS传值的一些有关问题

爬虫提取网页上的数据,该如何解决

相关资料更多>

推荐阅读更多>