喜爱网络爬虫的进-Java教程-爱易网页

喜爱网络爬虫的进

日期：2014-05-20　浏览次数：21139 次

喜欢网络爬虫的进
前几天做了一个和简陋的网络爬虫爬一个网站某个栏目的正文，由于那个网站的链接是有规律的所以就把要爬取网页用数组保存起来，在通过正则匹配等过滤掉不要的。但是稍微知道爬虫的都知道，爬虫的网页不是内存的，是一个个爬取，然后放入数组，接着对放入的网址进行爬取，找了一本书，在网上也找到相关资料，不过也没有搞懂，大牛们可否指点一二。很想完善这个简陋的爬虫，谢谢啦

爬虫网络爬虫正则

------解决方案--------------------
是不是用ThreadPoolExecutor
------解决方案--------------------

引用:

Quote: 引用:

前几天做了一个和简陋的网络爬虫爬一个网站某个栏目的正文，由于那个网站的链接是有规律的所以就把要爬取网页用数组保存起来，在通过正则匹配等过滤掉不要的。但是稍微知道爬虫的都知道，爬虫的网页不是内存的，是一个个爬取，然后放入数组，接着对放入的网址进行爬取，找了一本书，在网上也找到相关资料，不过也没有搞懂，大牛们可否指点一二。很想完善这个简陋的爬虫，谢谢啦
忘了说重点就是说对于爬取的网址放入数组，然后进行爬取，但是爬取的网页还有链接，放哪里呢？还放在原来的数组还是怎么样？谢谢啦

还需要一个全局的数组用来存放你已经爬取过的页面的url地址（为了避免爬取到重复的页面：url消重），对于爬取的网页还有连接，这些链接在一一经过判断没被爬取过后再加入你说的数组里面，然后不断的从这个数组里面取出url链接来处理
------解决方案--------------------
有趣，正在学习

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

喜爱网络爬虫的进

相关资料更多>

推荐阅读更多>