日期:2014-05-20  浏览次数:20630 次

喜欢网络爬虫的进
前几天 做了一个和简陋的网络爬虫 爬一个网站某个栏目的正文,由于那个网站的链接是有规律的所以就把要爬取网页用数组保存起来,在通过正则匹配等过滤掉不要的。但是稍微知道爬虫的都知道,爬虫的网页不是内存的,是一个个爬取,然后放入数组,接着对放入的网址进行爬取,找了一本书,在网上也找到相关资料,不过也没有搞懂,大牛们可否指点一二。很想完善这个简陋的爬虫,谢谢啦 
爬虫 网络爬虫 正则

------解决方案--------------------
是不是用ThreadPoolExecutor
------解决方案--------------------
引用:
Quote: 引用:

前几天 做了一个和简陋的网络爬虫 爬一个网站某个栏目的正文,由于那个网站的链接是有规律的所以就把要爬取网页用数组保存起来,在通过正则匹配等过滤掉不要的。但是稍微知道爬虫的都知道,爬虫的网页不是内存的,是一个个爬取,然后放入数组,接着对放入的网址进行爬取,找了一本书,在网上也找到相关资料,不过也没有搞懂,大牛们可否指点一二。很想完善这个简陋的爬虫,谢谢啦 
忘了说重点 就是说 对于爬取的网址放入数组,然后进行爬取,但是爬取的网页还有链接,放哪里呢?还放在原来的数组还是怎么样?  谢谢啦  


还需要一个全局的数组用来存放你已经爬取过的页面的url地址(为了避免爬取到重复的页面:url消重),对于爬取的网页还有连接,这些链接在一一经过判断没被爬取过后再加入你说的数组里面,然后不断的从这个数组里面取出url链接来处理
------解决方案--------------------
有趣,正在学习