日期:2014-05-18  浏览次数:20526 次

爬虫程序提取页面问题!!!!
我用爬虫程序得到了一个HTML页面,如下: 
  <html > 
  <head > 
  <META HTTP-EQUIV="Refresh" CONTENT="0;url=geren.asp;charset=gb2312" > 
  </head > 
  </html > 
现在我想获取geren.asp页面,该如何处理,请各位高手给点意见!

------解决方案--------------------
spiders
有3个URL列表的

等待列表,已搜列表,正在搜得列表

从正在搜列表里取1个地址开始抓网页,把该网页所有地址存在一个等待LIST里面(首先检查有没有重复地址并和已搜列表对比)

通过解析页面HTML得到URL地址,如:geren.asp

获取这个页面就是用SPIDER 抓 当前URL/geren.asp