日期:2014-05-17  浏览次数:20818 次

java 爬取动态页面信息
小弟学习用httpclient爬取网页信息,发现有些动态页面右键查看源码的时候,在html中看不到显示的数据信息,而只有很多的function(),请问如果从动态页里面爬取想要的数据信息?

------解决方案--------------------
一般是找到这些数据是哪里来的
1 是直接动态语言写到页面的某个function中,可以取到这个function的字符串形式来解析数据
2 大多数的页面都是通过一个另外的请求(包含ajax)来获取数据,通过网络监测工具可以看到发包的具体过程.直接模拟请求这个数据地址就行

需要你能对js了解多一些,可以知道页面的任意一部分数据源自哪里