日期:2014-05-17  浏览次数:20901 次

如何过滤掉采集到源文件中的非文字标签?
在一个表单中输入一个网址,得到了该网址的源文件,我只过滤掉了其中的HTML标记,但里面的样式表(eg:body{margin:4px   0   4px   0;}img{border:0}td,p{font-size:12px}   等不知如何过滤掉)请各位大侠指点.

------解决方案--------------------
你可以先把采集来的页面里想要得到的东西先取出来也就是先,先把BODY之间的东西取出来,这样就不会把样式的取到了,然后再慢慢过滤