日期:2014-05-20  浏览次数:20692 次

网页抓取怎么除去注释
网站抓取来源比较多,有些网站会在部分页面不定期加上不同的注释,导致抓取结果里面包含了代码,如果统一将注释去掉?求解决方案
java

------解决方案--------------------
str.replaceAll("<!--.*?-->", "");

------解决方案--------------------
str.replaceAll("<!--.*?-->", "");
试试这个
------解决方案--------------------
楼主想去掉"<!-- -->",可以用楼上两位的代码
------解决方案--------------------
str.replaceAll("<!--.*?-->", "");