日期:2014-05-18  浏览次数:20578 次

请教各位高手!去页面所有标签!然后去掉只留内容!
我现在面临的困难是:现在别人给我一段代码(以html代码为例),此段代码含有比较多的标签属性:例如 有如下代码片段:
<body>
 <h1>hello</h1> 
 <table name="tbName" border="1">
  <tr id="trId">
  <td>Cotent</td>
  </tr>
 </table>
</body>
我这是要获取其中的
  <body>
  <h1>
  </h1>
  <table name="tbName" border="1">
  <tr id="trId"> 
  <td>
  </td>
  </tr>
  </table>
  </body>
取出来这些标签之后再把这些标签去掉!也就是使之为空,只留其中的内容部分!有哪位高手有好的方法给与指教!小弟非常感激!

------解决方案--------------------
str.replaceAll("<.?*>","");
------解决方案--------------------
用正则应该可以,html,wml形式都差不多
Java code

 Pattern p = Pattern.compile("<[^>]+>|</[^>]+>",Pattern.CASE_INSENSITIVE );
 String htmlContent = "...<body>.....</body>..." 
 Matcher m = p.matcher(htmlContent);
 String content = m.replaceAll("");