请教各位高手!去页面所有标签!然后去掉只留内容!
我现在面临的困难是:现在别人给我一段代码(以html代码为例),此段代码含有比较多的标签属性:例如 有如下代码片段:
<body>
  <h1>hello</h1>  
  <table name="tbName" border="1">
     <tr id="trId">
         <td>Cotent</td>
     </tr>
  </table>
</body>
我这是要获取其中的
    <body>
    <h1>
    </h1>
    <table name="tbName" border="1">
    <tr id="trId">  
    <td>
    </td>
    </tr>
    </table>
    </body>
取出来这些标签之后再把这些标签去掉!也就是使之为空,只留其中的内容部分!有哪位高手有好的方法给与指教!小弟非常感激!
------解决方案--------------------str.replaceAll("<.?*>","");
------解决方案--------------------用正则应该可以,html,wml形式都差不多
Java code
 Pattern p = Pattern.compile("<[^>]+>|</[^>]+>",Pattern.CASE_INSENSITIVE );
 String htmlContent = "...<body>.....</body>..." 
 Matcher m = p.matcher(htmlContent);
 String content = m.replaceAll("");