日期:2014-05-16  浏览次数:20416 次

怎样用正则表达式提取网页文本
比如其中一段如下:
//--------------------------------
<tr>
<td   height= '2 '   colspan= '2 '> </td>
</tr>
<tr>
<td   colspan= '2 '> 办理护照延期须提供如下材料:
<P> 1、提供本人所持中国护照原件及其资料页的复印件;   </P>
<P> 2、交二寸证件照片一张;   </P>
<P> 3、填写“中 <A   class=keylink   href= "http://www.chuguo.cn/info/stationsearch.aspx?key=华人&amp;ddl=-1&amp;ddlcountry=-1 "   target=_blank> <FONT   color=#0000ff> 华人 </FONT> </A> 民共和国护照/旅行证/海员证/回国证明申请表”一份;   </P>
<P> 4、交验获准在加拿大居留、工作或学习的证件(如:PERMANENT   RESIDENT   CARD、WORK   PERMIT、STUDY   PERMIT)原件并提供其复印件; </P>
<P> 5、获加拿大永久居民身份满3年且尚未领取枫叶卡者,还须提供未入加拿大国籍的证明。此证明可向下列地址申请:   <BR> CITIZENSHIP   AND   IMMIGRATION   CANADA   <BR> CASE   PROCESSING   CENTER   SYDNEY   <BR> P.   O.   BOX   7000   SYDNEY,   NOVA   SCOTIA   B1P   6V6   <BR> </P> <IFRAME     ID= 'google5 '   src= '/include/google5.htm '   frameborder= '0 '   scrolling= 'no '   width= '480 '   height= '70 '> </IFRAME> </td>
</tr>
//-------------------
如何提取出里面的纯文本内容,不含标签。

------解决方案--------------------
<textarea name=textarea1>
//--------------------------------
<tr>
<td height= '2 ' colspan= '2 '> </td>
</tr>
<tr>
<td colspan= '2 '> 办理护照延期须提供如下材料:
<P> 1、提供本人所持中国护照原件及其资料页的复印件; </P>
<P> 2、交二寸证件照片一张; </P>
<P> 3、填写“中 <A class=keylink href= "http://www.chuguo.cn/info/stationsearch.aspx?key=华人&amp;ddl=-1&amp;ddlcountry=-1 " target=_blank> <FONT color=#0000ff> 华人 </FONT> </A> 民共和国护照/旅行证/海员证/回国证明申请表”一份; </P>
<P> 4、交验获准在加拿大居留、工作或学习的证件(如:PERMANENT RESIDENT CARD、WORK PERMIT、STUDY PERMIT)原件并提供其复印件; </P>
<P> 5、获加拿大永久居民身份满3年且尚未领取枫叶卡者,还须提供未入加拿大国籍的证明。此证明可向下列地址申请: <BR> CITIZENSHIP AND IMMIGRATION CANADA <BR> CASE PROCESSING CENTER SYDNEY <BR> P. O. BOX 7000 SYDNEY, NOVA SCOTIA B1P 6V6 <BR> </P> <IFRAME ID= 'google5 ' src= '/include/google5.htm ' frameborder= '0 ' scrolling= 'no ' width= '480 ' height= '70 '> </IFRAME> </td>
</tr>
//-------------------

</textarea>
<script>
var str=textarea1.value;
str=str.replace(/ <[^> ]*?> /ig, " ");
alert(str);
</script>

------解决方案--------------------
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
※以下是引用楼主 younkersoft(younkersoft) 在2007-05-07 16:06:18 的发言:
──────────────────────────────────────────
就是想求出取
" <tr> <td height= '2 ' colspan= '2 '> </td> </tr> <tr> <td colspan= '2 '> "

" <IFRAME ID= 'google5 ' src= '/include/google5.htm ' frameborder= '0 ' scrolling= 'no ' width= '480 ' height= '70 '> </IFRAME> </td> </tr> "
之间内容的一个正则表达式
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
<textarea id= "Text ">
测试用的干扰字符
<tr>
<td height= '2 ' colspan= '2 '> </td>
</tr>
<tr>
<t