日期:2014-05-17  浏览次数:22395 次

C#正则表达式获取<p>标签的内容
[code=HTML][/code]
<P>日&nbsp; 期:<BR>一、热点事件概述<BR>二、网络舆情关注度分析<BR> &nbsp;&nbsp; 1. 各类媒体报道趋势分析<BR> &nbsp;&nbsp; 2. 微博关注度分析<BR> &nbsp;&nbsp; 3. 各类媒体报道情况排行<BR>三、舆情发展态势评估<BR></P>
<TABLE border=1>
<TBODY>
<TR>
<TD>标题</TD>
<TD>倾向性</TD>
<TD>点击量</TD>
<TD>发布时间</TD></TR>
<TR>
<TD>大庆 小区门口附近的步道板上隐藏 陷人坑</TD>
<TD>负面</TD>
<TD>78</TD>
<TD>2012-9-13 4:06:08</TD></TR></TBODY></TABLE><IMG src="E:\dfldSummarize201209019\dfldSummarize201209011\dfldSummarize\dfldSummarize\bin\Debug\1\56-68-0-3-0.JPG">

我只要p标签内容,内容里面有<br>转换成换行,&nbsp转换成空格。求高手帮忙。。。

------解决方案--------------------
Regex.Match(s,@"(?is)<p>(.*?)</p>").Groups[1].Value

替换就不必说了吧
------解决方案--------------------
string FilterHtmlP(string html)
{
Regex rReg = new Regex(@"<P>[\s\S]*?</P>", RegexOptions.IgnoreCase);
string pContent = rReg.Match(html).Value;
pContent = Regex.Replace(pContent, @"<(.[^>]*)>", "", RegexOptions.IgnoreCase);
pContent = Regex.Replace(pContent, @"&(nbsp|#160);", " ", RegexOptions.IgnoreCase);

return pContent;
}
------解决方案--------------------
C# code

  string source="html源码";
  Regex Reg = new Regex(@"(?is)(?<=<P>).*?(?=</P>)", RegexOptions.IgnoreCase);
  string Content = Reg.Match(source).Value;
  Content = Regex.Replace(Content, @"(?i)(<BR>|&nbsp;)", "", RegexOptions.IgnoreCase);