日期:2014-05-17  浏览次数:20722 次

正则页面内容匹配
比如:http://news.sina.com.cn/c/2013-06-26/115227502792.shtml

匹配它的标题和里面的内容。

正则

------解决方案--------------------
标题 (?i)<h1[^>]*?id=(['""]?)artibodyTitle\1[^>]*?>(?<Title>[^<>]*?)</h1>
去分组 Groups["Title"].value

内容 (?i)<div[^>]*?id=(['""]?)artibody\1[^>]*?>[\s\S]*?<p>\s*?(?<Content>[^<>]*?)\s*?</p>[\s\S]*?</div>

去分组 Groups["Content"].value
------解决方案--------------------
1、
string patternTitle=@"(?is)<h1[^>]*?id=""artibodyTitle""[^>]*?>(?<Title>.*?)</h1>";
取Groups.Groups["Title"].Value



2、
string patternContent=@"(?is)<div[^>]*?id=""artibody""[^>]*?>[\s\S]*?<p>(?<Content>.*?)</p>[\s\S]*?</div>";
取Groups.Groups["Content"].Value