日期:2014-05-17  浏览次数:20490 次

关于C#正则采集网站内容的问题
例如:我想采集这个页面news.csdn.net  的文章列表的链接怎么弄?

这个是我网上百度了一下随便查查看试验了一下貌似不对

Regex regexCSDN = new Regex(@"<div class=""unit""><h1><a href=""(?<Content>\\w+) target=""_blank"" >");


应该是正则写的不对,求大神指点,正则就记得验证一些基本的数据而已。

------解决方案--------------------
试试 可能你的正则里面没有匹配换行
(?i)<div[^>]*?class=(['""]?)unit\1[^>]*?>\s*?<h1>\s*?<a[^>]*?href=(['""]?)(?<Content>[^'""]*?)\2[^>]*?>