日期:2014-05-17  浏览次数:20392 次

采集问题。。。琢磨了半天,无从下手。
这是在某个网页用正则抓取到的内容:

<a href='13174.htm' target=_blank>001</a><a href='13175.htm' target=_blank>002</a><a href='11633.htm' target=_blank>0215</a><a href='11664.htm' target=_blank>0215F</a>

这只抓取到的内容,然后用正则:
C# code
Regex.Match(Str, "<a href='(?<x2>.*?)' target=_blank>(?<x>.*?)</a>", options).Groups["x"].Value;


只默认取到第一个<a > </a>之间的内容,后面的无法写入数据库,该咋整来着了? 现在?

------解决方案--------------------
搜一下 HtmlAgilityPack 超强大的C#分析HTML利器 用正则很复杂的东西用了这个之后轻松不少!!