正则表达式解析html中的href标记的所有格式急该如何解决-ASP.NET教程-爱易网页

正则表达式解析html中的href标记的所有格式急该如何解决

日期：2014-05-18　浏览次数：20506 次

正则表达式解析html中的href标记的所有格式急!!急!!急!!
本人想解析出html中的href标记的所有格式和 <a> </a> 之间的文本标题:
例如: <a href= ' '> fff </a> 或者是 <a href= " "> fff </a> 或者是 <a href=> fff </a>
以上是我能想到的连接的格式了,我想用正则表达式解析出
href的连接地址,还有 <a> </a> 之间的文本标题,例子中的fff
请问这个正则表达式应该怎么写啊!急

------解决方案--------------------
interStr=@ "(? <= <a [^> ]*> ).*(?= </a> ) ";
------解决方案--------------------
string s = "........... ";

Regex re = new Regex(@ " <a[^> ]*href=( " "(? <href> [^ " "]*) " "| '(? <href> [^ ']*) '|(? <href> [^\s> ]*))[^> ]*> (? <text> .*?) </a> ", RegexOptions.IgnoreCase | RegexOptions.Singleline);
Match m = re.Match(s);
if (m.Success)
{
string link = m.Groups[ "href "].Value;
string text = Regex.Replace(m.Groups[ "text "].Value, " <[^> ]*> ", " ");
Console.WriteLine( "link:{0}\ntext:{1} ", link, text);
}
------解决方案--------------------
try

string yourStr = ..........;
MatchCollection mc = Regex.Matches(yourStr, @ " <a[^> ]*href=([ ' " "]?)(? <url> [^ ' " "> \s]*)\1?[^> ]*> (? <text> [^ <]*) </a> ", RegexOptions.IgnoreCase);
foreach (Match m in mc)
{
Response.Write(m.Groups[ "url "].Value + " <br> ");
Response.Write(m.Groups[ "text "].Value + " <br> ");
}
------解决方案--------------------
如果 <a...> 和 </a> 之间可能有其它html标签，那正则改成下面的

MatchCollection mc = Regex.Matches(yourStr, @ " <a[^> ]*href=([ ' " "]?)(? <url> [^ ' " "> \s]*)\1?[^> ]*> (? <text> [\s\S]*?) </a> ", RegexOptions.IgnoreCase);

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

正则表达式解析html中的href标记的所有格式急该如何解决

相关资料更多>

推荐阅读更多>

正则表达式解析html中的href标记的所有格式 急该如何解决

相关资料更多>

推荐阅读更多>

正则表达式解析html中的href标记的所有格式急该如何解决