日期:2014-05-16  浏览次数:20929 次

libc下的regcomp
regcomp(&r, "href=\ "[0-9a-zA-Z#;@_:=/&%\+\?\.\-]+\ " ",   REG_EXTENDED   |   REG_ICASE);

上面编译的正则表达式是用来提取html页面源代码里的href链接的,可以用regcomp编译通过;
但是其实我不想像href= "mailto: "和href= "javascript: "这类的href,所以又把正则表达式改了一下:

regcomp(&r, "href=\ "(?!mailto:|javascript:)[0-9a-zA-Z#;@_:=/&%\+\?\.\-]+\ " ",   REG_EXTENDED   |   REG_ICASE);

这是这下用regcomp就编译不通过,好像是不支持(?!mailto:|javascript:)这样的表达式,那么请问我该如何提取开头不包含mailto和javascript的href?

------解决方案--------------------
先提取href後的,再自己分析好了,