日期:2014-05-17  浏览次数:20998 次

网页标签内中文字符的正则表达匹配问题
标签形如
HTML code
            <p class="w490"> 网页标签内中文字符的正则表达匹配问题
            </p>

我需要匹配在<p>标签内的中文。
自己写的是
Python code
ur'''<p class="w490">(.*?)/n</p>'''

结果是空。

我以为是中文编码问题,但如果匹配
HTML code
            
<a href="http://forum.csdn.net/">程序员论坛</a>


差不多写的是
Python code
ur'''<a href="http://www.douban.com/">(.*?)</a>'''

能够得到匹配到“程序员论坛”这个结果……

有高手能告之下吗?

------解决方案--------------------
探讨

已经自行解决……

Python code
list = re.findall(ur'''<p\s*[^>]*>([^<]*)<\/p>''',content)


随便来个人回复下,我给分结贴了