python模块引见- HTMLParser 简单的HTML和XHTML解析器-HTML教程-爱易网页

python模块引见- HTMLParser 简单的HTML和XHTML解析器

日期：2014-05-16　浏览次数：21087 次

python模块介绍- HTMLParser 简单的HTML和XHTML解析器

2013-09-11 磁针石

#承接软件自动化实施与培训等gtalk：ouyangchongwu#gmail.comqq 37391319

#博客:http://blog.csdn.net/oychw

# 深圳测试自动化python项目接单群113938272深圳广州软件测试开发 6089740

#深圳湖南人业务户外群 66250781武冈洞口城步新宁乡情群49494279

#参考资料：python手册

注意
HTMLParser的模块已经在Python 3中更名为html.parser。 2to3工具会自动转换import语句到Python3。
python2.2新增该模块。
源代码：lib/ HTMLParser.py

简介

该模块定义了一个HTMLParse类作为解析格式化的文本文件HTML（超文本标记语言）和XHTML的基础。不像htmllib的解析器，这个解析器不基于sgmllib模块的SGML解析器。

class HTMLParser.HTMLParser
               HTMLParser的实例接受html数据，在碰到开始tag，结束tag，文本，注释和其他标记元素时调用对应的处理方法。用户需要继承的HTMLParser并重载一些方法来实现期望的行为。

               HTMLParser类无任何参数。

               不像htmllib的解析器，解析器不检查结束标签是否匹配开始标签，或为隐式关闭标签调用结束标签处理器。

另htmllib和sgmllib在python3已经被取消，不建议使用。

异常：

exception HTMLParser.HTMLParseError

HTMLParser的是能够处理零碎的标签，但在某些情况下，它也可能会遇到错误而引发异常。此异常提供了三个属性：msg是一个简短描述错误的消息，lineno行号，offset列偏移。

简单实例：

fromHTMLParser import HTMLParser

fromhtmlentitydefs import name2codepoint

classMyHTMLParser(HTMLParser):

def handle_starttag(self, tag, attrs):

print "Start tag:", tag

for attr in attrs:

print " attr:", attr

def handle_endtag(self, tag):

print "End tag :", tag

def handle_data(self, data):

print "Data :", data

def handle_comment(self, data):

print "Comment :", data

def handle_entityref(self, name):

c = unichr(name2codepoint[name])

print "Named ent:", c

def handle_charref(self, name):

if name.startswith('x'):

c = unichr(int(name[1:], 16))

else:

c = unichr(int(name))

print "Num ent :", c

def handle_decl(self, data):

print "Decl :", data

parser= MyHTMLParser()

printparser.feed('<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"''"http://www.w3.org/TR/html4/strict.dtd">')

printparser.feed('<img src="python-logo.png" alt="The Pythonlogo">')

执行结果：

Decl : DOCTYPE HTML PUBLIC "-//W3C//DTDHTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"

None

Starttag: img

attr: ('src', 'python-logo.png')

attr: ('alt', 'The Python logo')

None

HTMLParser的方法：

HTMLParser.feed(data

上一篇：说说标准系列目录

下一篇：云表格XDOC：带参数的HTML

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

相关资料更多>

html学习解决思路

ANSI，Unicode，UTF-8网页编码的区别

JS跟CSS知识点(二)

body大于1200px，分辨率为1024*768，显示器视图如何居中

目前浏览器对html5的支持[狠图]

容易的方式创建的CSS3按钮

CSS的滤镜效果(1)

八款个性化的jQuery和CSS3菜单

ie8对cookie做了什么？解决方案

推荐阅读更多>

在html文件引入其它html文件的几种方法

Html利用锚点标记顶替iframe实现页面无刷新加载

超链接下划线的色彩能改变吗

HTML5学习札记（一）：video，audio

hResume-发布简历的微格式

Firefox中table元素的绝对定位子元素包含块判定异常的bug

纯css三响应式3d翻转菜单

HTML5之HTML元素扩充(上)—新增加的元素及使用概述

css控制gif图片作为网页的背景解决思路

HTML5 框架 Famo.us 获4百万美元筹融资

一个简单的行为不知道如何应用

不知道何位高人把CSS BUG编成了顺口溜了

简洁DIV+CSS代码量以提高网站速度的技巧

(转)致力前端开发必须要了解的CSS原理

css 分页成效

请教，css布局总宽度没超过父框架，为什么会错位

想用css+div解决思路

IE上<p>标签对innerHTML包容支持度不够有关问题解决

js针对html的数据列排序 tablesort.js（搜集）3

漂亮的上拉列表 select样式 css处理特效