日期:2014-05-19  浏览次数:20817 次

html转成xml
程序读取了网页的html文件,最后读成了一个streamreader类的对象。现在我想把它读成一个xml文件,而不是一个string,请问大家应该怎么做?希望能给出一下示例代码。谢谢

------解决方案--------------------
根据标签来,比如 <html> </html> 为根节点, <head> </head> <body> </body> 为子节点 <title> ...依次,可能要用正则表达式来做
------解决方案--------------------
你可以html改变下格式然后在用xml读取
StreamReader sr=new StreamReader(Server.MapPath());
XmlDataDocument datadoc=new XmlDataDocument();
datadoc.DataSet.ReadXml(tyj);//读到ds



XmlDocument datadoc=new XmlDocument();
datadoc.Load(Server.MapPath(datafile));//将xml读取到datadoc



------解决方案--------------------
html的内容很可能不是xml格式的,如果是xml格式
XmlDocument doc = new XmlDocument(); doc.LoadXml( " <html> </html> ");
如果不是正确的xml格式,你需要先对数据进行处理.
------解决方案--------------------
接楼上。
是的,需要做一些处理。比如 <br> 这样的标签需要改为 <br/> 或者 <br>