日期:2014-05-20  浏览次数:20789 次

关于解析html成tag树的讨论
这段时间在做搜索引擎,决定采用Lucene.net。但是在网页抓取,解析方面一直很难找到比较理想的东西,后来自己写了个,经过测试www.sina.com.cn以及www.csdn.net等众多网站首页,完全能够实现将Html解析成tag数。
具体可以看我的文章:里面罗列了核心思想和算法《解析Html生成标签数》

但是不知道是否还有其他比较理想的算法。
希望各位讨论讨论,给点意见。

------解决方案--------------------
哦,被推荐了,学习一下啊~
------解决方案--------------------
记得同学买了本Lecene in Action做毕业设计,对这个没什么研究,就当给你充充人气
------解决方案--------------------
探讨
哦,被推荐了,学习一下啊~

------解决方案--------------------
至少有两份代码可以做对比,Gecko和webkit。
------解决方案--------------------
不错,不错,真的不错




------解决方案--------------------
不错啊,我对分析HTML有兴趣。支持~
------解决方案--------------------
探讨
不错啊,我对分析HTML有兴趣。支持~

------解决方案--------------------
不错啊,我对分析HTML有兴趣。支持~
------解决方案--------------------
支持一下,会仔细看的
------解决方案--------------------
支持LZ,很好,很强大
------解决方案--------------------
俺喜欢.大力支持!也有看了一下搜索引擎的相关内容,不过了解不深
------解决方案--------------------
研究中。。。。。。。。。。。。。。。。。。。。
------解决方案--------------------
学习
------解决方案--------------------

------解决方案--------------------
探讨
支持一下,会仔细看的

------解决方案--------------------
HtmlParse,
HtmlDocument,


------解决方案--------------------
探讨
哦,被推荐了,学习一下啊~

------解决方案--------------------
记号。

学习。
------解决方案--------------------
支持下
-----占位-----
------解决方案--------------------
html解析成tag标签,我用的是正规则,也是分析成tag,但不是为tag树
如:
原html

<html>
<body>
第一
<div>
第二
</div>
第三
</body>
</html>
解析成tag为
<html>
<body>
<body> 第一<div>
<div>第二</div>
</div>第三</body>
<div>
</div>
<body>
</html>


------解决方案--------------------
学习一下。。。。。。。
------解决方案--------------------
也来顶一下,正在看你那篇文章`~
------解决方案--------------------
像input,br 等不需要"</ "结束标记就可以使用的tag,不知道你打算怎么解决?

我曾经尝试用正则表达式匹配出所有标签,再逐个进行处理的方式解析HTML,不过由于时间的原因,
还没有做出来。

期待与大家的交流.
------解决方案--------------------
不是很懂楼主的设计意图,个人觉得在这个之前应该加一个数据整形的程序,然后数据整形程序的输出才是给你这个程序使用。个人觉得也可以直接用IE可编程部分来做,不过就是慢一点,如果要求速度的话,可以考虑多机分布处理来弥补速度慢的缺点。