日期:2014-05-17  浏览次数:20434 次

网页正文提取办法
最初理解的网页正文提取,本以为是针对某个特定的网站实现信息筛选的代码。范围太小了,怎么是实现随便给个网址,用一个通用的算法,提取出网页内的有用信息。网上搜到一些概念,基于模板的,基于视觉的等等,感觉都有局限的,如何才能实现更通用的正文提取
算法

------解决方案--------------------
网页正文提取办法? 百度 -> 火车头
------解决方案--------------------
现在提取都是还是从返回值里提取吧。

我觉得没有那种真正通用的办法。因为你要提取的内容是一个标准,也就是“需要的”。

需要的这个是一个主观的概念,什么是需要的因人而异。

我觉得但凡有一个主观概念参杂在里面的都没法做到通用化程序的。

你做很多个IF可以看上去通用,但是其实还是一个个特例组成的。
------解决方案--------------------
引用:
Quote: 引用:

网页正文提取办法? 百度 -> 火车头

百度-〉火车头??什么意思


意思就是说有现成的软件你可以使用
------解决方案--------------------
这里有一个正文提取提取算法可供参考,正确提取率还可以:http://www.qwolf.com/?p=791
------解决方案--------------------
"范围太小了,怎么是实现随便给个网址,用一个通用的算法,提取出网页内的有用信息。"

这句话是一句无法实现的需求,首先何为"有用信息"? 

就如一个用户跟你谈需求的时候只说了一句话:"我要一个ERP系统,是一个对于我工厂很有帮助的ERP系统"

然后你就去实做了?

对于这种根本不是需求的需求描述是需要继续拆分的.

======

软件界没有银弹.

就像物理世界没有永动机一样.

一切看需求而去,看实际实现而定.

楼主可以考虑去看看<<人月神话>>