网页本文提取办法-ASP.NET教程-爱易网页

网页本文提取办法

日期：2014-05-17　浏览次数：20681 次

网页正文提取办法
最初理解的网页正文提取，本以为是针对某个特定的网站实现信息筛选的代码。范围太小了，怎么是实现随便给个网址，用一个通用的算法，提取出网页内的有用信息。网上搜到一些概念，基于模板的，基于视觉的等等，感觉都有局限的，如何才能实现更通用的正文提取

算法

------解决方案--------------------
网页正文提取办法? 百度 -> 火车头
------解决方案--------------------
现在提取都是还是从返回值里提取吧。

我觉得没有那种真正通用的办法。因为你要提取的内容是一个标准，也就是“需要的”。

需要的这个是一个主观的概念，什么是需要的因人而异。

我觉得但凡有一个主观概念参杂在里面的都没法做到通用化程序的。

你做很多个IF可以看上去通用，但是其实还是一个个特例组成的。
------解决方案--------------------

引用:

Quote: 引用:

网页正文提取办法? 百度 -> 火车头

百度-〉火车头？？什么意思

意思就是说有现成的软件你可以使用
------解决方案--------------------
这里有一个正文提取提取算法可供参考，正确提取率还可以：http://www.qwolf.com/?p=791
------解决方案--------------------
"范围太小了，怎么是实现随便给个网址，用一个通用的算法，提取出网页内的有用信息。"

这句话是一句无法实现的需求,首先何为"有用信息"?

就如一个用户跟你谈需求的时候只说了一句话:"我要一个ERP系统,是一个对于我工厂很有帮助的ERP系统"

然后你就去实做了?

对于这种根本不是需求的需求描述是需要继续拆分的.

======

软件界没有银弹.

就像物理世界没有永动机一样.

一切看需求而去,看实际实现而定.

楼主可以考虑去看看<<人月神话>>

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

网页本文提取办法

相关资料更多>

推荐阅读更多>