急求思路：不同格式的履历文本批量解析（word，pdf，mht，html上的简历内容）-Java教程-爱易网页

急求思路：不同格式的履历文本批量解析（word，pdf，mht，html上的简历内容）

日期：2014-05-20　浏览次数：21138 次

急求思路：不同格式的简历文本批量解析（word，pdf，mht，html上的简历内容）
我想做一个用批量解析简历中重要内容信息的项目：通常会有许多不同格式的简历文件（word，pdf，mht，html，或者邮箱附件），这些简历都会有雷同的信息（例如毕业院校，年龄，姓名，工作经验，工作经历，应聘职位等等），我想用Java来批量解析出这些数据，并存储到数据库供应用，要求成功解析率95%，但是不知道该怎样从繁杂多的简历内容中提取出所需要的信息，保证解析成功率，请大家帮忙给点思路，或者用到的技术。谢谢谢谢谢谢。。。

------解决方案--------------------
最近在看设计模式，觉得再设计模式上楼主可以采用“生成器模式”。
可以将抽取姓名，抽取学历等对所有文件都用到的方法抽象出来放到接口。
然后根据不同文件实现接口中的方法，最后将数据都统一成同一种格式。最后在处理。
楼主说到的成功解析率应该是看各个文件解析的实现吧。
先编个原型出来，就先解析word的吧
应该是对关键词的优化吧？姓名性别就不说了，光工作经历这个就有工作经验，实习经历，等许多说法。
所以对于这个关键词也是建议单独抽出来放在配置文件内，首先方便更新，二来可以复用。
另外技术还有有一定限制的，细到一定程度成本就太高了。
以上个人愚见。希望能帮到你。

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

急求思路：不同格式的履历文本批量解析（word，pdf，mht，html上的简历内容）

相关资料更多>

推荐阅读更多>