日期:2014-05-20  浏览次数:20696 次

急求思路:不同格式的简历文本批量解析(word,pdf,mht,html上的简历内容)
我想做一个用批量解析简历中重要内容信息的项目: 通常会有许多不同格式的简历文件(word,pdf,mht,html,或者邮箱附件),这些简历都会有雷同的信息(例如毕业院校,年龄,姓名,工作经验,工作经历,应聘职位等等),我想用Java来批量解析出这些数据,并存储到数据库供应用,要求成功解析率95%,但是不知道该怎样从繁杂多的简历内容中提取出所需要的信息,保证解析成功率,请大家帮忙给点思路,或者用到的技术。谢谢谢谢谢谢。。。

------解决方案--------------------
最近在看设计模式,觉得再设计模式上楼主可以采用“生成器模式”。
可以将抽取姓名,抽取学历等对所有文件都用到的方法抽象出来放到接口。
然后根据不同文件实现接口中的方法,最后将数据都统一成同一种格式。最后在处理。
楼主说到的成功解析率应该是看各个文件解析的实现吧。
先编个原型出来,就先解析word的吧
应该是对关键词的优化吧?姓名性别就不说了,光工作经历这个就有工作经验,实习经历,等许多说法。
所以对于这个关键词也是建议单独抽出来放在配置文件内,首先方便更新,二来可以复用。
另外技术还有有一定限制的,细到一定程度成本就太高了。
以上个人愚见。希望能帮到你。