日期:2014-05-20  浏览次数:20697 次

pdfbox解析提取pdf文件问题
项目中需要使用pdfbox提取文本信息,
比如pdf有如下文本信息:
name:sword.
work:code/programmer
.......//这里有一堆不相关的文本
address       message  
hangzhou       ok
tiantai         ok
要提取name:字段的,提取值应该为sword.同理,work:做为参数时,提取值应该是code/programmer
而当address做为参数时,提取结果应该是hangzhou   与   tiantai两个,如果下面还有的话,应该再加进去,所以应该是一个List对象

刚接触pdfbox,也简单的看了一下pdf文本格式,有点迷惑,望达手指点迷津

------解决方案--------------------
能不能提取出来,要看在pdf里面怎么组织的
如果是form,可以这样提取但是技术难度很大
如果不是form,他们就没有逻辑关系,不能这样提取
------解决方案--------------------
探讨
能不能提取出来,要看在pdf里面怎么组织的
如果是form,可以这样提取但是技术难度很大
如果不是form,他们就没有逻辑关系,不能这样提取