日期:2014-05-20  浏览次数:20732 次

java 解析各种样式的html
各位大神,我现在有一段html的代码,需要解析出其中的内容和样式,然后按照其中的样式生成一个word文档,现在的问题就是解析这段html的代码太困难了,例如
 <p><strong>技术要评审,要作价,为原所有人所有,双方以共同组建成立的公司名义对外进行招商引资。   二、甲方的权利和义务:   1、在新成立的公司中任董事长,对外开展业务。   2、办理新公司的申请批准,负责向有关部门登记注册、领取营业执照、注册商标等事宜。   3、办理生产许可证及产品注册证的申报等事宜。</strong>  <span style="color:#FF0000"> 三、 乙方的权利及义务:   1、 在新成立的公司中为常务副董事长兼生产、研发负责人,需签订任命书,以任命书为准。 </span> <u> 2、 与甲方共同享有决定研发人员的聘用及制定人员工资、福利待遇、奖惩办法的权力。   3、 与甲方共同享有财务权(只有双方共同签名,方能进入财务,缺一不可)、核算权、经营销售权、发展方向决策权共同经营公司;听取公司负责人开展业务情况的报告;检</u>查公<span style="font-size:22px">司帐册及经营情况;与甲方共同决定公司重大事项。</span></p>
   
   现在的问题就是,怎么写来解析html代码,html的内容不全如上面的例子,因为html的文本内容和文本的样式是用户编辑出来,标签这是由富文本编辑器自动加上去的,我需要做的就是用来代码来处理可能的各种情况,比如各种标签的嵌套.
    怎么解决还请各位大神指点一下,我的QQ 453973206 
Java HTML 解析

------解决方案--------------------
我教个歪招:把html代码存成html文件,然后把扩展名改为 .doc,用Word打开。
------解决方案--------------------
输出的word 还需要编辑么 还是要干什么  硬解析 是很难实现的 尤其是转换成word  楼上的方法是可行的 不适用word软件可以借用jacob 打开html 另存为 doc实际上和楼上的方法一样的.再就是利用开源项目解析html 直接打印成图片签到word里面 这样的格式最为接近原版.但是不能编辑了.
------解决方案--------------------
可以使用xslt将html转成WordML
------解决方案--------------------
Java HTML Parser 可以解析HTML。用法可以问度娘!