日期:2014-05-17  浏览次数:20893 次

C#读取PDF问题
最近在做一个项目,需要读取PDF文档,在网上找了很多相关资料,也做了不少demo,读取结果不是很理想,于是找到了PDFSharp开源项目,但是读取出来的东西全是乱码,Encoding的编码格式都不行,用PDFBox第三方控件有些文档依旧是读出报错,所以准备放弃PDFBox,想问问各位大侠,用PDFSharp读取PDF文档,最有效的方式是什么啊?我只读取文字,忽略图片的。
代码如下:
C# code

 private static String ReadPdf(String fileName)
        {



            Stream stream =new FileStream(fileName, FileMode.Open, FileAccess.Read);
            Byte[] buffer = new Byte[stream.Length];
            stream.Read(buffer,0,Convert.ToInt32(stream.Length));
        
            StringBuilder sb = new StringBuilder();
           
            CSequence sequence = ContentReader.ReadContent(buffer);
               
            sb.Append(Encoding.Unicode.GetString(sequence.ToContent()));
         
            return sb.ToString();
        }



------解决方案--------------------
没用过,只能帮你找找
------解决方案--------------------
用iTextSharp
------解决方案--------------------
还好我们项目中只需要convert成图片