[C#]解决读写包含汉字的txt文件时乱码的问题

日期：2008-10-06　浏览次数：20600 次

时间：2005-8-8

当我们用System.IO.StreamReader读取包含汉字的txt文件时，经常会读出乱码（StreamWriater写文本文件也

有类似的问题），原因很简单，就是文件的编码（encoding）和StreamReader/Writer的encoding不对应。

为了解决这个问题，我写了一个类，来取得一个文本文件的encoding，这样我们就可以创建对应的

StreamReader和StreamWriter来读写，保证不会出现乱码现象。其实原理很简单，文本编辑器（比如XP自带的记事

本）在生成文本文件时，如果编码格式和系统默认的编码（中文系统下默认为GB2312）不一致时，会在txt文件开头

部分添加特定的“编码字节序标识（Encoding Bit Order Madk，简写为BOM）”，类似PE格式的"MZ"文件头。这样

它在读取时就可以根据这个BOM来确定该文本文件生成时所使用的Encoding。这个BOM我们用记事本等程序打开默认

是看不到的，但是用stream按字节读取时是可以读到的。我的这个TxtFileEncoding类就是根据这个BOM“文件头”

来确定txt文件生成时用到的编码的。

// 作者：袁晓辉

// 2005-8-8

// // // // // //

using System;

using System.Text;

using System.IO;

namespace Farproc.Text

{

/// <summary>

/// 用于取得一个文本文件的编码方式(Encoding)。

/// </summary>

public class TxtFileEncoding

{

public TxtFileEncoding()

{

// TODO: 在此处添加构造函数逻辑

}

/// <summary>

/// 取得一个文本文件的编码方式。如果无法在文件头部找到有效的前导符，Encoding.Default将被返回。

/// </summary>

/// <param name="fileName">文件名。</param>

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。