日期:2013-12-30  浏览次数:20646 次

  开发人员的噩梦——删除反复记录

  想必每一位开发人员都有过类似的经历,在对数据库进行查询或统计的时候不时地会碰到由于表中存在反复的记录而导致查询和统计结果不精确。处理该问题的办法就是将这些反复的记录删除,只保留其中的一条。

  在SQL Server中除了对拥有十几条记录的表进行人工删除外,实现删除反复记录普通都是写一段代码,用游标的方法一行一行检查,删除反复的记录。由于这种方法需求对整个表进行遍历,所以对于表中的记录数不是很大的时候还是可行的,如果一张表的数据达到上百万条,用游标的方法来删除几乎是个噩梦,由于它会执行相当长的一段时间。

  四板斧——轻松消弭反复记录

  殊不知在SQL Server中有一种更为简单的方法,它不需求用游标,只需写一句简单插入语句就能实现删除反复记录的功用。为了能清楚地表述,我们首先假设存在一个产品信息表Products,其表结构如下:

CREATE TABLE Products (
ProductID int,
ProductName nvarchar (40),
Unit char(2),
UnitPrice money
)
  表中的数据如图1:


  图1中可以看出,产品Chang和Tofu的记录在产品信息表中存在反复。如今要删除这些反复的记录,只保留其中的一条。步骤如下:

  第一板斧——建立一张具有相反结构的临时表

CREATE TABLE Products_temp (
ProductID int,
ProductName nvarchar (40),
Unit char(2),
UnitPrice money
)
  第二板斧——为该表加上索引,并使其忽略反复的值

  方法是在企业管理器中找到上面建立的临时表Products _temp,单击鼠标右键,选择所有任务,选择管理索引,选择新建。如图2所示。

  按照图2中圈出来的地方设置索引选项。


  第三板斧——拷贝产品信息到临时表

insert into Products_temp Select * from Products
  此时SQL Server会前往如下提示:

  服务器: 音讯 3604,级别 16,形状 1,行 1

  已忽略反复的键。

  它表明在产品信息临时表Products_temp中不会有反复的行出现。

  第四板斧——将新的数据导入原表

  将原产品信息表Products清空,并将临时表Products_temp中数据导入,最后删除临时表Products_temp。

delete Products
insert into Products select * from Products_temp
drop table Products_temp
  这样就完成了对表中反复记录的删除。无论表有多大,它的执行速度都是相当快的,而且由于几乎不用写语句,所以它也是很安全的。

  小提示:上述方法中删除反复记录取决于创建独一索引时选择的字段,在实际的操作过程中读者务必首先确认创建的独一索引字段能否正确,以免将有用的数据删除。