运用全文检索回提高模糊匹配的效率-数据库教程-爱易网页

运用全文检索回提高模糊匹配的效率

日期：2014-05-16　浏览次数：20602 次

运用全文检索来提高模糊匹配的效率

今天去面试，这个公司的业务需要模糊查询数据，之前他们通过mongodb来存储数据，但他们说会有丢数据的问题，我从业务上了解到，显然对他们公司而言，丢数是绝对不能允许的。

另外，他们说之前也用过SQL Server的全文检索，但速度不够快，不如用mongodb快，当然我不太清楚他们所谓快的具体定义，比如查询只需要1秒，还是1分钟。他们的系统现在采用的是SQL Server，通过复制来实现高可用性，因为他们说备份数据库需要很长时间。我在想，这确实解决了可用性问题，但没解决性能问题，可以考虑分表，把大的表拆分到多个数据库，每个数据库可以通过复制来实现可用性。

我觉得他们可能更需要一个架构师，来决定采用何种技术解决他们现在的技术问题，因为这种技术问题，显然不是靠DBA的优化就能解决的；其次才是需要DBA，让DBA来管理、维护、优化系统。

当时在面试的时候，我表示虽然在博客里也写了一篇关于SQL Server全文索引的文章，但在实际工作中确实也没有用到。回去以后，我想了想，觉得这个问题还是可以通过SQL Server的全文索引来尝试一下。

引用自己之前写的一篇全文检索的文章: http://blog.csdn.net/yupeigu/article/details/7792955

上面的文章是去年写的，当时在看《SQL Server 2008 实战》这本书，看完后，觉得不能只是看书，不然很快就会忘记，于是在空闲的时候，把书上的东西实践了一下，算是装模做样的把书上的代码抄写了一遍，就算是实践过了，放心了。但其实很快就忘记了，就算抄写10遍，也会忘记，学了不用等于不学。不过这也没办法，因为学了这个全文检索，公司里也用不到。

现在回想一下，这种实践有点像以前小学和初中时抄写错别字一下，字写错了，老师会说：“你把这个句子抄写100遍”，一开始抄写的时候，还挺认真的，但写了一会，手就开始酸了。

于是手上握着5支笔，开始抄写，这样就能一次抄写5遍，效率提高了好多倍，现在想想这个是偷工减料，但也包含了优化的思想，那就是同时用更多的资源(这里是5支笔)来做事。

但再想想，其实这种学习效率其实是很差的，本质上就是做了不少的无用功，没必要抄写那么多遍，所以就有另一种优化，那就是少做无用之事，少做无用功。

言归正传，现在有这样一个问题，有个字段，文本型的，可能会有上万个文字，现在要从表中，通过这个字段的文本，找到复合要求的记录，那么从SQL Server数据库的角度，有什么方法呢？

我觉得通过使用全文检索，能少做不少的无用功。下面是例子。

首先是普通的方法：

set statistics io on
set statistics time on 

create database wc


use wc
go


create table tbl_word
(
i int not null primary key identity(1,1),
v nvarchar(max)   --存储大量文字
)

--delete from tbl_word

insert into tbl_word
values('我的一个兴趣是看电影。'),
      ('我的一个爱好是看电影和电视剧')

insert into tbl_word
values(replicate('我的一个爱好是看电影和电视剧',1000) + '兴趣' +
       replicate('我的爱好是看电视剧和film和动漫',1500))

go 1000

insert into tbl_word
values('我的一个兴趣是看电影。'),
      ('我的一个爱好是看电影和电视剧')

go 100

insert into tbl_word
values(replicate('我的一个爱好是看电影和电视剧',1000) + 'haha' +
       replicate('我的爱好是看电视剧和film和动漫',1500))

go


/*
SQL Server 分析和编译时间: 
   CPU 时间 = 0 毫秒，占用时间 = 3 毫秒。

(1 行受影响)
表 'tbl_word'。扫描计数 1，逻辑读取 1509 次，物理读取 0 次，预读 0 次，lob 逻辑读取 5 次，lob 物理读取 0 次，lob 预读 0 次。

 SQL Server 执行时间:
   CPU 时间 = 484 毫秒，占用时间 = 490 毫秒。
*/
select *
from tbl_word
where v like '%haha%'

全文检索的方法：

create fulltext catalog cat_production_document  
go


create fulltext index on dbo.tbl_word  --在这个表上建全文索引  
(  
   v
)  
key index PK__tbl_word__3BD019967F60ED59    --键索引,一般是表的主键,这里需要修改为具体的名称 
on cat_production_document          --全文目录  
with (CHANGE_TRACKING AUTO,         --全文索引会随着表数据的修改而自动更新  
      StopList=SYSTEM);             --是用系统默认的干扰字表 
 
 
ALTER FULLTEXT INDEX ON dbo.tbl_word
enable  

go

set statistics io on
set statistics time on

--查询基于变形的,字面的,同义的匹配方式搜索全文列  
--会返回要搜索文本中包含的单词以及单词的同义词,变形词(复数)的记录
/*
SQL Server 分析和编译时间: 
   CPU 时间 = 0 毫秒，占用时间 = 0 毫秒。

 SQL Server 执行时间:
   CPU 时间 = 0 毫秒，占用时间 = 0 毫秒。
SQL Server 分析和编译时间: 
   CPU 时间 = 0 毫秒，占用时间 = 5 毫秒。

(1 行受影响)
表 'tbl_word'。扫描计数 0，逻辑读取 3 次，物理读取 0 次，预读 0 次，lob 逻辑读取 3 次，lob 物理读取 0 次，lob 预读 0 次。

(1 行受影响)

 SQL Server 执行时间:
   CPU 时间 = 0 毫秒，占用时间 = 10 毫秒。
SQL Server 分析和编译时间: 
   CPU 时间 = 0 毫秒，占用时间 = 0 毫秒。

 SQL Server 执行时间:
   CPU 时间 = 0 毫秒，占用时间 = 0 毫秒。

*/ 
SELECT *  
from dbo.tbl_word  
WHERE FREETEXT (v,        -

免责声明： 本文仅代表作者个人观点，与爱易网无关。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

运用全文检索回提高模糊匹配的效率

相关资料更多>

推荐阅读更多>