关于SQLSERVER的全文目录跟全文索引的区别

很久没有写随笔了,本来之前想写一篇关于SQLSERVER全文索引的随笔,可惜没有时间,一直拖到现在才有时间写,不好意思让各位久等了~

先介绍一下SQLSERVER中的存储类对象,哈哈,先介绍一下概念嘛,让新手老手都有一个认知

SQLSERVER Management Studio将【全文目录】、【分区函数】以及【分区方案】节点纳入其【对象资源管理器】的【存储】节点之中,

如下图所示:

 

正文来了!哈哈,有请主角:全文目录

全文目录

数据库【存储】|【全文目录】节点是用于保存和管理【全文索引】的节点。全文目录通常是由同一数据库中的零个或多个数据表的全文索引构成的。

需要注意的是,只能为每个数据表创建一个全文索引。因此,一旦在某个数据表上创建了全文索引,那么该数据表将只能隶属于一个全文目录。换言之,

一个数据库可以包含一个或多个全文目录,一个全文目录可以包含一个或多个全文索引,但一个数据表只能有一个数据库全文目录和全文索引(跟mysql一样)。

 

在SQLSERVER2005中使用全文索引的主要步骤如下

(1)首先需要创建全文目录。

(2)然后将需要创建全文索引的数据表中的数据填充到全文目录中。这一过程也被称为填充全文索引。

(3)完成上述两步之后,即可开始使用全文索引功能。

创建全文目录的方法非常简单。通过SSMS以及T-SQL都可以实现创建全文目录的功能。

至于具体的创建步骤嘛,这里就不说了,网上都有文章说明,我就不转载了

 

最后说一下全文索引的优缺点和注意事项

(1)全文索引可对char、varchar、nchar、nvarchar、text、ntext、image、xml、varbinary 或 varbinary(max) 类型字段进行检索,

是解决海量数据模糊查询的好办法。

(2)一个表只能建立一个全文索引(但可以对多个字段)。

(3)与like的比较 MSDN解释

与全文搜索不同,LIKE Transact-SQL 谓词仅对字符模式( char、varchar、nchar、nvarchar)有效。另外,不能使用 LIKE 谓词来查询格式化的二进制数据。此外,对大量非结构化的文本数据执行 LIKE 查询要比对相同数据执行同样的全文查询慢得多。对数百万行文本数据进行的 LIKE 查询可能需要几分钟的时间才能返回结果;而对于同样的数据,全文查询只需要几秒甚至更少的时间,具体取决于返回的行数及其大小。另一个考虑因素是 LIKE 仅对整个表执行简单模式扫描。相反,全文查询可识别语言,它在索引和查询时应用特定的转换,例如,筛选非索引字并进行同义词库和变形扩展。这些转换可帮助全文查询改进其撤回以及结果的最终排名

 

最最后,讲一下全文索引的用法

 

SQL Server 2000和SQLSERVER2005提供的全文检索语句主要有CONTAINS和FREETEXT。
(1)CONTAINS语句的功能是在表的所有列或指定列中搜索:一个字或短语;一个字或短语的前缀;与一个字相近的另一个字;一个字的派生字;一个重复出现的字。

 


(2)FREETEXT语句的功能是在一个表的所有列或指定列中搜索一个自由文本格式的字符串,并返回与该字符串匹配的数据行。所以,FREETEXT语句所执行的功能又称做自由式全文查询。

 

T-SQL语句

 

1 USE pratice 
2 
3 SELECT *  FROM  dbo.test WHERE CONTAINS(d,'基数行')

 

pratice是我的一个测试数据库,d是test表的其中一个字段,以上T-SQL语句的意思是查找d字段里包含字符串"基数行"的记录

 

--下列 T-SQL 指令碼示範查詢全文檢索索引狀態以及其內容。SELECT * FROM sys.dm_fts_index_populationSELECT * FROM sys.dm_fts_index_keywords( DB_ID('tde'), OBJECT_ID('SalesLT.Product'))

 http://blogs.technet.com/b/technet_taiwan/archive/2015/06/02/sql-database-new-features-tde-and-full-text-search.aspx

 

 

 填充的方式有3种:1、完全填充,2、增量填充,3、自动跟踪更改

 


f

f

f

f

f

sql2008 的全文索引现在是存储在数据库中
全文索引基于CHAR/VARCHAR/NVARCHAR/XML/VARBINARY
提供了50个筛选器
全文索引使用语言特有的断字符word breaker 和词干分析器stemmer
指定具体语言,单词之间的breaker
被排除在常用单词(字)外面的单词(字)称为干扰词stop word,通过指定干扰词避免大量根本算不上关键字的单词(字)所干扰
一个表/索引视图只能有一个全文索引
stemmer
n. 抽梗机,除梗器;抽梗工人

 

一定要使用单独的文件组来存放全文目录!


 

f

f

f

f

f

全文索引填充不是即时完成的,因为数据必须提交给索引引擎,再由索引引擎应用断字符,词干分析器,语言文件,干扰词列表stop lists,最后才将更改合并到索引 merge到索引


语言规范决定了由全文索引引擎需要加载的断字符和词干分析器

SQL2008有第三方断字符和词干分析器

断字符还能识别数据中的单词之间的距离,这种接近性(proximity)添加到全文数据中,mysql的全文也有近似性,这是全文索引的独有功能,like%%是做不到的

sqlserver使用词干分析器来识别关键词的各种形式变化

f

 


 

f

f

f

f

f

f

f

 

全文谓词(全文搜索关键词)提交给全文索引引擎,全文索引引擎利用断字符word breaker标记搜索关键词,加token,将数据返回给优化器

where后面的谓词,如果不是全文,就叫谓词,如果是全文就是全文谓词

language参数指定是,是哪一个国家语言

优化器不能通过参数嗅探来计算全文索引上的分别统计数据,为了获得最佳性能必须给全文搜索的所有关键字都是Unicode类型

同义词文件

 


 

 

f

 

f

 

f

 

f

 

f

 

f

 

f

 

f

 

f

 

f

 

创建同义词XML文件
添加干扰词列表
重建全文索引
干扰词列表stop list或noise word file
如果你在一个全文谓词中提交的参数是干扰词,查询不会返回任何结果(而且他根本不需要访问底层数据)
sql2005和更早版本在FTDATA文件夹下配置干扰词文件,sql2008的干扰词列表存放在sqlserver的一个数据库中

增量填充全文索引必须要有一个时间戳

同义词和干扰词存放路径
C:\Program Files\Microsoft SQL Server\MSSQL.1\MSSQL\FTData

C:\Program Files\Microsoft SQL Server\MSSQL.1\MSSQL\FTData文件夹下只有两种文件:同义词和干扰词存

 

干扰词列表stop list或noise word file或stop word


全文关键术语

f

 

f

 

f

 

f

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/463482.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安装rlwrap 的简单方法

1. 下载安装 epel包 rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm 2. 安装rlwrap yum install rlwrap -y 然后进入oracle 就可以 正常的上下键进行功能切换了 注意需要使用命令 rlwrap sqlplus / as sysdba 转载于:https://www.cnblogs.…

简单的C语言程序合集-2

输入一个整数n&#xff0c;求从1到n这n个整数的十进制表示中1出现的次数。&#xff08;google面试题&#xff09; #include <stdio.h>int main(){int n, N, count 0;printf("plesae input a number: ");scanf("%d",&N);for(n1;n<N; n){ in…

在Delphi中如何创建和使用udl文件

如何在Delphi中创建和使用udl文件&#xff1a;方法一&#xff1a;直接弹出UDL对话框:use ADOConed; EditConnectionString(ADOQuery1);方法二&#xff1a;⑴、右键---新建---文本文档&#xff0c;重命名为 connSet.udl 。⑵、双击打开 connSet.udl 按提示操作配置数据库&#x…

redis事务的简单介绍

所谓事务应具有以下特效&#xff1a;原子性(Atomicity)&#xff0c; 一致性(Consistency)&#xff0c;隔离性(Isolation)&#xff0c;持久性(Durability)&#xff0c;简称ACID&#xff0c;但redis所提供的事务比较简单&#xff0c;它通过MULTI、EXEC、DISCARD和WATCH等命令实现…

Android Zip文件解压缩代码

在Android平台中如何实现Zip文件的解压缩功能呢? 因为Android内部已经集成了zlib库&#xff0c;对于英文和非密码的Zip文件解压缩还是比较简单的&#xff0c;下面Android123给大家一个解压缩zip的java代码&#xff0c;可以在Android上任何版本中使用&#xff0c;Unzip这个静态…

C语言指针(1)嵌入式linux

计算机中所有的数据都必须放在内存中&#xff0c;不同类型的数据占用的字节数不一样&#xff0c;例如 int占用4个字节&#xff0c;char 占用1个字节。为了正确地访问这些数据&#xff0c;必须为每个字节都编上号码&#xff0c;就像门牌号、身份证号一样&#xff0c;每个字节的编…

最全android Demo

1、BeautifulRefreshLayout-漂亮的美食下拉刷新https://github.com/android-cjj/BeautifulRefreshLayout/tree/BeautifulRefreshForFood2、Material Design-动画风格的选项卡tab切换功能https://github.com/neokree/MaterialTabs3、TwinklingRefreshLayout-支持下拉刷新和上拉加…

网站优化之Ajax优化及相关工具

web2.0大量的ajax的使用&#xff0c;提高了ui交互的效率&#xff0c;但是过度的滥用会带来不少的问题。 ajax使用注意事项&#xff1a; 1 尽量避免使用同步ajax调用。在一些登录的场合常常使用同步调用服务器的登录接口。 同步调用&#xff0c;需要将页面上的所有元素给锁定住&…

MessageQueue Message Looper Handler的解释说明

总结4个关键概念 1、MessageQueue&#xff1a;是一种数据结构&#xff0c;见名知义&#xff0c;就是一个消息队列&#xff0c;存放消息的地方。每一个线程最多只可以拥有一个MessageQueue数据结构。 创建一个线程的时候&#xff0c;并不会自动创建其MessageQueue。通常使用一个…

C语言中的内存分配

在任何程序设计环境及语言中&#xff0c;内存管理都十分重要。在目前的计算机系统或嵌入式系统中&#xff0c;内存资源仍然是有限的。因此在程序设计中&#xff0c;有效地管理内存资源是程序员首先考虑的问题。 第1节主要介绍内存管理基本概念&#xff0c;重点介绍C程序中内存的…

强化学习(十七) 基于模型的强化学习与Dyna算法框架

在前面我们讨论了基于价值的强化学习(Value Based RL)和基于策略的强化学习模型(Policy Based RL)&#xff0c;本篇我们讨论最后一种强化学习流派&#xff0c;基于模型的强化学习(Model Based RL)&#xff0c;以及基于模型的强化学习算法框架Dyna。 本篇主要参考了UCL强化学习课…

js如何读取客户端Excel文件

详细见 http://www.oejia.net/blog/2012/08/07/Js_read_xls.html 原理是利用了IE关于Excel的ActiveX插件&#xff0c;所以此功能只支持IE系列浏览器 var tempStr "";var filePath document.all.upfile.value;var oXL new ActiveXObject("Excel.application&qu…

Redis之简单动态字符串sds

转载&#xff1a;https://segmentfault.com/a/1190000012262739 redis在处理字符串的时候没有直接使用以\0结尾的C语言字符串&#xff0c;而是封装了一下C语言字符串并命名为sds(simple dynamic string)&#xff0c;在sds.h文件里我们可以看到如下类型定义&#xff1a; typede…

同时使用有线和无线

访问无线的70网段&#xff0c;172.20.70.104 本地无线IP route add 172.20.70.0 mask 255.255.255.0 172.20.70.104 metric 1 访问无线的50网段&#xff0c;172.20.70.104 本地无线IP route add 172.20.50.0 mask 255.255.255.0 172.20.70.104 metric 2 转载于:https://www.cnb…

假期第一次编程总结(改二)

7-1 打印沙漏 &#xff08;20 分&#xff09; 本题要求你写个程序把给定的符号打印成沙漏的形状。例如给定17个“*”&#xff0c;要求按下列格式打印 所谓“沙漏形状”&#xff0c;是指每行输出奇数个符号&#xff1b;各行符号中心对齐&#xff1b;相邻两行符号数差2&#xff1…

high-speed A/D performance metrics and Amplifie...

2019独角兽企业重金招聘Python工程师标准>>> High-Speed A/D performance metrics 在高速情况下&#xff0c;主要考虑信号参数的频率范围、失真和噪声。During system definition&#xff0c;setting time 、 acquisition time、static precision-related&#xff0…

Redis之整数集合intset

intset是Redis集合的底层实现之一&#xff0c;当存储整数集合并且数据量较小的情况下Redis会使用intset作为set的底层实现。当数据量较大或者集合元素为字符串时则会使用dict实现set。 intset将整数元素按顺序存储在数组里&#xff0c;并通过二分法降低查找元素的时间复杂度。数…

场景编辑器的草案

Jojoushi场景编辑器 整个脚本的演示和编辑以点击事件为基本的单元&#xff0c;一次点击事件的生命期是&#xff1a;玩家点击一次鼠标到下一次有效的点击鼠标之间的这段时间。 1&#xff0e;显示场景 显示模型存在的场景&#xff0c;可以通过上下左右案件在场景中漫游。 2&…

c++学习书籍推荐《超越C++标准库:Boost库导论》下载

《超越C标准库Boost库导论》不仅介绍了Boost库的功能、使用方法及注意事项&#xff0c;而且还深入讨论了Boost库的设计理念、解决问题的思想和技巧以及待处理的问题。因此&#xff0c;本书是一本了解Boost库并探索其机理的实用手册。 百度云及其他网盘下载地址&#xff1a;点我…

批量替换 MySQL 指定字段中的字符串

批量替换 MySQL 指定字段中的字符串 批量替换 MySQL 指定字段中的字符串是数据库应用中很常见的需求&#xff0c;但是有很多初学者在遇到这种需求时&#xff0c;通常都是用脚本来实现&#xff1b;其实&#xff0c;MySQL 内置的有批量替换语法&#xff0c;效率也会高很多&#x…