做鲜花的网站有哪些咸阳北京网站建设
做鲜花的网站有哪些,咸阳北京网站建设,用户浏览网站的方式,云服务器网站搭建Analysis#xff1a;文本分析是把全文本转换一系列单词的过程#xff0c;也叫分词。Analysis是通过Analyzer(分词器)来实现的。
1.Analyzer组成 注意#xff1a;在ES中默认使用标准分词器#xff1a;StandardAnalyzer。特点是#xff1a;中文是单字分词#xff0c;英文是…Analysis文本分析是把全文本转换一系列单词的过程也叫分词。Analysis是通过Analyzer(分词器)来实现的。
1.Analyzer组成 注意在ES中默认使用标准分词器StandardAnalyzer。特点是中文是单字分词英文是单词分词。
举例我是中国人 how are you 我 是 中 国 人 how are you 分词器由三种构件组成character filterstokenizerstoken filters。 character filters字符过滤器先对文本进行预处理过滤掉那些html标签。 tokenizers分词器一般英文可以根据空格来分开而中文比较复杂可以采用机器学习算法来分词。 token filterstoken过滤器将切分后的单词进行加工大写转换小写、同义转换等等。 2.ES提供的分词器——内置分词器 standard Analyzer—默认分词器英文按单词切分并小写处理、过滤符号中文按单字分词。 simple Analyzer—英文按照单词切分、过滤符号、小写处理中文按照空格分词。 stop Analyzer—中文英文一切按照空格切分英文小写处理停用词过滤(基本不会当搜索条件的无意义的词a、this、is等等)会过滤其中的标点符号。 whitespace Analyzer—中文或英文一切按照空格切分英文不会转小写。 keyword Analyzer—不进行分词这一段话整体作为一个词。 测试语法
举例stop Analyzer 3.设置内置分词器
在我们创建索引指定映射的时候可以在设置字段类型的时并指定其要使用的分词器。 4.适合中文的分词器——IK
4.1IK分词器的安装
Release v7.14.0 · medcl/elasticsearch-analysis-ik · GitHub 下载到本地解压之后通过xftp上传到云服务器中。 停止es和kibana的容器我们通过数据卷的方式挂载 docker run -d --name es -p 9200:9200 -p 9300:9300 -e ES_JAVA_OPTS-Xms512m -Xmx512m -e discovery.typesingle-node -v /opt/ik-7.14.0/:/usr/share/elasticsearch/plugins/ik-7.14.0 elasticsearch:7.14.0 4.2使用
IK有两种颗粒度的拆分 ik_smart会做最粗粒度的拆分。 ik_max_word会做文本最细粒度的拆分。 4.3IK中的扩展词和停用词配置 扩展词典就是有些词并不是关键词但是也希望被ES用来作为检索的关键词可以将这些词加入到扩展词典。 停用词典就是有些词是关键词但是出于业务场景不想使用这些关键词被检索到可已将这些词典放入停用词典中。
举例 分词后可以看到陈冠西本来是个人名但是并没有将陈冠西分为一个词而是分为了陈冠西。所以我们可以自定义的将陈冠西加入到扩展词典中后续就可以通过陈冠西关键词搜索到完整的数据。 停用词典反之即可就是此词虽然被切分成了关键词但是并不想通过此词搜索到这条完整数据那就将这个词加入到停用词典中。
1.进入到ik分词器的config目录找到IKAnalyzer.cfg.xml文件 2.vim进入这个文件 自定义文件名 我们在这里可以配置文件在config下创建相应的文件后将自定义的词加入文件即可但是切记一行只能放一个词。 但是ES其实也给我们给了一些它认为比较重要的词如下两个文件中
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/87691.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!