【Boost】:searcher的建立(四)

searcher的建立

  • 一.初始化
  • 二.搜索功能
  • 三.完整源代码

sercher主要分为两部分:初始化和查找。

在这里插入图片描述

在这里插入图片描述

一.初始化

初始化分为两步:1.创建Index对象;2.建立索引

在这里插入图片描述

二.搜索功能

搜索分为四个步骤

  1. 分词;
  2. 触发:根据分词找到对应的文档;
  3. 合并排序:按照权重降序排列;
  4. 构建:根据查找出的结构,拼接成新的网页。

1.分词

因为之前已经写好了分词函数,这里直接使用即可。

在这里插入图片描述

2.触发

跟据分词,获取该分词的所有倒排拉链。

在这里插入图片描述

3.合并排序

汇总查找结果,对查找内容按照相关性进行排序。这里使用了lambda表达式(如果不了解的可以看看我的博客C++11新特性)

在这里插入图片描述

4.构建

对内容进行正排查找。把查找出来的内容构成一个json串,以方便我们进行序列化和反序列化。

首先安装jesoncpp(如果不会使用的,限于篇幅,可以去百度)

在这里插入图片描述

在这里插入图片描述

三.完整源代码

searcher.hpp

#include "index.hpp"
#include <algorithm>
#include <jsoncpp/json/json.h>namespace ns_searcher
{class Searcher{private:ns_index::Index *index; // 供系统查找的接口public:Searcher(){}~Searcher(){}public:// 初始化void InitSearcher(const std::string &input){// 1.创建Index对象index = ns_index::Index::GetInstance();// 2.创建索引index->BuildIndex(input);}// 查找void Search(const std::string &query, std::string *json_string){// 1.分词std::vector<std::string> words; // 存放词ns_util::JiebaUtil::CutString(query, &words);// 2.触发:根据分词找到对应倒排拉链(注意:要忽略大小写)ns_index::InvertedList inverted_list_all; // 存放所有找到的文档的倒排拉链for (auto &s : words){boost::to_lower(s); // 忽略大小写// 为了方便,这里经过了typedef,把倒排hash的second(vector<InvertedElem>)重命名成了InvertedListns_index::InvertedList *inverted_list = index->GetInvertedList(s); // 根据string获取倒排拉链if (nullptr == inverted_list)continue;inverted_list_all.insert(inverted_list_all.end(), inverted_list->begin(), inverted_list->end());}// 3.进行汇总排序std::sort(inverted_list_all.begin(), inverted_list_all.end(), [](ns_index::InvertedElem &e1, ns_index::InvertedElem &e2){ e1.weight > e2.weight; });// 4.构建jsoncpp串Json::Value root;for (auto &item : inverted_list_all){ns_index::DocInfo *doc = index->GetForwardIndex(item.id); // 通过正排索引获取文档if (nullptr == doc)continue;Json::Value elem;elem["title"] = doc->title;elem["desc"] = doc->content; // 我们只需要展示一部分内容即可,这里以后会改elem["url"] = doc->url;root.append(elem);}Json::StyledWriter writer;*json_string = writer.write(root); // 写入目标文件}};
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/667374.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

架构设计特训

一、考点分布 软件架构风格&#xff08;※※※※&#xff09;层次型软件架构风格&#xff08;※※※※&#xff09;面向服务的软件架构风格&#xff08;※※※※&#xff09;云原生架构风格&#xff08;※※※※&#xff09;质量属性与架构评估&#xff08;※※※※※&#xff…

Transformer实战-系列教程1:Transformer算法解读1

&#x1f6a9;&#x1f6a9;&#x1f6a9;Transformer实战-系列教程总目录 有任何问题欢迎在下面留言 Transformer实战-系列教程1&#xff1a;Transformer算法解读1 Transformer实战-系列教程2&#xff1a;Transformer算法解读2 现在最火的AI内容&#xff0c;chatGPT、视觉大模…

网络安全-端口扫描和服务识别的几种方式

禁止未授权测试&#xff01;&#xff01;&#xff01; 前言 在日常的渗透测试中&#xff0c;我们拿到一个ip或者域名之后&#xff0c;需要做的事情就是搞清楚这台主机上运行的服务有哪些&#xff0c;开放的端口有哪些。如果我们连开放的端口和服务都不知道&#xff0c;下一步针…

反洗钱_2_反洗钱国际组织和国际标准

文章目录 二、反洗钱国际组织和国际标准2.1 反洗钱国际组织2.2 反洗钱国际标准2.3 中国与FAFT 二、反洗钱国际组织和国际标准 2.1 反洗钱国际组织 金融行动特别工作组&#xff1a;Financial Action Task Force on Money Laundering (FATF)FATF成立于1989年在巴黎召开的西方七…

206. 反转链表-递归反转链表

206. 反转链表-递归反转链表 解题思路 基本情况处理&#xff1a; 开始时&#xff0c;首先检查链表是否为空或只包含一个节点。若是&#xff0c;直接返回原链表头部。 递归调用&#xff1a; 对于包含两个或更多节点的链表&#xff0c;将递归调用 reverseList 方法&#xff0c;…

Golang切片与数组

在Go语言中&#xff0c;切片&#xff08;Slice&#xff09;和数组&#xff08;Array&#xff09;是两个核心的数据结构&#xff0c;它们在内存管理、灵活性以及性能方面有着显著的区别。接下来将解析Golang中的切片与数组&#xff0c;通过清晰的概念解释、案例代码和实际应用场…

Vue2基础

前端技术了解&#xff08;了解&#xff09;ES6常见语法&#xff08;掌握&#xff09;Vue入门&#xff08;掌握&#xff09;Vue表达式&#xff08;掌握&#xff09;Vue指令&#xff08;掌握&#xff09;计算属性与侦听器&#xff08;了解&#xff09; 一、前端技术了解&#xf…

小林Coding_操作系统_读书笔记

一、硬件结构 1. CPU是如何执行的 冯诺依曼模型&#xff1a;中央处理器&#xff08;CPU&#xff09;、内存、输入设备、输出设备、总线 CPU中&#xff1a;寄存器&#xff08;程序计数器、通用暂存器、指令暂存器&#xff09;&#xff0c;控制单元&#xff08;控制CPU工作&am…

[word] word页面视图放大后,影响打印吗? #笔记#学习方法

word页面视图放大后&#xff0c;影响打印吗&#xff1f; word文档的页面视图又叫普通视图&#xff0c;又叫打印视图&#xff0c;是系统默认的视图&#xff0c;是用户用的最多最常见的视图。 问&#xff1a;怎样打开页面视图&#xff1f; 答&#xff1a;两种方法 方法一、点…

JS 基本语句

函数调用&#xff0c;分支&#xff0c;循环&#xff0c;语句示例。 <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"&g…

【Funny guys】龙年专属测试鼠标寿命小游戏...... 用Python给大家半年了......

目录 【Funny guys】龙年专属测试鼠标寿命小游戏...... 用Python给大家半年了...... 龙年专属测试鼠标寿命小游戏用Python给大家半年了贪吃龙游戏 文章所属专区 码农新闻 欢迎各位编程大佬&#xff0c;技术达人&#xff0c;以及对编程充满热情的朋友们&#xff0c;来到我们的程…

【项目实践03】【布隆过滤器】

文章目录 一、前言二、项目背景三、实现方案1. 谷歌 布隆过滤器2. Redis 布隆过滤器 四、思路延伸1. 布隆过滤器的实现原理2. 布隆过滤器的一些扩展3. 布谷鸟过滤器 五、参考内容 一、前言 本系列用来记录一些在实际项目中的小东西&#xff0c;并记录在过程中想到一些小东西&a…

基于python+控制台的车辆信息管理系统

基于python控制台的车辆信息管理系统 一、系统介绍二、效果展示三、其他系统实现四、获取源码 一、系统介绍 打印功能菜单、添加车辆信息、删除车辆信息、修改车辆信息、显示车辆信息、退出系统&#xff0c;并且需要接收用户的输入&#xff0c;在根据输入内容调用相应函数实现…

Docker部署Grafana+Promethus监控Mysql和服务器

一、Grafana部署所需资源 Grafana 需要最少的系统资源&#xff1a; 建议的最小内存&#xff1a;512 MB建议的最低 CPU&#xff1a;1 官方文档&#xff1a;https://grafana.com/docs/grafana/latest/getting-started/build-first-dashboard/ 可以看到&#xff0c;我的这台服务…

有了Future为什么还要CompletableFuture?

文章目录 Future 接口理论知识复习Future 接口概述场景描述小结 Future 接口常用实现类 FutureTask 异步任务Future 的作用Futrue 编码测试优缺点分析优点缺点小结 面对一些复杂的任务对于简单的业务场景使用 Future 接口完全 OK回调通知创建异步任务多个任务前后依赖可以组合对…

PaddleDetection学习4——使用Paddle-Lite和OpencCV在 Android 上实现实时的人脸检测(java)

使用Paddle-Lite在 Android 上实现人脸检测 1 环境准备2. 部署步骤2.1 下载PaddleLite-android-demo2.2 运行face_detection_demo项目3 导入OpenCV进行优化3.1 Android Studio配置OpenCV3.2 预处理代码3.3 后处理代码3.4 优化结果1 环境准备 参考前一篇在 Android 上使用Paddl…

DFS——连通性和搜索顺序

dfs的搜索是基于栈&#xff0c;但一般可以用用递归实现&#xff0c;实际上用的是系统栈。有内部搜索和外部搜索两种&#xff0c;内部搜索是在图的内部&#xff0c;内部搜索一般基于连通性&#xff0c;从一个点转移到另一个点&#xff0c;或者判断是否连通之类的问题&#xff0c…

[Python] opencv - 什么是直方图?如何绘制图像的直方图?

什么是直方图&#xff1f; 直方图是一种统计图&#xff0c;用于展示数据的分布情况。它将数据按照一定的区间或者组进行划分&#xff0c;然后计算在每个区间或组内的数据频数或频率&#xff08;即数据出现的次数或占比&#xff09;&#xff0c;然后用矩形或者柱形图的形式将这…

C++学习Day03之构造函数和析构函数

目录 一、程序及输出1.1 构造函数1.2 析构函数1.3 构造和析构必须要声明在全局作用域 二、分析与总结 一、程序及输出 1.1 构造函数 构造函数 没有返回值 不用写void 函数名 与 类名相同 可以有参数 &#xff0c;可以发生重载 构造函数 由编译器自动调用一次 无须手动调用 创建…

C语言——Q/编译和链接

目录 一、翻译环境和运⾏环境 二、翻译环境 1、预处理&#xff08;预编译&#xff09; 2、编译 2.2.1 词法分析&#xff1a; 2.2.2 语法分析 2.2.3 语义分析 3、汇编 4、链接 三、运行环境 一、翻译环境和运行环境 在ANSI C 的任何⼀种实现中&#xff0c;存在两个不…