特征工程四-1：自定义函数find_similar_docs查找最相似文档案例

特征工程四-1：自定义函数find_similar_docs查找最相似文档案例

bicheng/2025/12/14 14:53:42/文章来源:https://blog.csdn.net/qq_37713191/article/details/147564386

find_similar_docs 函数参数详解及实际示例

函数参数说明

def find_similar_docs(query, vectorizer, doc_matrix, top_n=3):

参数	类型	说明
`query`	str	要查询的文本字符串
`vectorizer`	TfidfVectorizer	已经训练好的TF-IDF向量化器
`doc_matrix`	scipy.sparse.csr_matrix	文档集的TF-IDF特征矩阵
`top_n`	int	返回最相似文档的数量（默认为3）

实际应用示例

1. 准备数据

from sklearn.feature_extraction.text import TfidfVectorizer# 示例文档集
documents = ["机器学习是人工智能的核心领域","深度学习是机器学习的一个分支","自然语言处理是人工智能的重要应用","计算机视觉使用深度学习技术","数据分析需要统计学知识"
]# 初始化并训练TF-IDF向量化器
vectorizer = TfidfVectorizer()
doc_matrix = vectorizer.fit_transform(documents)  # 文档特征矩阵

2. 使用函数查询

# 查询与"人工智能技术"相似的文档
query_text = "人工智能技术"
similar_indices = find_similar_docs(query_text, vectorizer, doc_matrix, top_n=2)print("最相似的文档索引:", similar_indices)

3. 查看结果

print("\n查询内容:", query_text)
print("\n最相似的{}个文档:".format(len(similar_indices)))
for idx in similar_indices:print(f"[文档{idx}] {documents[idx]}")

预期输出结果

最相似的文档索引: [0 2]查询内容: 人工智能技术最相似的2个文档:
[文档0] 机器学习是人工智能的核心领域
[文档2] 自然语言处理是人工智能的重要应用

参数传递示意图

查询流程:
1. query = "人工智能技术" (用户输入)
2. vectorizer (已用documents训练好的)
3. doc_matrix (由vectorizer从documents生成)
4. top_n = 2 (用户指定)处理过程:
query → vectorizer.transform → 查询向量 → cosine_similarity计算 → 排序 → 返回top_n索引

实际应用场景

搜索引擎：输入搜索词，返回相关文档
问答系统：找到与问题最相似的已知答案
推荐系统：根据当前内容推荐相似文章
论文查重：查找与待查论文相似的已有文献

注意事项

vectorizer必须提前训练：要使用fit_transform()而非仅transform()
矩阵一致性：doc_matrix必须由同一个vectorizer生成
稀疏矩阵：doc_matrix通常是scipy的稀疏矩阵格式
中文处理：需要先分词，建议在TfidfVectorizer中使用中文分词器

这个函数封装了TF-IDF向量化和余弦相似度计算的完整流程，是构建文本检索系统的核心组件。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/78661.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

连锁美业管理系统「数据分析」的重要作用分析︳博弈美业系统疗愈系统分享

连锁美业管理系统「数据分析」的重要作用分析︳博弈美业系统疗愈系统分享

美业管理系统中的数据分析功能在提升运营效率、优化客户体验、增强决策科学性等方面具有重要作用。数据分析功能将美业从“经验驱动”升级为“数据驱动”，帮助商家在客户管理、成本控制、服务创新等环节实现精细化运营，最终提升盈利能力与品牌竞争力…

阅读更多...

当元数据遇见 AI 运维：智能诊断企业数据资产健康度

当元数据遇见 AI 运维：智能诊断企业数据资产健康度

在数字化浪潮席卷全球的当下，企业数据资产规模呈指数级增长，然而传统数据监控方式却逐渐暴露出诸多弊端。想象一下，在某头部电商的晨会上，数据工程师小王正经历职业生涯最尴尬的时刻：“昨天促销活动的 UV 数据为什么比…

阅读更多...

淘宝tb.cn短链接生成

淘宝tb.cn短链接生成

淘宝短链接简介 1. 一键在线生成淘宝短链接tb.cn,m.tb.cn等 2. 支持淘宝优惠券短链接等淘宝系的所有网址 3. 生成的淘宝短链接是官方的，安全稳定有保证 4.适合多种场景下使用，如：网站推广，短信推广量大提供api接口&#xff0…

阅读更多...

【LLM应用开发101】初探RAG

【LLM应用开发101】初探RAG

本文是LLM应用开发101系列的先导篇，旨在帮助读者快速了解LLM应用开发中需要用到的一些基础知识和工具/组件。本文将包括以下内容：首先会介绍LLM应用最常见的搜索增强生成RAG,然后引出实现RAG的一个关键组件 – 向量数据库，随后我们是我们这…

阅读更多...

努比亚Z70S Ultra 摄影师版将于4月28日发布，首发【光影大师990】传感器

努比亚Z70S Ultra 摄影师版将于4月28日发布，首发【光影大师990】传感器

4月22日消息，努比亚将在4月28日14:00召开努比亚AI双旗舰新品发布会，预计发布努比亚Z70S Ultra 摄影师版和努比亚首款平板产品。据悉，努比亚Z70S Ultra 摄影师版将搭载第七代真全面无孔屏、第五代原生35mm高定光学、6600mAh电池，可…

阅读更多...

DAY7-C++进阶学习

DAY7-C++进阶学习

模板学习链接1：C模板入门学习学习链接2：C模板进阶学习 STL的重要实现原理，模板的声明和定义建议放到一个文件 xxx.hpp 里面或者 xxx.h，防止编译错误。函数模板特化 1.基础模板 2.template<> 3.函数名<特化类型>…

阅读更多...

redis_Windows中安装redis

redis_Windows中安装redis

①Windows安装包下载地址：https://github.com/tporadowski/redis/releases 当前最新版本截图 ②根据自己系统平台的实际情况选择对应的安装包，如：64位win10系统可选择Redis-x64-5.0.14.msi ③下载完成后运行安装，没有特殊要求的话…

阅读更多...

Windows 安装 MongoDB 教程

Windows 安装 MongoDB 教程

Windows 安装 MongoDB 教程 MongoDB 是一个开源的 NoSQL 数据库，它使用文档存储模型而不是传统的关系表格。它非常适合需要处理大量数据并且需要高性能、可扩展性的应用场景。下面是如何在 Windows 系统上安装 MongoDB 的详细步骤。一、准备工作确保你的 Windo…

阅读更多...

Vue Router 核心指南：构建高效单页应用的导航艺术

Vue Router 核心指南：构建高效单页应用的导航艺术

Vue Router 是 Vue.js 官方路由管理器，为单页应用（SPA）提供了无缝的页面切换体验。本文将深入解析其核心功能与最佳实践。一、基础配置 1. 安装与初始化 npm install vue-router // router/index.js import Vue from vue import Router …

阅读更多...

基础学习：（9）vit -- vision transformer 和其变体调研

基础学习：（9）vit -- vision transformer 和其变体调研

文章目录前言1 vit 热点统计1.1 目标分类 / 基础与改进1.2 轻量化 ViT / 移动部署优化(移动端)1.3 密集预测（语义分割 / 深度估计等）1.4 目标/词汇检测1.5 掩码改进1.6 多模态/ 通用大模型1.7 分布式训练 / 效果提升1.8 任务特化应用（图表 …

阅读更多...

同样开源的自动化工作流工具n8n和Dify对比

同样开源的自动化工作流工具n8n和Dify对比

n8n和Dify作为两大主流工具，分别专注于通用自动化和AI应用开发领域，选择哪个更“好用”需结合具体需求、团队能力及业务场景综合判断。以下是核心维度的对比分析： 一、核心定位与适用场景维度n8nDify核心定位开源全场景自动化工具&#xff…

阅读更多...

网页设计规范：从布局到交互的全方位指南

网页设计规范：从布局到交互的全方位指南

网页设计规范看似繁杂，但其实都是为了给用户提供更好的体验。只有遵循这些规范，才能设计出既美观又实用的网页，让用户在浏览网页时感到舒适、愉悦。一、用户体验至上用户体验（UX）是网页设计的核心原则之一。设计师…

阅读更多...

图神经网络（GNN）基本概念与核心原理

图神经网络（GNN）基本概念与核心原理

图神经网络（GNN）基本概念与核心原理图神经网络（GNN）是一类专门处理图结构数据的神经网络模型 (GTAT: empowering graph neural networks with cross attention | Scientific Reports)。图结构数据由节点（表示实体）和边（表示实体间关系）构成，每个节点和边都可以带有特…

阅读更多...

【双指针】专题：LeetCode 18题解——四数之和

【双指针】专题：LeetCode 18题解——四数之和

四数之和一、题目链接二、题目三、题目解析四、算法原理解法一：排序暴力枚举利用 set 去重解法二：排序双指针五、编写代码六、时间复杂度和空间复杂度一、题目链接四数之和二、题目三、题目解析题目要求基本与三数之和一样。四、算法原…

阅读更多...

3.0/Q2，Charls最新文章解读

3.0/Q2，Charls最新文章解读

diseases and depressive symptoms comorbidity on the risk of cognitive impairment in middle-aged and older adults people based on the CHARLS database DOI：10.3389/fpubh.2025.1558430 中文标题：基于CHARLS数据库的慢性病与抑郁症状共病对中老年…

阅读更多...

学习笔记—双指针算法—移动零

学习笔记—双指针算法—移动零

双指针算法移动零 283. 移动零 - 力扣（LeetCode） 题目描述： 给定一个数组 nums，编写一个函数将所有 0 移动到数组的末尾，同时保持非零元素的相对顺序。请注意 ，必须在不复制数组的情况下原地对数组进…

阅读更多...

组件的基本知识

组件的基本知识

组件组件的基本知识组件概念组成步骤好处全局注册生命周期scoped原理父子通信步骤子传父概念就是将要复用的标签，抽离放在一个独立的vue文件中，以供主vue文件使用组成三部分构成 template：HTML 结构 script: JS 逻辑 style: CSS 样…

阅读更多...

将视频生成视频二维码步骤

将视频生成视频二维码步骤

如何将视频链接生成二维码生成与视频关联的二维码通常涉及以下几个方面：选择合适的库或工具、准备视频链接以及将其转换为二维码图像。以下是详细的说明： 使用JavaScript/Vue框架生成二维码在前端开发中，可以使用 qrcode 或者 vue-qrcod…

阅读更多...

关系型数据库PostgreSQL for Mac 保姆级使用教程

关系型数据库PostgreSQL for Mac 保姆级使用教程

第一部分：安装PostgreSQL 方法一：使用Postgres.app（最简单） 访问 Postgres.app官网下载最新版本，将 Postgres.app 移动到 “Applications” 文件夹。双击Postgres.app打开应用，点击"Initialize&q…

阅读更多...

Redis超详细入门教程（基础篇）

Redis超详细入门教程（基础篇）

一：Redis 简介 （1）Mysql: 将数据通过数据文件存在磁盘上通过二维表存储数据 （2）Redis 定义： 优点： 热点数据：短时间内有大量用户访问二：Redis下载与安装 Windows系统安…

阅读更多...

最新文章