数据挖掘——相似文章推荐

  相似文章推荐:在用户阅读某篇文章时,为用户推荐更多的与在读文章内容相类似的文章

  相关概念:

推荐(Recommended):指介绍好的人或事物,希望被任用或接受。数据挖掘领域,推荐包括相似推荐和协同过滤推荐。

相似推荐(Similar Recommended): 指当用户表现出对某人或者某物的兴趣时,为他推荐与之相类似的人或者物,核心定理:人以群分,物以类聚。

协同过滤推荐(Collaborative Filtering Recommendation):指利用已有用户群过去的行为或意见,预测当前用户最可能喜欢哪些东西或对哪些东西感兴趣

相关文章推荐主要基于余弦相似度的计算原理。

余弦相似度(Cosine Similarity):用向量空间中两个向量夹角的余弦值作为衡量两个个体见差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这个特征叫做余弦相似性。

          

 

文章的余弦相似度:

素材:文章A、文章B

#对两篇文章进行分词,  得到  [A] 、 [B]  两个分词列表

#根据分词结果构建分词语料库,得到 [C] = [A] | [B] 

#根据语料库分别统计A、B的词频(向量化,需要严格按照分词语料库单词的顺序)

#计算余弦值

 

具体实现:在构建语料库/中文分词/文档向量化之后

#计算余弦相似度
from sklearn.metrics import pairwise_distances 
#计算每行之间的距离,得到距离矩阵
distance_matrix = pairwise_distances(textVector,metric='cosine')#排序得到距离第2-6名的矩阵元素
sort = np.argsort(distance_matrix,axis=1)[:,1:6]
similar5 = pd.Index(filepath)[sort].values#得到相似度前5的文章路径数据框
similarDF = pd.DataFrame({'filepath':corpos.filePath,'s1':similar5[:,0],'s2':similar5[:,1],'s3':similar5[:,2],'s4':similar5[:,3],'s5':similar5[:,4],})

 

转载于:https://www.cnblogs.com/rix-yb/p/9720999.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/537784.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c语言设计一个按时间片轮转法实现处理器调度的程序,设计一个按时间片轮转法实现处理器调度的程序...

实验一处理器调度一、实习内容选择一个调度算法,实现处理器调度。;二、实习目的在采用多道程序设计的系统中,往往有若干个进程同时处于就绪状态。当就绪进程个数大于处理器数时,就必须依照某种策略来决定哪些进程优先占用处理器。…

Perl的浅拷贝和深度拷贝

首先是深、浅拷贝的概念: 浅拷贝:shallow copy,只拷贝第一层的数据。Perl中赋值操作就是浅拷贝深拷贝:deep copy,递归拷贝所有层次的数据,Perl中Clone模块的clone方法,以及Storable的dclone()函…

linux lvm 查看,Linux LVM 详解

逻辑卷管理LVM是一个多才多艺的硬盘系统工具。无论在Linux或者其他类似的系统,都是非常的好用。传统分区使用固定大小分区,重新调整大小十分麻烦。但是,LVM可以创建和管理“逻辑”卷,而不是直接使用物理硬盘。可以让管理员弹性的管…

智慧园区-楼宇建模技巧之【建楼篇】

一、国际惯例先上图 二、有什么用?用什么搞的?花了多久? 用途 室内定位(会议室、停车位查找等)安防监控(直接定位到某个楼道的摄像头拉取视频流)各种传感器数据三维可视化请问哪里可以买到呢(含笑半步癫2333) 我这里正好有一个。https://iot.…

asp.net core输出中文乱码的问题

原文:asp.net core输出中文乱码的问题 摘要 在学习asp.net core的时候,尝试在控制台,或者页面上输出中文,会出现乱码的问题。 问题重现 新建控制台和站点 public class Program{public static void Main(string[] args){ Console.W…

android oom工具,Android OOM-Heap,MAT工具检测内存泄露

概述在android的开发中,要时刻主要内存的分配和垃圾回收,因为系统为每一个dalvik虚拟机分配的内存是有限的,在google的G1中,分配的最大堆大小只有16M,后来的机器一般都为24M,实在是少的可怜。这样就需要我们…

windows 端微信多开

假设微信安装目录为 "E:\Program Files\WeChat\WeChat.exe" 打开记事本,复制一下命令,保存为 bat 文件 echo off start /d "E:\Program Files\WeChat\" WeChat.exe start /d "E:\Program Files\WeChat\" WeChat.exe exi…

超详细MFS网络分布式文件系统

-----------------------MFS---------------------- (1)分布式原理 分布式文件系统( Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。简单来说,就是把一些分散的(分布在局域网内各个…

markdown文件转word文件

工具: https://github.com/jgm/pandoc/releases/tag/2.2.3.2 下载pandoc安装包之后,像安装普通软件一样点开安装就可以了。安装完成之后,打开cmd命令行,输入pandoc -v,如果正常显示出类似下面的信息就表明安装成功&a…

android全面屏系统哪个版本开始,Android全面屏

所谓全面屏手机,就是屏幕纵横比大于1.86的设备。例如:举个例子.png官方文档:If your app targets Android 8.0 (API level 26) or higher, it fills the entire screen, according to its layout.If your app targets Android 7.1 (API level…

AliOS Things声源定位应用演示

摘要: 1. 概述 利用麦克风阵列进行声源定位在智能降噪、语音增强、语音识别等领域有广泛应用和研究前景。本文介绍基于AliOS Things STM32F413H Discovery开发板实现声源定位算法集成和功能演示。 概述利用麦克风阵列进行声源定位在智能降噪、语音增强、语音识别等…

Mysql 使用正则表达式

需求:匹配出姓名字段里非中文的 SELECT * FROM 表 WHERE REAL_NAME REGEXP ([\\u4e00-\\u9fa5]{1,20}|[a-zA-Z\\.\\s]{1,20}) ; 查询结果如下

2、Collections操作(自定义类)的各种实现

2019独角兽企业重金招聘Python工程师标准>>> 1、排序(sort) 要想实现排序,必须实现compare方法,这样Collection才知道是怎样的排序规则。普通的数据类型,比如:int 、String、long等都已经实现了Comparable接口&#xf…

android多接口请求参数,okhttp3 使用json参数post方式请求接口数据(android)

1. 谷歌自带的json不支持像map一样直接put字符串进去,所以先导入阿里的json包2. 创建json对象,并且放入所要请求的参数 //登录 private void loginRequest() { String url Contents.url"login"; JSONObject json new JSONObject(); json.put…

由浅入深,一文掌握NGINX知识文集

🏆作者简介,普修罗双战士,一直追求不断学习和成长,在技术的道路上持续探索和实践。 🏆多年互联网行业从业经验,历任核心研发工程师,项目技术负责人。 🎉欢迎 👍点赞✍评论…

Python语法特点如注释规则、代码缩进、编码规范等

在Python中,通常包括3种类型的注释,分别是单行注释、多行注释和中文编码声明注释。单行注释在Python中,使用“#”作为单行注释的符号。从符号“#”开始直到换行为止,“#”后面所有的内容都作为注释的内容,并被Python编…

修改android.jar教程,Android修改jar包文件

1、Android studio中新建java文件,取和将要修改的文件相同的文件名,把class文件中代码复制过去,修改需要改动的代码2、新建txt文件,将新建的Java文件按照依赖关系将路经添加到新建的txt文件中,被依赖的放在最前面(ps:此…

win10安装TortoiseGit

TortoiseGit 是Git的可视化工具。所以前提是已经安装了Git,安装很简单一路next。 下载地址,百度搜“TortoiseGit”,一般是第一个。 目前地址是:https://tortoisegit.org/download/ 如果打不开,可以进入腾讯软件中心…

Python3.8安装 jupyter报错 NotImplementedError

报错如下: 原因: 是由于 python3.8 asyncio 在 windows 上默认使用 ProactorEventLoop 造成的,而不是之前的 SelectorEventLoop。jupyter 依赖 tornado,而 tornado 在 window 上需要使用 SelectorEventLoop,所以产生这…

浅析Nginx 正向代理与反向代理

1、正向代理和反向代理的概念 无论是正向代理,还是反向代理,说到底,就是代理模式的衍生版本罢了。我们都学习过代理设计模式,都知道代理模式中有代理角色和被代理角色,为什么这么说,因为这两个角色对于我们…