python计算中文文本相似度神器 sentence_transformer、text2vec

python计算中文文本相似度神器

import sys
from sentence_transformers.util import cos_sim
from sentence_transformers import SentenceTransformer as SBert#model = SBert('paraphrase-multilingual-MiniLM-L12-v2') #如果这调用模型有问题,需自行下载,该模型 ,
#[下载网址](https://public.ukp.informatik.tu-darmstadt.de/reimers/sentence-transformers/v0.2/)model = SBert("C:\\Users\xxxx\Downloads\\paraphrase-multilingual-MiniLM-L12-v2")# Two lists of sentences
sentences1 = ['如何更换花呗绑定银行卡','The cat sits outside','A man is playing guitar','The new movie is awesome']sentences2 = ['花呗更改绑定银行卡','The dog plays in the garden','A woman watches TV','The new movie is so great']# Compute embedding for both lists
embeddings1 = model.encode(sentences1)
embeddings2 = model.encode(sentences2)# Compute cosine-similarits
cosine_scores = cos_sim(embeddings1, embeddings2)
cosine_scores

sentence_transformers

text2vec

5分钟 NLP系列 — SentenceTransformers 库介绍

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478190.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何看待NLP领域的内卷:我不配找工作?

在过去几年时间里,NLP领域取得了飞速的发展,这也推动了NLP在产业中的持续落地,以及行业对相关人才的需求。 但这里我们要面对的现实是,行业上90%以上的NLP工程师是“不合格的”。在过去几个月时间里,我们其实也面试过数…

LeetCode 537. 复数乘法

文章目录1. 题目2. 字符串提取数字1. 题目 给定两个表示复数的字符串。 返回表示它们乘积的字符串。注意,根据定义 i2 -1 。 示例 1: 输入: "11i", "11i" 输出: "02i" 解释: (1 i) * (1 i) 1 i2 2 * i 2i ,你需…

Storm 的可靠性保证测试

Storm 是一个分布式的实时计算框架,可以很方便地对流式数据进行实时处理和分析,能运用在实时分析、在线数据挖掘、持续计算以及分布式 RPC 等场景下。Storm 的实时性可以使得数据从收集到处理展示在秒级别内完成,从而为业务方决策提供实时的数…

NLP数据增强、数据增广

点击上方,选择星标或置顶,每天给你送干货! 作者:李博涵 来自:哈工大SCIR 1.摘要 本文介绍自然语言处理领域的数据增广方法。数据增广(Data Augmentation,也有人将Data Augmentation翻译为“数据…

开源开放|CCKS2021入选开放图谱资源简介

笔记整理 | 王萌(东南大学)、张宁豫(浙江大学)全国知识图谱与语义计算大会(CCKS)由中国中文信息学会语言与知识计算专委会定期举办的国内知识图谱、语义技术等领域的核心会议。知识图谱以结构化的形式描述真…

腾讯天衍实验室招聘科研实习生

致力于连接最靠谱的算法岗与最强的求职者招聘贴投放请联系微信xixiaoyao-1腾讯天衍实验室专注于AI算法研究及落地,旨在依托NLP、知识图谱、大数据、医疗影像等技术系统,将算法能力输出到公卫、医保、基层辅助诊断等领域的行业解决方案,以及腾…

LeetCode 475. 供暖器(双指针二分查找)

文章目录1. 题目2. 解题2.1 双指针2. 二分查找1. 题目 冬季已经来临。 你的任务是设计一个有固定加热半径的供暖器向所有房屋供暖。 现在,给出位于一条水平线上的房屋和供暖器的位置,找到可以覆盖所有房屋的最小加热半径。 所以,你的输入将…

ReactiveCocoa核心元素与信号流

ReactiveCocoa(以下简称“RAC”)是一个函数响应式编程框架,它能让我们脱离Cocoa API的束缚,给我们提供另外一套编码的思路与可能性,它能在宏观层面上提升代码易读性与稳定性,让程序员写出富有“诗意”的代码…

【安利向】入坑半年的GPU云平台,三分钟训练起飞!xiu~

大家好,我是Joyce,和小瑶一样,也是搞算法的,不过还在学术界摸鱼,偶尔能抓到一条顶会锦鲤,大多数时候,都是一些小鱼小虾,目前已被boss放养,每周组会都是隐形人...转眼&…

rocketQA学习笔记

端到端问答系统 rocketQA 问答技术发展回顾:

开源开放 | 糖尿病知识图谱DiaKG(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/diakg阿里云天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId88836开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:妙健康(常德杰、刘朝振、…

LeetCode 501. 二叉搜索树中的众数(中序遍历)

文章目录1. 题目2. 中序遍历1. 题目 给定一个有相同值的二叉搜索树(BST),找出 BST 中的所有众数(出现频率最高的元素)。 假定 BST 有如下定义: 结点左子树中所含结点的值小于等于当前结点的值 结点右子树…

开源开放 | 移动应用知识图谱MAKG(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/makgGitHub地址:https://github.com/Everglow123/MAKGMAKG网站:http://www.makg.com.cn开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:东南大学(周恒、…

恕我直言,你的实验结论可能严重依赖随机数种子!

文 | python编 | 小轶God does not play dice with the universe ......But BERT Does !包括BERT在内的预训练模型已经是现今NLP工作的标配。但你有没有考虑过,这些工作的实验结论可能都是虚假的?在 Bertology 中,大家从 huggingface 上下载 …

Spring MVC注解故障追踪记

Spring MVC是美团点评很多团队使用的Web框架。在基于Spring MVC的项目里,注解的使用几乎遍布在项目中的各个模块,有Java提供的注解,如:Override、Deprecated等;也有Spring提供的注解,如:Control…

一键中文数据增强包 ; NLP数据增强、bert数据增强、EDA:pip install nlpcda

NLP Chinese Data Augmentation 一键中文数据增强工具 使用:pip install nlpcda 开源不易,欢迎 star🌟 pypi:https://pypi.org/project/nlpcda/ 介绍 一键中文数据增强工具,支持: 1.随机实体替换2.近义词3.近义近…

LeetCode 951. 翻转等价二叉树(递归)

文章目录1. 题目2. 递归解题1. 题目 我们可以为二叉树 T 定义一个翻转操作,如下所示:选择任意节点,然后交换它的左子树和右子树。 只要经过一定次数的翻转操作后,能使 X 等于 Y,我们就称二叉树 X 翻转等价于二叉树 Y…

开源开放 | 开源大学在线实践数据集及知识图谱MOOPer(CCKS2021)

OpenKG地址:http://openkg.cn/dataset/mooper头歌平台:https://www.educoder.net/ch/rest开放许可协议:CC BY-SA 4.0 (署名相似共享)贡献者:湖南智擎科技有限公司(黄井泉)&#xff0…

python实现文件传输

发送者: send_file.py def send_file(filename: str "mytext.txt", testing: bool False) -> None:import socketport 12312 # Reserve a port for your service.sock socket.socket() # Create a socket objecthost socket.gethostname() # …

不同于NLP,数据驱动、机器学习无法攻克NLU,原因有三

文 | Walid S. Saba源 | 机器之心自然语言理解(NLU)是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。近年来,机器学习虽然被广泛使用,但是却不能很好的解决自然语言理解问题,其中可能涉…