大语言模型-文本向量模型评估基准 MTEB

MTEB(Massive Text Embedding Benchmark)

涵盖112种语言的58个数据集,包含如下8种任务

1、双语文本挖掘(Bitext Mining)

任务目标: 在双语语料库中识别语义等价的句子对。

任务描述: 输入是来自两种不同语言的两个句子集,对于来自第一个句子集的句子,找到在第二个子集中最匹配的句子。模型将句子编码成向量后用余弦相似度来寻找最相似的句子对。

评估指标: F1是主要的评估指标、Accuracy、precision、recall

2、文本分类(Classification)

任务目标: 模型能够对文本的类别进行准确标注。

任务描述: 基于提供的模型生成文本向量,并使用这些向量作为特征来训练分类器,对文本进行分类。
评估指标: 准确率(多分类)、精确率(二分类)

3、文本聚类(Clustering)

任务目标: 模型能够将文本分组至N个预先没有定义的类别中。
任务描述: 基于提供的模型生成文本向量,并利用聚类模型对这些向量进行分组。

评估指标: V-Measure

4、句子对分类(Pair Classification)

任务目标: 模型能够判断一对文本之间是否存在特定关系,如语义等价或对立。
任务描述: 给定一对文本,判断其是否具有相同含义。

评估指标: AP

5、重新排序(Reranking)

任务目标: 给定一个查询语句和一组候选文本,目标是根据这组候选文本与查询语句的相关性对候选文本进行排序。
任务描述: 输入是一个查询语句以及一组候选文本的列表。模型编码文本后比较与查询语句的相似性。

评估指标: MAP

6、检索(Retrieval)

任务目标: 从大规模文档库中检索出查询语句匹配度最高的文档。
任务描述: 文本向量化后对所有查询语句和文档库中文档计算余弦相似度。得到k个相似度最高的候选文档。

评估指标: NDCG@k

7、语义文本相似度(Semantic Textual Similarity, STS)

任务目标: 模型能够估给定句子对的语义相似度。
任务描述: 基于提供的模型生成文本向量,并使用诸如余弦相似度之类的度量来计算它们之间的相似性。

评估指标: Spearman秩相关性系数

8、摘要(Summarization)

任务目标: 模型需要给机器生成的摘要打分。
任务描述: 包括一个手写摘要和机器生成摘要数据集。模型编码所有摘要,然后对于每一个机器生成摘要向量,计算其与所有手写摘要向量的距离。

评估指标: Pearson、Spearman相关性

参考:

MTEB: Massive Text Embedding Benchmark
词向量模型评估

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/873531.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Nature子刊 | ATAC-seq、RNA-seq和蛋白组联合分析揭示脂质激活转录因子PPARα在肾脏代偿性肥大的作用机制

2023年6月,美国国立心肺血液研究所的研究团队在Nature Communications上发表题为“Signaling mechanisms in renal compensatory hypertrophy revealed by multi-omics”的文章,该研究通过在单侧肾切除的小鼠模型中使用多组学方法(蛋白质组学…

深入浅出WebRTC—NACK

WebRTC 中的 NACK(Negative Acknowledgment)机制是实时通信中处理网络丢包的关键组件。网络丢包是常见的现象,尤其是在无线网络或不稳定连接中。NACK 机制旨在通过请求重传丢失的数据包来减少这种影响,从而保持通信的连续性和质量…

Open3D 非线性最小二乘法拟合空间球

目录 一、概述 1.1原理 1.2实现步骤 二、代码实现 2.1关键代码 2.1.1定义残差函数 2.1.2拟合球面 2.2完整代码 三、实现效果 3.1原始点云 3.2拟合后点云 3.3结果数据 前期试读,后续会将博客加入下列链接的专栏,欢迎订阅 Open3D点云算法与点…

spark 动态资源分配dynamicAllocation

动态资源分配,主要是spark在运行中可以相对合理的分配资源。 初始申请的资源远超实际需要,减少executor初始申请的资源比实际需要少很多,增多executorSpark运行多个job,这些job所需资源有的多有的少,动态调整executor…

GPT-4o 与 GPT-4o Mini:两者的区别和特点

在人工智能领域,OpenAI 的 GPT 系列模型一直处于技术前沿。最近,OpenAI 发布了两个版本的模型:GPT-4o 和 GPT-4o Mini。这两个模型虽然都属于 GPT-4 系列,但在应用和性能上有一些显著的差异。本文将深入探讨这两个模型的不同之处。…

Automation Anywhere推出新一代AI+自动化企业系统,助力企业实现10倍商业增长

RPA厂商纷纷进军AI Agent ( AI 代理)领域,陆续推出创新产品。最近,Automation Anywhere宣布推出其新的AI 自动化企业系统,该系统结合AI和自动化技术,以实现指数级的业务成果。 在Imagine 2024大会上首次亮相的这款新产品&#xf…

前端实现视频播放添加水印

一、效果如下 二、代码 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>Document</title> </head> <body><style>.container {position: relative;}.base {width: 300px;hei…

鸿蒙开发StableDiffusion绘画应用

Stable Diffusion AI绘画 基于鸿蒙开发的Stable Diffusion应用。 Stable Diffusion Server后端代码 Stable Diffusion 鸿蒙应用代码 AI绘画 ​ 使用Axios发送post网络请求访问AI绘画服务器 api &#xff0c;支持生成图片保存到手机相册。后端服务是基于flaskStable Diffusion …

ACM中国图灵大会专题 | 图灵奖得主Manuel Blum教授与仓颉团队交流 | 华为论坛:面向全场景应用编程语言精彩回顾

ACM 中国图灵大会&#xff08;ACM Turing Award Celebration Conference TURC 2024&#xff09;于2024年7月5日至7日在长沙举行。本届大会由ACM主办&#xff0c;in cooperation with CCF&#xff0c;互联网之父Vinton Cerf、中国计算机学会前理事长梅宏院士和廖湘科院士担任学术…

移动端如何离线使用GPT

在移动端离线使用GPT&#xff0c;只需要一个app&#xff1a;H2O AI Personal GPT 是H2OAI上架的一款app&#xff0c;可离线使用&#xff0c;注重数据隐私&#xff0c;所有数据都只存储在本地。对H2OAI感兴趣的伙伴&#xff0c;可移步&#xff1a;https://h2o.ai 该app支持的模…

Intel和AMD用户再等等!微软确认Win11 24H2年底前登陆

微软近日确认&#xff0c;Windows 11 24H2版本将于2024年底前正式登陆使用英特尔和AMD处理器的PC。 根据微软介绍&#xff0c;Windows 11 24H2将作为传统功能更新&#xff0c;将在今年晚些时候提供给所有设备。 此前&#xff0c;微软已向搭载骁龙X Plus和X Elite系列处理器的Co…

作为爬虫工程师,在封装API时如何做得更好

在数据驱动的时代&#xff0c;爬虫工程师的角色日益重要。他们不仅是数据的收集者&#xff0c;更是数据的桥梁构建者&#xff0c;通过编写高效、稳定的爬虫程序&#xff0c;将互联网上的海量信息转化为有价值的数据集。而在这一过程中&#xff0c;API&#xff08;应用程序接口&…

esp8266模块(1)

1WiFi的两种模式 1AP模式&#xff1a;ESP8266模块充当一个无线接入点&#xff0c;类似于一个路由器。&#xff08;如手机开热点&#xff09; 2Station模式&#xff08;sta&#xff09;&#xff1a;ESP8266模块作为客户端连接到一个现有的WiFi网络。&#xff08;如路由器&#…

阿里云服务器 篇五:短链服务网站

文章目录 系列文章YOURLS安装步骤更新服务器安装Apache Web服务器安装MySQL安装PHP 8.3和必要的PHP 8.3扩展安装YOURLS使用YOURLS基本用法关于错误消息"Could not auto-encrypt passwords"改为中文语言提供公共使用页面当短链无效时,进行错误提示YOURLS 的 Bookmark…

主流微调训练方法总结 LoRA、Adapter、Prefix-tuning、P-tuning、Prompt-tuning

一文搞清楚LORA、Prompt Tuning、P-Tuning、Adapter 、Prefix等大模型微调方法 大模型主流微调训练方法总结 LoRA、Adapter、Prefix-tuning、P-tuning、Prompt-tuning 并训练自己的数据集 五万字综述&#xff01;Prompt-Tuning&#xff1a;深度解读一种新的微调范式

深度剖析机构号矩阵系统:如何根据业务需求做出明智选择

在数字化营销的浪潮中&#xff0c;短视频平台如抖音、快手等已成为品牌传播和用户互动的重要渠道。为了更高效地管理这些平台的账号&#xff0c;机构号矩阵系统应运而生。本文将深度剖析机构号矩阵系统&#xff0c;并探讨如何根据业务需求做出明智的选择。 机构号矩阵系统概述…

VBA中如何使用Edge内核Browser?

问题&#xff1a; 在微软宣布停止对IE的支持后&#xff0c;许多使用VBA中Web Browser的用户遇到了困境&#xff0c;因为Web Browser使用的IE内核。然而微软并没有给出支持Edge的新版Web Browser&#xff0c;网上许多第三方的库也不够完善。 解决方案&#xff1a; 经过调研&a…

git删除本地远程分支

gitlab删除远程分支 要删除GitLab上的远程分支&#xff0c;你可以使用Git命令行工具。以下是删除远程分支的步骤和示例代码&#xff1a; 首先&#xff0c;确保你已经在本地删除了分支。删除本地分支的命令是&#xff1a; git branch -d <branch_name> 如果分支没有被合…

网络爬虫入门(学习笔记)

爬取网页源代码 抓取百度首页的HTML源代码&#xff0c;并将其保存到一个名为baidu.html的文件中。打开这个文件&#xff0c;可以看到一个和百度首页一模一样的页面。 from urllib.request import urlopen# 发送请求并获取响应 response urlopen("http://www.baidu.com&q…

基于 Gunicorn、Flask 和 Docker 的 Web 应用开发

基于 Gunicorn、Flask 和 Docker 的 Web 应用开发教程 欢迎语 欢迎来到基于 Gunicorn、Flask 和 Docker 的 Web 应用开发教程&#xff0c;让我们开始构建你的微服务架构&#xff01; 第一部分&#xff1a;Docker 和 Flask 简介 1.1 Docker 基本概念 Docker 是一个开源的应…