spaCy v3.2发布:性能提升与向量新特性

Introducing spaCy v3.2

我们很高兴推出spaCy自然语言处理库的v3.2版本。自v3.1以来,我们增加了自定义训练和评分的可用性改进,提升了在Apple M1和Nvidia GPU硬件上的性能,并支持使用我们的新哈希嵌入扩展floret来实现空间高效的向量。

spaCy团队今年规模扩大了许多,我们即将推出许多令人兴奋的功能和示例,包括数据增强和模型蒸馏的示例项目、更多基于Transformer的流程示例,以及用于指代消解和基于图的分析的新组件。

通过AppleOps提升spaCy在Apple M1上的性能

通过调用某中心的原生Accelerate库进行矩阵乘法,spaCy现在在M1 Mac上的速度提高了高达8倍。更多详情,请查看thinc-apple-ops

pip install spacy[apple]

de_core_news_lg流程在M1、Intel MacBook和AMD Ryzen 5900X上使用与不使用thinc-apple-ops的预测速度对比。结果以每秒处理的词数为单位。

CPUBLISthinc-apple-ops封装功耗(瓦特)
Mac Mini (M1)6,49227,6765
MacBook Air Core i5 20209,79010,9839
AMD Ryzen 5900X22,568n/a52

流程的Doc输入

nlpnlp.pipe现在接受Doc对象作为输入。如果提供的是Doc而不是字符串,则会跳过分词器。这使得在使用自定义分词创建Doc或在处理前设置自定义扩展变得更加容易:

# 处理Doc对象doc=nlp.make_doc("This is text 500.")doc._.text_id=500doc=nlp(doc)

注册评分函数

为了自定义评分,您现在可以从新的scorers注册表中为配置中的每个组件指定一个评分函数:

config.cfg(摘录)

[components.tagger] factory = "tagger" scorer = {"@scorers":"spacy.tagger_scorer.v1"}

支持floret向量

我们最近发布了floret,这是fastText的一个扩展版本,它将fastText的子词与用于紧凑、全覆盖向量的Bloom嵌入相结合。使用子词意味着没有OOV(词汇表外)词,并且由于使用了Bloom嵌入,向量表可以保持非常小(<100K个条目)。Bloom嵌入已经被tok2vec中的HashEmbed用于创建紧凑的spaCy模型。为了便于集成,floret包含一个Python包装器:

pip install floret

要开始使用,请查看pipelines/floret_vectors_demo项目,该项目训练了英文的玩具floret向量并将其导入spaCy流程。对于芬兰语或韩语等黏着语,由于使用了子词(没有OOV词!),性能有显著提升,而向量表仅包含5万个条目。

芬兰语示例项目与基准测试

要尝试,请克隆pipelines/floret_fi_core_demo项目:

python -m spacy project clone pipelines/floret_fi_core_demo

芬兰语UD+NER向量和流程训练,比较标准fastText向量与floret向量。使用默认项目设置:100万(2.6G)个分词后的训练文本和5万个300维向量,标准向量约30万个键:

向量TAGPOSDEP UASDEP LASNER F
none93.592.480.173.061.6
standard (pruned: 50K vectors for 300K keys)95.995.083.177.468.1
standard (unpruned: 300K vectors/keys)96.495.082.878.470.4
floret (minn 4, maxn 5; 50K vectors, no OOV)96.995.984.579.970.1

结果已于2021年11月22日针对floret v0.10.1更新。

韩语示例项目与基准测试

要尝试,请克隆pipelines/floret_ko_ud_demo项目:

python -m spacy project clone pipelines/floret_ko_ud_demo

韩语UD向量和流程训练,比较标准fastText向量与floret向量。使用默认项目设置:100万(3.3G)个分词后的训练文本和5万个300维向量,标准向量约80万个键:

向量TAGPOSDEP UASDEP LAS
none72.585.374.065.0
standard (pruned: 50K vectors for 800K keys)77.389.178.272.2
standard (unpruned: 800K vectors/keys)79.090.379.473.9
floret (minn 2, maxn 3; 50K vectors, no OOV)82.894.183.580.5

结果已于2021年11月22日针对floret v0.10.1更新。

新的日语Transformer包

spaCy v3.2为日语新增了一个Transformer流程包ja_core_news_trf。它使用基础预分词器而不是mecab,以限制流程所需的依赖项数量。感谢Hiroshi Matsuda和spaCy日语社区的贡献!

spaCy生态系统的新成员

自上次发布以来,spaCy生态系统新增了一些很酷的内容!以下是一些您可以安装以增强spaCy项目能力的新插件和扩展:

  • 💬spacy-clausie: ClausIE信息提取系统的实现。
  • 🎨ipymarkup: 用于NER和句法树标记的NLP可视化集合。
  • 🌳deplacy: 通用依赖和即时Catena分析的树可视化工具。

以下软件包已更新以支持spaCy v3

  • 🕵️‍♂️holmes: 基于谓词逻辑的英语和德语信息提取。
  • 🌐spaCyOpenTapioca: 用于Wikidata上命名实体链接的OpenTapioca包装器。
  • 🇩🇰DaCy: 最先进的丹麦语NLP流程。

查看spaCy生态系统

资源

  • spaCy v3.2: v3.2的新功能
  • 发布说明: 详细概述
  • spaCy模型目录: 下载训练好的流程
  • spaCy生态系统: 项目、插件和扩展
  • spaCy项目模板: 端到端NLP工作流
  • 视频教程: YouTube上更深入的spaCy内容

关于作者

Matthew Honnibal
CTO,创始人。Matthew是AI技术领域的领先专家。他于2009年完成博士学位,并在此后又花费了5年时间发表关于最先进NLP系统的研究。他于2014年离开学术界,编写spaCy并创立了Explosion。 帖子

Ines Montani
CEO,创始人。Ines是Explosion的联合创始人,也是spaCy NLP库和Prodigy注释工具的核心开发者。她帮助为AI工程师和研究人员的开发者工具设定了新的用户体验标准。 帖子

Sofie Van Landeghem
机器学习工程师,spaCy负责人。Sofie是一名机器学习和NLP工程师,在2006年攻读硕士学位期间对该领域产生了浓厚兴趣。她的博士研究专注于生命科学的文本挖掘,之后在制药和食品行业进行了博士后研究。 帖子

Adriane Boyd
机器学习工程师。Adriane是一名计算语言学家,自2005年以来一直从事研究工作,于2012年完成博士学位。她在语言标注质量控制、句法分析以及非标准语言的NLP方面拥有丰富的经验。 帖子

Paul O’Leary McCann
机器学习工程师 帖子

Daniël de Kok
机器学习工程师 帖子

Duygu Altinok
机器学习工程师 帖子

Edward Schmuhl
机器学习工程师 帖子

Lj Miranda
机器学习工程师 帖子

Philip Vollet
开发者关系负责人 帖子
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1173590.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

实用指南:认识网络空间搜索引擎

实用指南:认识网络空间搜索引擎2026-01-17 13:23 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !import…

全网最全8个一键生成论文工具,本科生轻松搞定论文格式!

全网最全8个一键生成论文工具&#xff0c;本科生轻松搞定论文格式&#xff01; AI 工具如何让论文写作变得轻松高效 在当前的学术环境中&#xff0c;越来越多的学生开始借助 AI 工具来提升论文写作的效率。无论是从内容生成、格式调整&#xff0c;还是降重处理&#xff0c;这些…

不卖的天价胸罩:维多利亚的秘密的 “营销核武器”

为什么维多利亚的秘密要提供价值数百万美元的镶钻胸罩&#xff0c;即便从来没人买过&#xff1f;不卖的天价胸罩&#xff1a;维多利亚的秘密的 “营销核武器”维多利亚的秘密每年推出价值数百万美元的镶钻胸罩&#xff08;Fantasy Bra&#xff09;&#xff0c;却从未真正售出&a…

2026 年地铁广告公司综合实力排行榜单及全面选择指南:2026年地铁广告公司如何选?哪家好?哪家强?哪家靠谱?选哪家 - Top品牌推荐

地铁广告作为户外广告的重要组成部分,凭借其覆盖人群广、曝光率高、目标受众精准等优势,成为众多品牌推广的重要选择。本文将为您全面介绍国内主要的地铁广告公司、广告形式、价格策略及投放建议。 一、国内主要地铁…

AppScan_Std_9.0.3.5_Eval_Win使用步骤详解(附扫描与报告教程)

AppScan 9.0.3.5 是 IBM 出的一款Web应用安全扫描工具&#xff0c;专门用来找网站/系统的安全漏洞&#xff08;比如SQL注入、XSS跨站脚本、弱密码等&#xff09;。Eval是评估版&#xff0c;功能全但可能有时间限制&#xff0c;适合学习、测试或内部项目用。 它操作不算难&…

web入门41-50

web41 分析代码发现过滤了数字字母和一些符号,发现或(|)符号没有禁用,使用或运算表示各种符号,写一个脚本点击查看代码 import re import urllib from urllib import parse import requestscontents = [] for i in ra…

2026必备!9个AI论文写作软件,MBA毕业论文轻松搞定!

2026必备&#xff01;9个AI论文写作软件&#xff0c;MBA毕业论文轻松搞定&#xff01; AI 工具让论文写作更高效 随着人工智能技术的不断进步&#xff0c;越来越多的 AI 工具被应用于学术写作领域。对于 MBA 学生来说&#xff0c;撰写高质量的毕业论文不仅是学业的重要环节&…

2025年市场排行前列的清障车专业厂家哪个好,落地清障车/拖吊联体清障车/蓝牌重载清障车,清障车品牌排行榜 - 品牌推荐师

随着我国公路网络日益完善与汽车保有量持续攀升,道路救援与车辆清障需求呈现出专业化、高效化、场景化的发展趋势。清障车作为保障道路畅通、处理交通事故的关键装备,其市场需求正从单一功能向多场景、高可靠性、智能…

基于滑模变结构观测器的失磁故障容错补偿策略在永磁同步电机控制中的应用

基于失磁故障容错补偿的永磁同步电机控制【提供参考资料】 一、算法简介 基于滑模变结构观测器&#xff0c;将状态电流观测值作为反馈量&#xff0c;利用滑模变结构等值控制原理&#xff0c;建立实时估计永磁磁链算式&#xff0c;从而进行补偿。 避免因失磁导致的转速下降&…

巧用FX3U实现多种变频器控制:从原理到实操

fx3u和西门子v20/台达vfd-m/三菱E700 rtu所需硬件&#xff1a;FX3U PLC,FX3U-485BD通信板&#xff0c;变频器。 功能&#xff1a;使用fx3u-485bd板,rtu通信控制西门子v20/台达VFD-M/三菱E700三种变频器正反转&#xff0c;停止&#xff0c;频率设定&#xff0c;加减速&#xff0…

大模型回答:Typora是哪个国家的软件?

根据搜索结果&#xff0c;我可以回答你的问题&#xff1a; Typora的开发者国籍&#xff1a; Typora是由Abner Lee开发的&#xff0c;确切来说是国人&#xff08;中国开发者&#xff09;开发的软件。 多个来源都确认了这一点&#xff0c;有用户甚至表示"看这软件质量曾一度…

【2026最新 架构环境安装篇二】Docker安装MySQL8详细教程

#拉取MySQL镜像 docker pull mysql:8.0#创建本地目录&#xff08;用于挂载数据、配置&#xff09; mkdir -p ~/docker/mysql/data ~/docker/mysql/conf#启动容器&#xff08;挂载目录配置&#xff09; docker run -d \ --name mysql8 \ -p 3306:3306 \ -v ~/docker/mysql/data:…

2026年知名的AI搜索优化专业公司推荐,南方网通不容错过 - 工业品牌热点

在AI技术重塑商业生态的当下,AI搜索优化已成为企业抢占流量高地、实现精准获客的核心抓手。面对市场上良莠不齐的AI服务提供商,如何挑选真正能解决获客难、转化低、效率慢痛点的合作伙伴?以下结合不同服务定位,为你…

2026年金属衣架厂家权威推荐榜单:塑料衣架/铁制衣架/铝合金衣架/木衣架/不锈钢衣架源头厂家精选 - 品牌推荐官

在衣架领域,金属制品以其出色的承重性、耐用性和现代简约的美感,始终占据着稳固的市场份额。随着消费者对品质生活的追求与商业陈列要求的提升,市场对金属衣架在材料、工艺、功能设计乃至智能应用等方面都提出了更高…

双主轴定制排行,2025年优选品牌,刀塔车床/4+4车铣/双主轴双刀塔/动力刀塔/双主轴双排刀/数控4+4双主轴采购排行 - 品牌推荐师

随着制造业向高端化、智能化、柔性化方向深度转型,对复杂零部件“一次装夹,全部完工”的加工需求日益迫切。双主轴机床,作为车铣复合技术领域的核心装备,因其卓越的加工效率与精度,已成为精密机械、新能源汽车、医…

学校整站程序如何通过百度编辑器实现WORD图片批量上传?

Word一键转存CMS升级日记&#xff1a;从绝望到真香的全过程 Day 1&#xff1a;需求分析与技术调研 “淦&#xff01;论文格式又要改第8遍了&#xff01;”——这是我今天第18次想把Word文档扔出窗外时内心的呐喊。作为一名大三狗&#xff0c;我决定给我的CMS新闻系统加个&quo…

小米15堆叠桌面APK

小米15堆叠桌面APK分享 密码:2tmq

2025苏州恒温恒湿箱新排行,高端品质引领行业潮流!砂尘试验箱/淋雨试验箱/恒温恒湿房,恒温恒湿箱源头厂家有哪些 - 品牌推荐师

近年来,随着制造业对产品环境适应性要求的提升,恒温恒湿箱作为核心检测设备,市场需求持续攀升。据行业数据显示,2024年国内市场规模突破35亿元,其中长三角地区占比超40%,苏州凭借完善的产业链和科研资源,成为技…

医疗网页项目怎么用vue实现文件夹上传?

咱们的客户&#xff0c;那可是汽车制造行业里的领军企业&#xff0c;妥妥的头部大佬。他们自有一套极为成熟的业务系统&#xff0c;这套系统就像他们的左膀右臂&#xff0c;每日不辞辛劳地处理着各类繁杂事务。然而&#xff0c;随着行业竞争愈发白热化&#xff0c;技术迭代也是…

【图像加密解密】基于matlab椭圆曲线密码学和希尔密码算法图像加密和解密【含Matlab源码 14967期】

&#x1f4a5;&#x1f4a5;&#x1f4a5;&#x1f4a5;&#x1f4a5;&#x1f4a5;&#x1f49e;&#x1f49e;&#x1f49e;&#x1f49e;&#x1f49e;&#x1f49e;&#x1f49e;&#x1f49e;欢迎来到海神之光博客之家&#x1f49e;&#x1f49e;&#x1f49e;&#x1f49…