检索式问答以及评论观点抽取+情感分析

3款开发者神器,快速搭建「检索、问答、情感分析」应用!

自然语言处理技术在各行业有着广泛的应用,然而长久以来,其落地并不是一帆风顺的。

04e8122f5c56db21234b5dec37195074.png

3e97db2b1ca5c5d6c95ec4395be006bb.png

b15fabfe61a5f64328a33862267dd390.png

3327c57b267bd2895d22e0bb0df107a6.png

针对这些棘手的问题,百度飞桨深耕产业界,选取NLP领域三大高频场景——检索、问答、情感分析,推出面向真实应用场景的系统功能,覆盖金融、电商零售、文娱、旅游、房地产、生活服务等多个行业,万方、荣耀、国美、驴妈妈旅游网、房天下、食行生鲜等均已基于相关方案成功完成业务上线。

b68874a57a32b909befb647fa2b1ab0d.gif

语义检索系统

检索系统存在于人们日常使用的很多产品中,比如商品搜索、学术文献检索、通用搜索引擎等。传统方法匹配能力有限,只能捕捉字面匹配,而语义检索能够捕捉深层语义信息,达到更精准、更广泛地召回相似结果的目的。

ebfffabfdb3f6579ee6fdfc47ed4f6a5.gif

图:基于字面的稀疏向量检索 vs 基于语义的稠密向量检索

PaddleNLP本次推出语义检索系统,流程图如下,其中左侧为召回环节,核心是语义向量抽取模型;右侧是排序环节,核心是排序模型

070a79f52a5def9dd5a7fbae78c6b80f.png

图:PaddleNLP Neural Search语义检索系统流程图

具备三大亮点:

  • 低门槛:数据+代码+模型全部开源,无需标注数据也能够轻松构建起检索系统,并且提供训练、预测、近似最近邻(ANN)搜索一站式能力。

  • 精度高:结合业界前沿模型和自有创新思路,推出适用多种数据情况、灵活的技术方案,精度超高。

表:不同技术方案下的Recall@K指标

85df84a2e4f3e532f54b1db70f127cb0.png

  • 性能好:与开源向量数据库Milvus打通,结合Paddle Inference,实现高性能建库,并在千万级数据中做到毫秒级快速查询。

b54a41b8ab27bf53f3f591731ca296b0.png

图:文献检索示例

前往GitHub获取开源代码和模型:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/neural_search

预训练时代的端到端问答 - RocketQA

问答系统是信息检索系统的一种高级形式,它能用准确、简洁的自然语言回答用户提出的问题,问答系统广泛应用于搜索引擎、智能设备、智能客服等产品中。

8df4e655b131cd7f0e9a14e687554dcc.png

图:问答系统应用示例

传统的问答系统通常由多个模块级联组成,而在预训练时代我们可以用一个端到端模型代替传统的复杂系统,实现更好的效果。然而,研发端到端问答模型需要大量的计算和数据资源,为了使更多开发者能方便地获取最先进的问答技术,我们推出了RocketQA开发工具,有三大亮点:

  • 领先:提供国际领先的端到端问答技术-RocketQA,效果远超传统问答系统,与国际知名公司的技术方案相比也有一定优势。

26449441d899c01a5dc2af8089b83309.png

  • 中文:开源首个中文端到端问答模型,该模型基于知识增强的预训练模型ERNIE和百万量级的人工标注数据集DuReader训练得到,效果优异。

  • 易用:提供11种预置模型、2种安装方式和极简的开发接口,基于神经搜索框架JINA和近似近邻检索库FAISS,2行命令即可搭建自己的问答系统。

4e8318b5cf589f01a031183e053fa67f.png

前往GitHub获取开源代码和模型:

https://github.com/PaddlePaddle/RocketQA

情感分析系统 

情感分析旨在对带有情感色彩的主观性文本进行分析、处理、归纳和推理,其广泛应用于消费决策、舆情分析、个性化推荐等领域,具有很高的商业价值。

依托百度领先的情感分析技术,食行生鲜自动生成菜品评论标签辅助用户购买,并指导运营采购部门调整选品和促销策略;房天下向购房者和开发商直观展示楼盘的用户口碑情况,并对好评楼盘置顶推荐;国美搭建服务智能化评分系统,客服运营成本减少40%,负面反馈处理率100%。

为了降低技术门槛,方便开发者共享效果领先的情感分析技术,PaddleNLP本次开源的情感分析系统,具备三大亮点:

  • 覆盖任务全:集成句子级情感分类、评论观点抽取、属性级情感分类等多种情感分析能力,并开源模型,且打通模型训练、评估、预测部署全流程。

a29f6cd2028b3c3261b144149334f98a.png

图:PaddleNLP Sentiment Analysis核心能力展示

  • 效果领先:集成百度研发的基于情感知识增强的预训练模型SKEP,为各类情感分析任务提供统一且强大的情感语义表示能力。

efa2dd857b30882679903997c3193b85.png

  • 预测性能强:针对预训练模型预测效率低的问题,开源小模型PP-MiniLM,配套裁剪、量化优化策略,预测性能提速900%!

前往GitHub获取开源代码和模型:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/applications/sentiment_analysis

如果您想了解详细技术方案和完整代码、下载开源数据和模型,欢迎关注GitHub Repo,也可在直播中与百度高工交流哦:

PaddleNLP: https://github.com/PaddlePaddle/PaddleNLP

RocketQA: https://github.com/PaddlePaddle/RocketQA

直播预告课

12.28~12.30日每晚20:15~21:30,百度高工将带来直播讲解,剖析行业痛点问题,深入解读系统方案,并带来手把手项目实战。阅读原文即可报名,或者扫码上车!我们直播间不见不散~

扫码报名直播课,加入技术交流群

54217db34103331790299d50a38fe695.png

更多精彩抢先看

26f38179c4998dc10db85ced4915fa24.png

</article>

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478341.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

征稿 | Call for papers on Knowledge Graphs

Knowledge graph是Data Intelligence的核心主题和期刊特色之一。为持续展示这一领域的最新进展和前沿成果&#xff0c;Data Intelligence正在与国际学者一道策划两期Knowledge graph专辑。期待大家关注并积极投稿参与&#xff01;DI专辑Special Issue on Personal Health Knowl…

LeetCode 179. 最大数(自定义谓词函数--Lambda表达式--排序)

1. 题目 给定一组非负整数&#xff0c;重新排列它们的顺序使之组成一个最大的整数。 示例 1: 输入: [10,2] 输出: 210示例 2: 输入: [3,30,34,5,9] 输出: 9534330 说明: 输出结果可能非常大&#xff0c;所以你需要返回一个字符串而不是整数。来源&#xff1a;力扣&#xff08…

python实现requests访问接口,比如es接口

首先我们先引入requests模块 import requests一、发送请求 r requests.get(https://api.github.com/events) # GET请求 r requests.post(http://httpbin.org/post, data {key:value}) # POST请求 r requests.put(http://httpbin.org/put, data {key:value}) # PUT请求 r…

拿下字节offer,这些面试题命中率高达90%以上

昨天在知乎上刷到一个热门问题:程序员需要达到什么水平才能顺利拿到 20k 无压力&#xff1f;其中一个最热门的回答是&#xff1a;“其实&#xff0c;无论你是前端还是后端、想进大厂还是拿高薪&#xff0c;算法都一定很重要。”为什么&#xff0c;算法会如此重要&#xff1f;不…

HDFS NameNode重启优化

本文已发表于InfoQ&#xff0c;下面的版本又经过少量修订。 一、背景 在Hadoop集群整个生命周期里&#xff0c;由于调整参数、Patch、升级等多种场景需要频繁操作NameNode重启&#xff0c;不论采用何种架构&#xff0c;重启期间集群整体存在可用性和可靠性的风险&#xff0c;所…

LeetCode 4. 寻找两个有序数组的中位数(二分查找,难)

文章目录1. 题目2. 解题2.1 合并数组2.2 优化2.1解法&#xff0c;双指针2.3 二分法&#xff08;找第k个数&#xff09;2.4 切分法1. 题目 给定两个大小为 m 和 n 的有序数组 nums1 和 nums2。 请你找出这两个有序数组的中位数&#xff0c;并且要求算法的时间复杂度为O(log(mn…

论文浅尝 | 当Hearst还不够时:用分布模型来提升语料库中的上下义关系检测

笔记整理 | 潘晓梅&#xff0c;东南大学硕士&#xff0c;研究方向为知识图谱构建、自然语言处理。来源&#xff1a;EMNLP 2020.论文下载地址&#xff1a; https://www.aclweb.org/anthology/2020.emnlp-main.502.pdf项目源码地址&#xff1a; https://github.com/ccclyu/ComHyp…

python 连接 rabbitMQ以及rabbitMQssl注意事项,password

pip3 install pika1.1.0官方对于pika有如下介绍# Since threads aren’t appropriate to every situation, it doesn’t require threads. Pika core takes care not to forbid them, either. The same goes for greenlets, callbacks, continuations, and generators. An inst…

LeetCode 887. 鸡蛋掉落(DP,难、不懂)

1. 题目 你将获得 K 个鸡蛋&#xff0c;并可以使用一栋从 1 到 N 共有 N 层楼的建筑。 每个蛋的功能都是一样的&#xff0c;如果一个蛋碎了&#xff0c;你就不能再把它掉下去。 你知道存在楼层 F &#xff0c;满足 0 < F < N 任何从高于 F 的楼层落下的鸡蛋都会碎&…

正确的LeetCode刷题姿势!

名师 带你刷爆LeetCode算法知识 讲解训练免费0元报名参加在讲到 AI 算法工程师时&#xff0c;大部分同学关注点都在高大上的模型&#xff0c;一线优秀的项目。但大家往往忽略了一点&#xff0c;人工智能的模型、项目最终还是要靠程序和算法实现。算法能力是每一个程序员的基本功…

论文浅尝 | DI刊发的那些有关Knowledge Graph的论文

本文转载自公众号&#xff1a;数据智能英文刊知识图谱被称为人工智能的基石&#xff0c;它的前身是语义网&#xff0c;由谷歌在2012年率先提出&#xff0c;用于改善自身的搜索业务。Data Intelligence执行主编、东南大学计算机科学与技术学院漆桂林教授这样定义知识图谱&#x…

缓存那些事

本文已发表于《程序员》杂志2017年第3期&#xff0c;下面的版本又经过进一步的修订。 一般而言&#xff0c;现在互联网应用&#xff08;网站或App&#xff09;的整体流程&#xff0c;可以概括如图1所示&#xff0c;用户请求从界面&#xff08;浏览器或App界面&#xff09;到网络…

浅析消息队列 RabbitMQ

浅析消息队列 RabbitMQhttps://www.pianshen.com/article/4275953257/

LeetCode 42. 接雨水(双指针、单调栈)

文章目录1. 题目2. 解题2.1 正反扫描法2.2 双指针2.3 单调栈1. 题目 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图&#xff0c;计算按此排列的柱子&#xff0c;下雨之后能接多少雨水。 上面是由数组 [0,1,0,2,1,0,1,3,2,1,2,1] 表示的高度图&#xff0c;在这种情况下&am…

论文浅尝 - IJCAI | Knowledge is NOT always you need: 外部知识注入预训练模型的利与弊...

转载公众号 | 浙大KG论文题目&#xff1a;Drop Redundant, Shrink Irrelevant: Selective Knowledge Injection for Language Model Pretraining本文作者&#xff1a;张宁豫&#xff08;浙江大学&#xff09;、邓淑敏&#xff08;浙江大学&#xff09;、张亦弛&#xff08;阿里…

圆形的CNN卷积核?华中大清华康奈尔提出圆形卷积,进一步提升卷积结构性能!...

文 | 小马编 | 极市平台写在前面目前正常卷积的感受野大多都是一个矩形的&#xff0c;因为矩形更有利于储存和计算数据的方便。但是&#xff0c;人类视觉系统的感受野更像是一个圆形的。因此&#xff0c;作者就提出&#xff0c;能不能将CNN卷积核的感受野也变成圆形呢&#xff…

Android自定义Lint实践

Android Lint是Google提供给Android开发者的静态代码检查工具。使用Lint对Android工程代码进行扫描和检查&#xff0c;可以发现代码潜在的问题&#xff0c;提醒程序员及早修正。 为保证代码质量&#xff0c;美团在开发流程中加入了代码检查&#xff0c;如果代码检测到问题&…

关于PaddleNLP如何加载训练好的模型进行NER

关于PaddleNLP如何加载训练好的模型进行NER 关于PaddleNLP如何加载训练好的模型进行NER 当时在如何加载已经训练好的模型的问题上花了很长时间&#xff0c;后来也是受另一篇文章启发&#xff0c;问题才得以解决&#xff0c;此文章写的很详细&#xff0c;所以不再详细介绍&#…

论文浅尝 | 利用机器翻译和多任务学习进行复杂的知识图谱问答

笔记整理 | 谭亦鸣&#xff0c;东南大学博士生。来源&#xff1a;EACL‘21链接&#xff1a;https://www.aclweb.org/anthology/2021.eacl-main.300.pdf概述知识图谱问答过程一般包括实体链接&#xff0c;多跳推理等步骤&#xff0c;传统方法将各个步骤作为模块单独处理&#xf…