618大促将至,用AI挖掘差评,零代码实现亿级评论观点情感分析

87833a0d7fd9332ecad7c3f10f576a95.png

文 | 卖萌酱

马上就要到一年一度的618大促,卖萌酱在添加购物车时,选择困难症又犯了。

如今的电商评论区,大量刷单行为淹没了重要的产品评价,有的被淹没在了追评区,有的甚至已经不分好评/中评/差评区了,而是“一眼望去好评如潮”。

1b9ee2331c3125a030b70dfdc581c5c7.png
▲某净水器评论区

比如某净水器的评论区,看似只有200条差评,但在1.3w条追评、10w条好评中其实隐藏着数不清的差评,这些差评往往可信度极高。

对电商平台来说,通过分析评论区中用户对商品的情感倾向,从评论中挖掘产品优缺点,能够快速了解消费者的心声,以便对产品进行针对性的优化,提升产品体验,满足用户需求。

然而,由于热门商品评论量极大,人工审核从精力、成本还是效率上都无法满足需求,而且热门商品众多,显然是无法通过人工的方式来挖掘数以亿计的评论。

但AI模型一秒看100条甚至1000条评论是不成问题的(只要有好显卡部署服务)。为了验证AI模型做这个事情的可行性,卖萌酱准备亲自打造一个“差评挖掘AI”!

说!干!就!干!

工欲善其事必先利其器

首先卖萌酱将这个“找差评”的问题抽象成NLP中的“情感极性分类”问题,进而我们的任务就变成了四步:

富集评论情感极性分类数据集 —> 训练调优情感分类模型 —> 部署模型得到API —> 调用API解决问题

富集评论情感极性数据还好说,中文社区有不少公开数据集。但AI模型的训练和部署就麻烦多了。如果基于传统的深度学习框架从头折腾,无论代码量还是调试调优成本都不低

这对于只想快速实现情感挖掘功能的我来说无疑效率太低了。

这时大佬给卖萌酱推荐了一个高效低成本的平台——EasyDL,不到一天就能完成从数据集到部署API。

AI开发可以如此简单?

半信半疑的卖萌酱开始了试用之路…

打开EasyDL官网后,首先要选择做什么任务:

452297830367d3664bc5e4904c18c68e.png

▲EasyDL任务支持

好家伙,我开始以为是个high-level深度学习框架,看到上图才意识到原来这是个更上层的AI应用开发平台,涵盖了图像、文本、语音、OCR、视频、结构化数据等各种任务场景和数据场景。

这里我们关注的是里面的EasyDL-文本任务。针对本次的任务目标,我们可以选择文本分类-单标签,但卖萌酱发现还有更加具体的“情感倾向分析”任务,于是直接选择了后者(上图红框部分)。

完成任务选择后,平台给到了开发任务的流程提示:

25a9acd07e0fdee6243cd1425e514488.png

这个流程对于一个久经沙场的算法工程师来说已经非常熟悉了,于是卖萌酱跳过指导,开始了开发。

零代码也能完成AI开发?

随着开发的进行,卖萌酱慢慢发现不对劲了。

5e6b3eef39dfa93e8613f4eab8097b1f.png
▲数据载入与处理完成

数据载入处理完了,我没写代码?

2f25b4551cd1e5ac322482d252488fa8.png
▲模型训练完成

模型训练&效果调优完了,我依然没写代码?

d002b4d0e8cca1e8f26eff44967130b0.png
▲部署完成,拿到API

部署完成,服务的远端API我也拿到了,我最终一行代码都没写??

甚至,就连调用API的client端脚本,平台都给出来了,也不用自己写。

卖萌酱进而将某商品评论区爬下来的数万条评论存到文件comments.txt中,调用我们已经部署完成的API来挖掘负面评论:

10785c81a105bb5f1604caf7bf29f606.png

负面评论被源源不断的挖掘出来了!

最后发现某净水器商品的差评区尽管只有200条差评,但通过我们的脚本过全部的数万条评论,却挖掘出来了3300多条差评。

此时卖萌酱陷入了深深的思考——

“做了这么多年的AI算法工程师,到头来,却发现AI的训练和部署已经不需要写代码了?”

fa0aff83036d9a3eed99bcc603754a30.png

初次跑通以上全流程,本着把3天开发时间降低到1天的心态试用,结果没想到3小时就解决了,其中还包括了1个多小时的模型训练与自动调优的时间。

想体验零代码实现NLP开发全流程的小伙伴们,可以扫码报名进群,获取EasyDL官方近期组织的直播链接,进群还有更多福利哦~

199cd6e01751b48b9321b29b2cbe149b.png

入群福利

  1. 获取6月9日直播课链接

  2. 参与「新闻资讯分类」「电商评论观点分析」实战营,15分钟轻松训练高精度的NLP模型,更有精美礼品与证书免费发放

好效果来源大揭秘:文心大模型

卖萌酱还有一点不解,从最终的负面评论挖掘效果来看,是非常精准、惊艳的。但是卖萌酱却只丢了1万条标注样本给平台,是什么撑起来了模型效果呢?

卖萌酱在配置模型训练环节时,注意到了EasyDL平台有这么一个选项:

a2c7abade0ca947d8629e16bdaa94062.png

如果训练阶段是选择了高精度,那就会调用文心大模型作为backbone并完成参数热启。

关注NLP预训练进展的小伙伴对文心大模型“ERNIE”一定不陌生了。

2019年12月,文心ERNIE 2.0登顶GLUE:

db2ddec9ae100bf13bd1ec7e2162f598.png

2021年7月,百亿参数规模的文心ERNIE 3.0霸榜SuperGLUE:

7eb872c752aac03572df67fa1abc9d71.png

在中文任务上,文心ERNIE 3.0更是实现了全面屠榜:

3d7582492f4b9a15e2bae8f62390c9a1.png

而在EasyDL文本任务中内置了文心大模型ERNIE 3.0系列模型,除了通用大模型外,还包括了抽取、匹配等专属任务模型和金融、法律、医疗等领域模型。

正是文心大模型的赋能,EasyDL文本才得以在实现极简易用性的同时,做到超高精度的模型产出。

毫不夸张的说,这个写了0行代码、花了3个小时部署得到的评论极性判别的API,可能比许多专业的算法工程师折腾数天搞出来的API都好用。

至此,作为一个AI算法工程师,卖萌酱深深的感慨:

我们开发了AI,但AI开发可能不再需要我们了。

福利时间到:

6月9日晚20:00,百度NLP产品经理将带来精彩直播讲解,剖析NLP产业应用开发不能不知的三个坑及相应解决方案,解读EasyDL如何实现NLP产业应用落地,并手把手带您进行项目实战。欢迎大家扫码进群,获取课程链接!

9a51977ce5100cf0cea8b751e4445e33.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477310.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot 2.0 新特性和发展方向

以Java 8 为基准 Spring Boot 2.0 要求Java 版本必须8以上, Java 6 和 7 不再支持。 内嵌容器包结构调整 为了支持reactive使用场景,内嵌的容器包结构被重构了的幅度有点大。EmbeddedServletContainer被重命名为WebServer,并且org.springf…

剑指Offer - 面试题40. 最小的k个数(排序/大顶堆)

1. 题目 输入整数数组 arr ,找出其中最小的 k 个数。例如,输入4、5、1、6、2、7、3、8这8个数字,则最小的4个数字是1、2、3、4。 示例 1: 输入:arr [3,2,1], k 2 输出:[1,2] 或者 [2,1]示例 2&#xff…

Nature:大批学者正在涌向工业界,与国内趋势相反?

文 | 杨净 明敏 发自 凹非寺源 | 量子位Nature最新发文:学术界正刮起一阵离职潮。这当中,处于职业中期的科学家尤甚。而他们的集体归宿,是转向工业界。事实上,这种趋势由来已久。早在2018年一项研究预测显示,高等教育将…

剑指Offer - 面试题54. 二叉搜索树的第k大节点(二叉树循环遍历)

1. 题目 给定一棵二叉搜索树,请找出其中第k大的节点。 示例 1: 输入: root [3,1,4,null,2], k 13/ \1 4\2 输出: 4示例 2: 输入: root [5,3,6,2,4,null,null,1], k 35/ \3 6/ \2 4/1 输出: 4限制: 1 ≤ k ≤ 二叉搜索树元素个数来源&#xf…

Spring Boot中使用LDAP来统一管理用户信息

很多时候,我们在构建系统的时候都会自己创建用户管理体系,这对于开发人员来说并不是什么难事,但是当我们需要维护多个不同系统并且相同用户跨系统使用的情况下,如果每个系统维护自己的用户信息,那么此时用户信息的同步…

剑指Offer - 面试题53 - II. 0~n-1中缺失的数字(二分、位运算)

文章目录1. 题目2. 解题2.1 充分利用题目信息2.2 位运算2.3 二分查找1. 题目 一个长度为n-1的递增排序数组中的所有数字都是唯一的,并且每个数字都在范围0~n-1之内。在范围0~n-1内的n个数字中有且只有一个数字不在该数组中,请找出…

大厂如何决定裁掉谁?

文 | 祝乐源 | 曲速纪元说明:本文并非以具体某一家大厂为具体描述对象,每家公司有其特殊的流程,因此所描述的流程不一定适合所有公司。只是提供一个大厂裁员的逻辑框架,具体操作上可能存在流程和操作上的节点增加以及前后顺序变化…

Spring Boot中使用Flyway来管理数据库版本

久违了的Spring Boot系列,今天抽空更新一篇。去年写过很多篇关于数据访问的文章了,比如下面这些: 使用JdbcTemplate使用Spring-data-jpa简化数据访问层(推荐)多数据源配置(一):JdbcT…

剑指Offer - 面试题53 - I. 在排序数组中查找数字 I(二分查找的变形版本)

1. 题目 统计一个数字在排序数组中出现的次数。 示例 1: 输入: nums [5,7,7,8,8,10], target 8 输出: 2示例 2: 输入: nums [5,7,7,8,8,10], target 6 输出: 0限制&#xff1a; 0 < 数组长度 < 50000类似题目&#xff1a;LeetCode 34. 在排序数组中查找元素的第一个…

码农创造了AI,但开发AI不再需要码农了??

马上就要到一年一度的618大促&#xff0c;卖萌酱在添加购物车时&#xff0c;选择困难症又犯了。如今的电商评论区&#xff0c;大量刷单行为淹没了重要的产品评价&#xff0c;有的被淹没在了追评区&#xff0c;有的平台甚至已经不分好评/中评/差评区了&#xff0c;而是“一眼望去…

LeetCode 1351. 统计有序矩阵中的负数

1. 题目 给你一个 m * n 的矩阵 grid&#xff0c;矩阵中的元素无论是按行还是按列&#xff0c;都以非递增顺序排列。 请你统计并返回 grid 中 负数 的数目。 示例 1&#xff1a; 输入&#xff1a;grid [[4,3,2,-1],[3,2,1,-1],[1,1,-1,-2],[-1,-1,-2,-3]] 输出&#xff1a;…

码农创造了AI,但开发AI不再需要码农了

马上就要到一年一度的618大促&#xff0c;卖萌酱在添加购物车时&#xff0c;选择困难症又犯了。 如今的电商评论区&#xff0c;大量刷单行为淹没了重要的产品评价&#xff0c;有的被淹没在了追评区&#xff0c;有的平台甚至已经不分好评/中评/差评区了&#xff0c;而是“一眼望…

JPA的多表复杂查询

最近工作中由于要求只能用hibernatejpa 与数据库进行交互&#xff0c;在简单查询中&#xff0c;jpa继承CrudRepository<T, ID>接口 &#xff0c;然后利用jpa的方法命名规范进行jpql查询&#xff0c;然而在进行复杂查询时&#xff0c;需要继承JpaSpecificationExecutor接口…

LeetCode 1352. 最后 K 个数的乘积

1. 题目 请你实现一个「数字乘积类」ProductOfNumbers&#xff0c;要求支持下述两种方法&#xff1a; add(int num) – 将数字 num 添加到当前数字列表的最后面。getProduct(int k) – 返回当前数字列表中&#xff0c;最后 k 个数字的乘积。 – 你可以假设当前列表中始终 至少…

颠覆认知!数据增强、正则化可导致不易察觉的灾难?

文 | 子龙编 | 智商掉了一地作为常用的炼丹技巧&#xff0c;正则化 (Regularization) 和数据增强 (Data Augmentation, DA) 常常被简单粗暴地引入模型中来防止数据过拟合&#xff0c;进而提升最后的 performance。如果说&#xff0c;更高的performance就意味着更好的泛化能力&a…

spring-boot-starter-swagger 1.3.0.RELEASE:新增对JSR-303的支持和host的配置

简介 该项目主要利用Spring Boot的自动化配置特性来实现快速的将swagger2引入spring boot应用来生成API文档&#xff0c;简化原生使用swagger2的整合代码。 源码地址 GitHub&#xff1a;https://github.com/dyc87112/spring-boot-starter-swagger码云&#xff1a;https://git…

LeetCode 1353. 最多可以参加的会议数目(排序+贪心,优先队列,难)

文章目录1. 题目2. 解题2.1 错误解2.2 超时解2.3 通过解2.4 大佬解1. 题目 给你一个数组 events&#xff0c;其中 events[i] [startDayi, endDayi] &#xff0c;表示会议 i 开始于 startDayi &#xff0c;结束于 endDayi 。 你可以在满足 startDayi < d < endDayi 中的…

深圳率先立法:支持L3自动驾驶上路,凡公开道路皆可行

文 | 万博 发自 副驾寺源 | 智能车参考全国第一个开放L3级自动驾驶的城市&#xff0c;就要来了。不是自动驾驶第一城的广州&#xff0c;也不是拥有全球首个高级别自动驾驶示范区的北京&#xff0c;最先吃螃蟹的&#xff0c;是深圳。根据深圳人大常委会发布的2022年立法计划&…

在Pivotal Web Service上发布Spring Boot应用

Hello PWS&#xff08;Pivotal Web Service&#xff09;&#xff0c;由 Pivotal 公司提供的 &#xff0c;可以运行Java, Grails, Play, Spring, Node.js, Ruby on Rails, Sinatra or Go 等Web应用的服务。本文将介绍一个 Hello World 级别的 Spring Boot 应用发布到 PWS 的过程…

CVPR 2022 | FAIR提出MaskFeat:自监督视觉预训练新方法!灵感之一来自16年前CVPR论文...

编 | 小咸鱼 好困源 | 新智元【导读】近日&#xff0c;北大校友、约翰霍普金斯大学博士生提出了一种新的方法&#xff1a;MaskFeat&#xff0c;摘下12个SOTA&#xff01;这是一个能用于视频模型的自监督预训练方法&#xff1a;掩码特征预测&#xff08;MaskFeat&#xff09;。论…