网站公司网站建设深圳龙岗企业网站建设
网站公司网站建设,深圳龙岗企业网站建设,wordpress首页打开变慢,网络推广培训方案背景
在实际的业务场景里#xff0c;用会话文本构建模型#xff08;机器学习/深度学习#xff09;来做意图分类之类的任务时#xff0c;经常会出现人工打标不够准确的问题#xff0c;标签都不准确的话模型当然无法学习到有效信息了。这个问题真的非常头疼…除了与业务沟通…背景
在实际的业务场景里用会话文本构建模型机器学习/深度学习来做意图分类之类的任务时经常会出现人工打标不够准确的问题标签都不准确的话模型当然无法学习到有效信息了。这个问题真的非常头疼…除了与业务沟通修正标签以外通常很慢用现有的数据尽量修正正负样本也能有效的提升模型区分效果。 方法
介绍一种比较简要的方法这里的分类任务我用的是给句子做二分类用sentence2vec方法把句子转换成向量后采用PCA降维成二维数据做可视化图就可以看出人工打标下正负样本的分布。
人工打标结果虽然不准但还是可以用作参考比方说可视化图中几乎仅有正样本分布的区域就是人工判断样本正负上绝对没有异议的样本可以作为新的正样本。 PCA降维及可视化的核心代码
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
plt.rcParams[font.sans-serif][SimHei] #用来正常显示中文标签
pca PCA(n_components2) #PCA
result pca.fit_transform(data_vecs) #将句子向量(128维度)降维成二维向量[1000, 128]-[1000,
主要步骤
句子转向量【略】句子向量用PCA降成二维信息每个句子的二维信息作为坐标可视化根据可视化点图分别截取不同区域的句子查看句子含义
注黄点为正样本紫色点为负样本 比方我这里是以“要退保”意图为正样本“不要退保”意图为负样本图中右边区域正样本和负样本几乎都混杂在了一起这些就是按照不同人员打标后标准不统一的结果但左边的样本几乎没有负样本说明这部分文本是没有异议的可以筛出作为新的正样本。
我筛选的标准比较粗糙直接将左边区域的作为新的正样本也可以用机器学习中的模型来筛选出正样本应该也OK的
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/88342.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!