【Text_Classification】学习到的语法知识

1. 任务

1.1 字典中每个种类的准确率

分母: 首先计算每个种类的总数!

for value in label:# get(value, num)函数的作用是获取字典中value对应的键值, num=0指示初始值大小。label_cout[value] = label_cout.get(value, 0) + 1label_acc[value] = label_acc.get(value, 0)
print(label_cout)
print(label_acc)  

分子:再次计算每个种类正确的数

第一步: 获取种类字典:
错误的做法

#这是错误的做法,因为这样做set集合是无序的!  顺序就和分母不一样了,无法进行后面的操作
label_acc = {label_text: 0 for label_text in set(label)  # 将唯一化
}
print(len(label_acc))

正确的是上面的

label_acc[value] = label_acc.get(value, 0)

第二步: 记录正确类的个数

results = model.predict(data, max_seq_len=50, batch_size=1, use_gpu=True)   #获取每行输入数据的预测结果
for idx, item in enumerate(results):sum = sum + 1;                 #所有的数据集总和if results[idx] == label[idx]:  # print("OHHHH data: {}".format(data[idx]), "predict:{}".format(results[idx]),#                               "right:{}".format(label[idx]))right = right + 1;    #如果是正确的,那么就加一print(results[idx])label_acc[results[idx]] += 1   #正确的,则从字典中寻找到指定key也加一

第三步: 相除得到准确率

#由于我们在定义两个字典时,key标签都是对应的,所以直接除,并更新label_acc即可
for key in label_acc.keys():label_acc[key] = label_acc[key] / label_cout[key]

1.2. 如何将分类数值化

前提: 你得有输出结果以及label

label_list = ['城市事件类;宣传广告', '城市事件类;扩充类别', '城市事件类;街面秩序','城市部件类;市政公用设施', '城市事件类;市容环境',  '城市部件类;扩充类别', '城市事件类;施工管理', '城市部件类;园林绿化', '环境保护类;其他', '文明城市创建类;其他',]label_map = {  #必须是指定的格式idx: label_text for idx, label_text in enumerate(label_list)
}
model = hub.Module(name='ernie_tiny',version='2.0.1',task='seq-cls',load_checkpoint='/home/wxx/progressfiles/project_pc_NLP/Texts_Classification/model/ernie_text_cls/best_model/model.pdparams',label_map=label_map)results = model.predict(data, max_seq_len=50, batch_size=1, use_gpu=True)

之后就用两个list就够了!

n_label = []
n_results = []
for item in results:for key in label_map:if item == label_map[key]:n_results.append(key)
for item in label:for key in label_map:if item == label_map[key]:n_label.append(key)

补充

1. set是无序的!!! 你改成set集合后序列就无序了,而计算每个类别的准确性,必须是类型顺序不变的

2.从linux上下载文件

 sz XXX

3. 读CSV文件没事,但是在写入csv文件是乱码

df.to_csv("/home/wxx/progressfiles/project_pc_NLP/Texts_Classification/res_all_label.csv", 
encoding='utf_8_sig', sep=",", index=0)

4. 如果出现在写入csv文件时,单元格错位问题,说明你的分隔符不对

5. 写入excel文件中

https://blog.csdn.net/pikaqiubula/article/details/113781466

6. 将其它的放入到DataFrame中: 转变为Series ,再设置columns

链接

df = pd.DataFrame(pd.Series(d1), columns=['right'])

7. python将字典转换为dataframe数据框

python将字典转换成dataframe数据框

8. DataFrame操作

定义!
列表定义!

字典列表定义!

import pandas as pdinp = [{'c1':10, 'c2':100}, {'c1':11, 'c2':110}, {'c1':12, 'c2':123}]
df = pd.DataFrame(inp)print(df)

添加列!

DF的遍历: https://www.jb51.net/article/172623.htm

9. 更好的放入到DF中

text_a.append(data[idx])
label_wrong.append(item)
label_right.append(label[idx])df = pd.DataFrame()
df['text_a'] = pd.Series(text_a)
df['wrong_label'] = label_wrong
df['right_label'] = label_right

10. 代码解决F1_score

链接

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476086.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

%求余数 rand随机数

//getSeconds() 0-59number new Date().getSeconds() % 3 1; //随机数,从1到3//0-9之间 Math.random()*10var num1 Math.round(Math.random()*10) % 3 随机数,从0到2 任何数%3 得到 0 1 2 任何数%4 得到 0 1 2 3转载于:https://www.cnblogs.com/reo…

LeetCode 1217. 玩筹码(脑筋急转弯)

1. 题目 数轴上放置了一些筹码,每个筹码的位置存在数组 chips 当中。 你可以对 任何筹码 执行下面两种操作之一(不限操作次数,0 次也可以): 将第 i 个筹码向左或者右移动 2 个单位,代价为 0。将第 i 个筹…

windows脚本命令闪退_NCL2Python|windows系统安装Pyngl和Pynio

自从NCL停更之后,python的知名度都不断提高了,我也开始了python学习之旅,但是还没开始,就被如何安装Pyngl和Pynio给困住了。网上和官网给的教程都是Linux系统或者OS系统,有老板服务器的同学压根不用担心这个问题&#…

【Text_classification】 PaddlePaddle框架下出错调整到运行的实验和记录

使用的是Paddle框架2.0版本 网页: https://github.com/PaddlePaddle/PaddleHub/tree/release/v2.1/demo/text_classification 也可以在其平台上利用公开数据集跑一跑: 网页:https://aistudio.baidu.com/aistudio/projectdetail/2390146?cont…

WCF分布式开发步步为赢系列

众所周知,系统间的低耦合一直是大型企业应用系统集成追寻的目标,SOA面向服务架构的 出现为我们的如何利用现有企业系统资源进行企业ERP系统设计和实现提供了重要的参考原则。SOA如此炙手可热,各大厂商都推出了自己的中间件产品,比…

LeetCode 1207. 独一无二的出现次数

1. 题目 给你一个整数数组 arr,请你帮忙统计数组中每个数的出现次数。 如果每个数的出现次数都是独一无二的,就返回 true;否则返回 false。 示例 1: 输入:arr [1,2,2,1,1,3] 输出:true 解释&#xff1a…

keil stm32标准库放在哪里_STM32之PWM

脉冲宽度调制脉冲宽度调制是利用微处理器的数字输出来对模拟电路进行控制的一种非常有效且应用十分广泛的技术,例如直流电机的控制、开关电源的输出调制、信号的传递也离不开脉冲宽度调制。我们接下将要讨论的便是单片机中PWM的产生与应用。在STM32单片机中&#xf…

(二十五)【NIPS 2017】Prototypical Networks for Few-shot Learning

完全参考博文 用来记录和学习 Introduction 原型网络的思路非常简单:对于分类问题,原型网络将其看做在语义空间中寻找每一类的原型中心。 原型中心: 针对Few-shot的任务定义,原型网络训练时学习如何拟合中心。学习一个度量函数…

LeetCode 1093. 大样本统计

1. 题目 我们对 0 到 255 之间的整数进行采样,并将结果存储在数组 count 中:count[k] 就是整数 k 的采样个数。 我们以 浮点数 数组的形式,分别返回样本的最小值、最大值、平均值、中位数和众数。其中,众数是保证唯一的。 我们…

python 时间函数 毫秒_利用python进行播放音频与录音,骚操作!

现如今,我们的学习知识的渠道越来越多,我们也要充分利用自己的感官去汲取知识。当我们看书累的时候,我们完全可以听过听书来学习,这样的平台也很多,pk 哥之前也写过关于下载喜马拉雅音频爬虫的方法:Python爬…

2009岁末之复用系统框架(B/S)

目的 好久没有写博赚点了,最近一直在忙着写基础的框架,为以后的职业发展多点筹码,以前写过C/S,但是现在的应用趋于浏览器,所以匆忙之间利用工作之余写了点东西。本人的水平有限,希望能博得大家一瞥。 技术 …

一建机电实务教材电子版_2020一建教材+章节习题+新旧教材对比【全科】免费送...

2020一建《各科》电子教材2020一建《工程法规》电子教材2020一建《工程经济》电子教材2020一建《公路实务》电子教材2020一建《机电实务》电子教材2020一建《建筑实务》电子教材2020一建《市政实务》电子教材2020一建《水利实务》电子教材2020一建《项目管理》电子教材2020一建…

LeetCode 1189. “气球” 的最大数量

1. 题目 给你一个字符串 text,你需要使用 text 中的字母来拼凑尽可能多的单词 “balloon”(气球)。 字符串 text 中的每个字母最多只能被使用一次。 请你返回最多可以拼凑出多少个单词 “balloon”。 示例 1: 输入&#xff1…

记录F1分数和召回率

内容 参考博文: F1分数以及micro、macro区别 对于上面说的矩阵是不是挺懵的,它的真名叫混下矩阵,看下面 混淆矩阵 所有正确的预测结果都在对角线上,所以从混淆矩阵中可以很方便直观的看出哪里有错误,因为他们呈现在对…

《大话设计模式》读书笔记-建造者模式

// 建造者类 class PersonDirector { private PersonBuilder pb; public PersonDirector(PersonBuilder pb) { this.pb pb; } public void CreatePerson() { pb.BuildHead(); pb.BuildBody(); …

LeetCode 1170. 比较字符串最小字母出现频次

1. 题目 我们来定义一个函数 f(s),其中传入参数 s 是一个非空字符串; 该函数的功能是统计 s 中(按字典序比较)最小字母的出现频次。 例如,若 s “dcce”,那么 f(s) 2,因为最小的字母是 “c”…

讯达机器人_科大讯飞新品频发完善场景布局“双11”斩获三大平台25项冠军

11月12日,科大讯飞发布”双11”战报,C端产品兑现AI红利实现可持续增长,一举斩获京东、天猫、苏宁易购三大平台25项冠军。11月1日至11月11日,销售额同比增长56% 。目前,科大讯飞消费者业务连续三年保持营收超过30%的增速…

【Eclipse 插件】Implementors

当追踪方法代码时,Eclipse默认是转到方法的接口类,而接口中是只有方法名称没有具体的实现代码,此插件提供了追踪到具体实现类的实现代码的功能。官方地址 转载于:https://www.cnblogs.com/derod/archive/2010/01/14/1647509.html

常见报错原因

因为经常犯这个错,但是还不记住! 以此来告诫自己! 1. KeyError 表示当前Key就没有!!! 去检查一下,你出错的字典或者是列表(一般出这个错误肯定有个对照! )…

jQuery验证validate插件

灰常好用 jquery.validate.js 当然还是用插件.... 别忘记引用JQuery 自带类库 ------------------------------------------- 使用前介绍下label属性 当用label标签把一段文本和一个控件绑定之后,用户点击文本,相关的控件就会获得焦点。 隐式绑定不需使用…