广告设计就业方向和前景南昌网站建设方案优化

web/2025/9/25 22:39:29/文章来源:
广告设计就业方向和前景,南昌网站建设方案优化,智慧团建网站官网入口登录,天津建设电工证查询网站文章目录1. 逻辑回归二分类2. 垃圾邮件过滤2.1 性能指标2.2 准确率2.3 精准率、召回率2.4 F1值2.5 ROC、AUC3. 网格搜索调参4. 多类别分类5. 多标签分类5.1 多标签分类性能指标本文为 scikit-learn机器学习#xff08;第2版#xff09;学习笔记逻辑回归常用于分类任务 1. 逻… 文章目录1. 逻辑回归二分类2. 垃圾邮件过滤2.1 性能指标2.2 准确率2.3 精准率、召回率2.4 F1值2.5 ROC、AUC3. 网格搜索调参4. 多类别分类5. 多标签分类5.1 多标签分类性能指标本文为 scikit-learn机器学习第2版学习笔记逻辑回归常用于分类任务 1. 逻辑回归二分类 《统计学习方法》逻辑斯谛回归模型 Logistic RegressionLR 定义设 XXX 是连续随机变量 XXX 服从 logistic 分布是指 XXX 具有下列分布函数和密度函数 F(x)P(X≤x)11e−(x−μ)/γF(x) P(X \leq x) \frac{1}{1e^{{-(x-\mu)} / \gamma}}F(x)P(X≤x)1e−(x−μ)/γ1​ f(x)F′(x)e−(x−μ)/γγ(1e−(x−μ)/γ)2f(x)F(x) \frac {e^{{-(x-\mu)} / \gamma}}{\gamma {(1e^{{-(x-\mu)}/\gamma})}^2}f(x)F′(x)γ(1e−(x−μ)/γ)2e−(x−μ)/γ​ 在逻辑回归中当预测概率 阈值预测为正类否则预测为负类 2. 垃圾邮件过滤 从信息中提取 TF-IDF 特征并使用逻辑回归进行分类 import pandas as pd data pd.read_csv(SMSSpamCollection, delimiter\t,headerNone) datadata[data[0]ham][0].count() # 4825 条正常信息 data[data[0]spam][0].count() # 747 条垃圾信息import numpy as np from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split, cross_val_scoreX data[1].values y data[0].values from sklearn.preprocessing import LabelBinarizer lb LabelBinarizer() y lb.fit_transform(y)X_train_raw, X_test_raw, y_train, y_test train_test_split(X, y, random_state520)vectorizer TfidfVectorizer() X_train vectorizer.fit_transform(X_train_raw) X_test vectorizer.transform(X_test_raw)classifier LogisticRegression() classifier.fit(X_train, y_train)pred classifier.predict(X_test) for i, pred_i in enumerate(pred[:5]):print(预测为%s, 信息为%s,真实为%s %(pred_i,X_test_raw[i],y_test[i]))预测为0, 信息为Aww thats the first time u said u missed me without asking if I missed u first. You DO love me! :),真实为[0] 预测为0, 信息为Poor girl cant go one day lmao,真实为[0] 预测为0, 信息为Also remember the beads dont come off. Ever.,真实为[0] 预测为0, 信息为I see the letter B on my car,真实为[0] 预测为0, 信息为My love ! How come it took you so long to leave for Zahers? I got your words on ym and was happy to see them but was sad you had left. I miss you,真实为[0]2.1 性能指标 混淆矩阵 from sklearn.metrics import confusion_matrix import matplotlib.pyplot as plt confusion_matrix confusion_matrix(y_test, pred) plt.matshow(confusion_matrix) plt.rcParams[font.sans-serif] SimHei # 消除中文乱码 plt.title(混淆矩阵) plt.ylabel(真实) plt.xlabel(预测) plt.colorbar()2.2 准确率 scores cross_val_score(classifier, X_train, y_train, cv5) print(Accuracies: %s % scores) print(Mean accuracy: %s % np.mean(scores))Accuracies: [0.94976077 0.95933014 0.96650718 0.95215311 0.95688623] Mean accuracy: 0.9569274847434318准确率不是一个很合适的性能指标它不能区分预测错误是正预测为负还是负预测为正 2.3 精准率、召回率 可以参考 [Hands On ML] 3. 分类MNIST手写数字预测 单独只看精准率或者召回率是没有意义的 from sklearn.metrics import precision_score, recall_score, f1_score precisions precision_score(y_test, pred) print(Precision: %s % precisions) recalls recall_score(y_test, pred) print(Recall: %s % recalls)Precision: 0.9852941176470589 预测为垃圾信息的基本上真的是垃圾信息Recall: 0.6979166666666666 有30%的垃圾信息预测为了非垃圾信息2.4 F1值 F1 值是以上精准率和召回率的均衡 f1s f1_score(y_test, pred) print(F1 score: %s % f1s) # F1 score: 0.81707317073170742.5 ROC、AUC 好的分类器AUC面积越接近1越好随机分类器AUC面积为0.5 from sklearn.metrics import roc_curve from sklearn.metrics import roc_auc_scorefalse_positive_rate, recall, thresholds roc_curve(y_test, pred) roc_auc_score roc_auc_score(y_test, pred)plt.title(受试者工作特性) plt.plot(false_positive_rate, recall, b, labelAUC %0.2f % roc_auc_score) plt.legend(loclower right) plt.plot([0, 1], [0, 1], r--) plt.xlim([0.0, 1.0]) plt.ylim([0.0, 1.0]) plt.ylabel(Recall) plt.xlabel(Fall-out) plt.show()3. 网格搜索调参 import pandas as pd from sklearn.preprocessing import LabelEncoder from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.linear_model import LogisticRegression from sklearn.model_selection import GridSearchCV from sklearn.pipeline import Pipeline from sklearn.model_selection import train_test_split from sklearn.metrics import precision_score, recall_score, accuracy_scorepipeline Pipeline([(vect, TfidfVectorizer(stop_wordsenglish)),(clf, LogisticRegression()) ]) parameters {vect__max_df: (0.25, 0.5, 0.75), # 模块name__参数namevect__stop_words: (english, None),vect__max_features: (2500, 5000, None),vect__ngram_range: ((1, 1), (1, 2)),vect__use_idf: (True, False),clf__penalty: (l1, l2),clf__C: (0.01, 0.1, 1, 10), }if __name__ __main__:df pd.read_csv(./SMSSpamCollection, delimiter\t, headerNone)X df[1].valuesy df[0].valueslabel_encoder LabelEncoder()y label_encoder.fit_transform(y)X_train, X_test, y_train, y_test train_test_split(X, y)grid_search GridSearchCV(pipeline, parameters, n_jobs-1, verbose1, scoringaccuracy, cv3)grid_search.fit(X_train, y_train)print(Best score: %0.3f % grid_search.best_score_)print(Best parameters set:)best_parameters grid_search.best_estimator_.get_params()for param_name in sorted(parameters.keys()):print(\t%s: %r % (param_name, best_parameters[param_name]))predictions grid_search.predict(X_test)print(Accuracy: %s % accuracy_score(y_test, predictions))print(Precision: %s % precision_score(y_test, predictions))print(Recall: %s % recall_score(y_test, predictions))Best score: 0.985 Best parameters set:clf__C: 10clf__penalty: l2vect__max_df: 0.5vect__max_features: 5000vect__ngram_range: (1, 2)vect__stop_words: Nonevect__use_idf: True Accuracy: 0.9791816223977028 Precision: 1.0 Recall: 0.8605769230769231调整参数后提高了召回率 4. 多类别分类 电影情绪评价预测 data pd.read_csv(./chapter5_movie_train.csv,header0,delimiter\t) datadata[Sentiment].describe()count 156060.000000 mean 2.063578 std 0.893832 min 0.000000 25% 2.000000 50% 2.000000 75% 3.000000 max 4.000000 Name: Sentiment, dtype: float64平均都是比较中立的情绪 data[Sentiment].value_counts()/data[Sentiment].count()2 0.509945 3 0.210989 1 0.174760 4 0.058990 0 0.045316 Name: Sentiment, dtype: float6450% 的例子都是中立的情绪 from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.linear_model import LogisticRegression from sklearn.model_selection import train_test_split from sklearn.metrics import classification_report, accuracy_score, confusion_matrix from sklearn.pipeline import Pipeline from sklearn.model_selection import GridSearchCVdf pd.read_csv(./chapter5_movie_train.csv, header0, delimiter\t) X, y df[Phrase], df[Sentiment].values X_train, X_test, y_train, y_test train_test_split(X, y, train_size0.5)pipeline Pipeline([(vect, TfidfVectorizer(stop_wordsenglish)),(clf, LogisticRegression()) ]) parameters {vect__max_df: (0.25, 0.5),vect__ngram_range: ((1, 1), (1, 2)),vect__use_idf: (True, False),clf__C: (0.1, 1, 10), }grid_search GridSearchCV(pipeline, parameters, n_jobs-1, verbose1, scoringaccuracy) grid_search.fit(X_train, y_train)print(Best score: %0.3f % grid_search.best_score_) print(Best parameters set:) best_parameters grid_search.best_estimator_.get_params() for param_name in sorted(parameters.keys()):print(\t%s: %r % (param_name, best_parameters[param_name]))Best score: 0.619 Best parameters set:clf__C: 10vect__max_df: 0.25vect__ngram_range: (1, 2)vect__use_idf: False性能指标 predictions grid_search.predict(X_test)print(Accuracy: %s % accuracy_score(y_test, predictions)) print(Confusion Matrix:) print(confusion_matrix(y_test, predictions)) print(Classification Report:) print(classification_report(y_test, predictions))Accuracy: 0.6292323465333846 Confusion Matrix: [[ 1013 1742 682 106 11][ 794 5914 6275 637 49][ 196 3207 32397 3686 222][ 28 488 6513 8131 1299][ 1 59 548 2388 1644]] Classification Report:precision recall f1-score support0 0.50 0.29 0.36 35541 0.52 0.43 0.47 136692 0.70 0.82 0.75 397083 0.54 0.49 0.52 164594 0.51 0.35 0.42 4640accuracy 0.63 78030macro avg 0.55 0.48 0.50 78030 weighted avg 0.61 0.63 0.62 780305. 多标签分类 一个实例可以被贴上多个 labels 问题转换 实例的标签(假设为L1,L2)转换成L1 and L2,以此类推缺点产生很多种类的标签且模型只能训练数据中包含的类很多可能无法覆盖到对每个标签训练一个二分类器这个实例是L1吗是L2吗缺点忽略了标签之间的关系 5.1 多标签分类性能指标 汉明损失不正确标签的平均比例0最好杰卡德相似系数预测与真实标签的交集数量 / 并集数量1最好 from sklearn.metrics import hamming_loss, jaccard_score # help(jaccard_score)print(hamming_loss(np.array([[0.0, 1.0], [1.0, 1.0]]), np.array([[0.0, 1.0], [1.0, 1.0]])))print(hamming_loss(np.array([[0.0, 1.0], [1.0, 1.0]]), np.array([[1.0, 1.0], [1.0, 1.0]])))print(hamming_loss(np.array([[0.0, 1.0], [1.0, 1.0]]), np.array([[1.0, 1.0], [0.0, 1.0]])))print(jaccard_score(np.array([[0.0, 1.0], [1.0, 1.0]]), np.array([[0.0, 1.0], [1.0, 1.0]]),averageNone))print(jaccard_score(np.array([[0.0, 1.0], [1.0, 1.0]]), np.array([[1.0, 1.0], [1.0, 1.0]]),averageNone))print(jaccard_score(np.array([[0.0, 1.0], [1.0, 1.0]]), np.array([[1.0, 1.0], [0.0, 1.0]]),averageNone))0.0 0.25 0.5 [1. 1.] [0.5 1. ] [0. 1.]

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/81856.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

seo网站设计团购网站案例

鲸参谋监测的京东平台9月份空气净化器市场销售数据已出炉! 9月份,空气净化器的销售同比上年增长。根据鲸参谋平台的数据显示,今年9月,京东平台空气净化器的销量将近15万,同比增长约1%;销售额将近2亿元&…

政务公开网站建设整改方案手机在网上怎么创建自己的网站

问题: 级数敛散性和积分敛散性的区别联系是什么?学习的目的是什么?最重要的目的是什么? 主要内容。 部分和 s ∑ i 1 n u i s \sum_{i1}^{n} u _{i} si1∑n​ui​ 注意:部分和不是数列的一部分之和,…

黄埔做网站公司it外包企业排名

方差可以反应变量的离散程度,是因为它度量了数据点与均值的差异。方差是每个数据点与均值的差的平方和的平均值,它可以反映数据点在均值附近的分布情况。如果方差较小,说明数据点更加集中在均值附近,离散程度较小;如果…

中山企业建网站wordpress无法缩进

云服务器可以装多个系统吗 内容精选换一换示例:购买并登录Windows弹性云服务器示例:购买并登录Linux弹性云服务器云平台提供了多种实例类型供您选择,不同类型的实例可以提供不同的计算能力和存储能力。同一实例类型下可以根据CPU和内存的配置…

教做视频的网站建产品网站怎么做

每个JJ Abrams的电视连续剧疑犯追踪从主要人物芬奇先生一个下列叙述情节开始:“ 你是被监视。 政府拥有一个秘密系统-每天每天每小时都会对您进行监视的机器。 我知道是因为...我建造了它。 “当然,我们的技术人员知道得更多。 庞大的电气和软件工程师团…

网站域名如何起网站素材站

程序员不仅拥有将抽象概念转化为实际应用的能力,还通常具备强大的逻辑思维和问题解决能力。然而,许多程序员并不满足于仅仅在一家公司工作,他们渴望通过副业来实现个人价值的最大化,增加收入,甚至探索自己的创业梦想。…

网站内部优化做静态网站选用什么服务器

9.3.3 内连接(INNER JOIN) 内连接也称为等同连接,返回的结果集是两个表中所有相匹配的数据,而舍弃不匹配的数据。也就是说,在这种查询中,DBMS只返回来自源表中的相关的行,即查询的结果表包含的…

网站建设建站网易互客网站建设怎么做帐

建立时间和保持时间的模型分析 起点是源触发器D1的采样时刻,终点是目的触发器D2的采样时刻,假设起点已经满足了建立时间和保持时间要求,现在分析终点采样时刻是否同样满足要求。 其中 Tco:数据正确采样后从D端到达Q端的延时,触发器固有属性,不可改变。TDelay:D1输出端…

昆明c2c网站建设苏州市网站

未完待续...T1:牛牛的方程式titlesolutioncodeT2:牛牛的猜数游戏titlesolutioncodeT3:牛牛的凑数游戏titlesolutioncodeT1:牛牛的方程式 title solution 因为浮点错误炸了70pts 这个三元一次不定方程呢,其实也没有…

网站做境外第三方支付关于申请建设网站申请报告

题干: 给出一个n1个点的树,以及p个点对,需要断开一些点,使得这p个点对路径不连通。输出应该断开的最少点数。 解题报告: 从那p个点对入手的话:首先考虑只有一对点的话,肯定是这条路径上的随便…

微博营销网站服务器维护要多久

冒泡排序 冒泡排序是一种 稳定 的排序算法。 它的工作原理是每次检查相邻两个元素,如果前面的元素与后面的元素满足给定的排序条件,就将相邻两个元素交换。当没有相邻的元素需要交换时,排序就完成了。 假设我们想要从小到大进行排序&#…

电商网站开发的项目描述张艺兴粉丝做的网站

本题使用go语言完成: 思路:1.先求出整个数组的和 2.用一个循环整个和减去左和看是否等于右和,如果等于,返回索引下标 寻找数组的中心索引 给你一个整数数组 nums ,请计算数组的 中心下标 。 数组 中心下标 是数组的一…

已有网站开发安卓app做体彩网站怎么做

情况介绍:一、由于硬盘或者分区的操作方式其实都一样,所以我这里就以分区为例。二、/home分区2.6G,由如下pv组成:/dev/sda5 100M/dev/sda6 200M/dev/sda7 300M/dev/sda8 400M/dev/sda9 500M/dev/sda10 600M/dev/sda11 500M很碎对吧…

北京哪个网站建设最好asp 英文企业网站 免费

文章目录 前言一、噪声种类与生成1.1 椒盐噪声1.2 高斯噪声1.3 彩色噪声 二、卷积操作2.1 卷积基本原理2.2 卷积操作代码实现 三、线性滤波3.1 均值滤波均值滤波原理均值滤波公式均值滤波代码实现 3.2 方框滤波方框滤波原理方框滤波公式方框滤波代码实现 3.3 高斯滤波高斯滤波原…

外贸网站推广怎么做wordpress 考试

作者 | 俞方桦 随着大数据时代的到来,传统的关系型数据库由于其在数据建模和存储方面的限制,变得越来越难以满足大量频繁变化的需求。关系型数据库,尽管其名称中有“关系”这个词,却并不擅长处理复杂关系的查询和分析。另外&…

网站创建多少年了安徽省住房城乡建设厅官方网站

Google 的项目大多使用 C开发。每一个 C程序员也都知道,C具有很多强大的语言特性,但这种强大不可避免的导致它的复杂,而复杂性会使得代码更容易出现 bug、难于阅读和维护。 本指南的目的是通过详细阐述如何进行 C编码来规避其复杂性&#xf…

asp做网站策划书哪些企业是中小企业

今天在自己的服务器上使用wget下载一个大文件时,不小心把ssh断开连接了,重新登上去后想查看这个文件的下载进度,现记录一些wget的知识点。1:后台下载使用wget -b url[root8f9fbda9bb48 ~]# wget -b http://cn.wordpress.org/word…

大学 英文网站建设萝岗营销型网站建设

目录 一. 前言 二. 实现 三. 优缺点 一. 前言 解释器模式(Interpreter Pattern)指给定一门语言,定义它的文法的一种表示,并定义一个解释器,该解释器使用该表示来解释语言中的句子,属于行为型设计模式。是…

休闲咖啡厅网站开发目标怎样临沂网站建设

参考资料: VS插件开发 - 个性化VS IDE编辑器 自己动手编写一个VS插件(一) VS Addin插件基本开发入门 VS Addin插件配置、部署 转载于:https://www.cnblogs.com/wangwangfei/p/5830081.html

顺义做网站公司wordpress即时新闻

UNDO表空间用于存放UNDO数据,当执行DML操作(INSERT,UPDATE和DELETE)时,oracle会将这些操作执行前的旧数据 写入到 UNDO段,在oracle9i之前,管理UNDO数据时使用(Rollback Segment)完成的.从oracle9i开始,管理UNDO数据不仅可以使用回滚段,还可以使用UNDO表空间.因为规划和管理回滚…