怎么在工商局网站做股东变更北京免费网站建设模板

bicheng/2026/1/17 20:57:07/文章来源:
怎么在工商局网站做股东变更,北京免费网站建设模板,短租网站建设,唐山市政建设总公司网站垃圾邮件#xff08;Spam#xff09;的泛滥成灾一直是电子邮件系统中的一个严峻问题。随着垃圾邮件技术的不断演变#xff0c;传统的过滤方法逐渐显得力不从心。因此#xff0c;本项目旨在利用支持向量机#xff08;SVM#xff09;这一强大的机器学习工具#xff0c;实现… 垃圾邮件Spam的泛滥成灾一直是电子邮件系统中的一个严峻问题。随着垃圾邮件技术的不断演变传统的过滤方法逐渐显得力不从心。因此本项目旨在利用支持向量机SVM这一强大的机器学习工具实现对垃圾邮件的高效分类为用户提供更清爽、高效的电子邮件体验。 一、项目目标 本项目的主要目标是构建一个基于SVM的垃圾邮件分类系统。通过对两个不同来源的数据集trec 和 enron进行综合分析和处理我将展示整个数据挖掘项目的过程包括数据的预处理、特征工程、模型训练与调优并最终通过实验结果分析验证模型的性能。 二、数据集来源及介绍 我使用了两个不同来源的数据集其中trec数据集已经经过处理enron数据集需要进行清洗和整理 trecEmails for spam or ham classification (Trec 2007) (kaggle.com)enronMWiechmann/enron_spam_data: The Enron-Spam dataset preprocessed in a single, clean csv file. (github.com) trec 数据集提供了多样的垃圾邮件和非垃圾邮件样本而 enron 数据集则包含了来自 enron 公司的电子邮件数据。这两个数据集的结合将有助于提高模型的泛化能力。 三、数据处理与准备 在进行垃圾邮件分类项目之前我们首先需要对数据进行准备和预处理。 3.1 trec数据集 3.1.1 数据导入与查看 pythonCopy code trec pd.read_csv(rD:\\BUZZ\\\\数据挖掘\\垃圾邮件分类\\email_text.csv) display(trec)原因数据一开始就是预处理过的因此通过导入数据和查看前几行我们可以验证数据的完整性确保没有导入错误或缺失的信息。 3.1.2 缺失值和重复值处理 pythonCopy code trec.isna().sum() trec.duplicated().sum()原因尽管数据已经被预处理但为了确保数据的完整性我们仍然进行了缺失值和重复值的验证。使用isna()方法检查每一列是否存在缺失值sum()方法得到缺失值的数量。使用duplicated()方法检查是否有重复行sum()方法计算重复值的数量。 3.2 enron数据集 3.2.1 数据导入与查看 pythonCopy code enron pd.read_csv(rD:\\BUZZ\\\\数据挖掘\\垃圾邮件分类\\enron_spam_data.csv) display(enron)原因 enron数据集的导入和查看步骤与trec相似。同样通过导入数据和查看前几行我们验证了数据的完整性。 3.2.2 缺失值和重复值处理 pythonCopy code enron.isna().sum() enron.duplicated().sum() enron.dropna(inplaceTrue) enron.drop_duplicates(inplaceTrue)原因 与trec不同enron数据集是原始数据未经过预处理。我们首先使用**isna()方法检查缺失值sum()方法得到每列缺失值的数量。然后使用duplicated()方法检查重复值sum()方法计算重复值的数量。接着使用dropna方法删除缺失值drop_duplicates**方法删除重复值。 3.2.3 数据选择性分析与处理 pythonCopy code pythonCopy code # 只分析邮件正文内容因此不需要其他列 enron.drop([Message ID, Subject, Date], axis1, inplaceTrue)# 检查缺失值 enron.isna().sum()# 删除缺失值 enron.dropna(inplaceTrue)# 检查重复值 enron.duplicated().sum()# 删除重复值 enron.drop_duplicates(inplaceTrue)# 使用 LabelEncoder 将 ham 替换为 0spam 替换为 1 label_encoder preprocessing.LabelEncoder() enron[label] label_encoder.fit_transform(enron[Spam/Ham]) enron.drop(Spam/Ham, axis1, inplaceTrue) enron.rename(columns{Message: text}, inplaceTrue)原因 由于我们只对邮件正文内容进行分析因此在这一步骤中我们删除了与正文内容无关的列。然后我们再次检查并处理缺失值和重复值。最后使用**LabelEncoder**将ham标记为0spam标记为1为模型训练做准备。 3.3 数据合并、抽样及划分 在这一步中我首先合并了trec和enron两个数据集再次检查了合并后的数据集是否有重复值。然后我进行了随机抽样保留了原始数据集的10%。最后我使用**train_test_split**方法将数据集划分为训练集和测试集其中20%分给测试集80%分给训练集。这样的划分有助于我们在训练模型时验证其性能。 3.3.1 数据合并与抽样 pythonCopy code combined pd.concat([trec, enron], ignore_indexTrue) combined.duplicated().sum() combined combined.sample(frac0.1, random_state1)原因 将两个数据集合并为一个可以帮助我们更方便地进行后续的分析和建模。为了减小数据规模提高模型训练效率我们使用了**sample**方法对合并后的数据进行了随机抽样。这也有助于避免在处理大规模数据时过度占用计算资源。 3.3.2 数据集划分 pythonCopy code pythonCopy code # 合并数据集 combined pd.concat([trec, enron], ignore_indexTrue)# 合并后检查重复值 combined.duplicated().sum()# 对 combined 数据集进行随机抽样保留原始数据集的 10% combined combined.sample(frac0.1, random_state1) combined# 分割数据集 20%分给测试集80%分给训练集 x combined[text] y combined[label] x_train, x_test, y_train, y_test train_test_split(x, y, test_size0.2, random_state1)将数据集划分为训练集和测试集其中20%分给测试集80%分给训练集。这样的划分有助于我们在训练模型时验证其性能。 注释解释 删除缺失值的原因 电子邮件正文缺失对垃圾邮件分类任务没有直接贡献且数目较少因此选择直接删除缺失值。这有助于保持数据集的质量和可用性。删除重复值的原因 过拟合风险 数据集中存在重复的电子邮件可能导致模型在新数据上的泛化性能下降因为模型会过度学习这些重复的模式。样本偏好 如果某些电子邮件出现多次模型可能更倾向于这些样本引入对特定电子邮件的偏好。删除重复值有助于保持数据集的平衡性。简化数据集 删除重复值可以简化数据集使数据更干净、易于理解并减少对计算资源的需求。 这样的处理步骤旨在确保数据的质量为后续建模和分析提供可靠的基础。 四、 数据特征提取与向量化 在进行垃圾邮件分类的任务中文本数据需要被转换为机器学习模型可以处理的数值型数据。这一过程通常包括文本的特征提取和向量化而我们使用了TF-IDFTerm Frequency-Inverse Document Frequency向量化方法。 4.1 TF-IDF向量化 pythonCopy code vectorizer TfidfVectorizer() x_train_vectorized vectorizer.fit_transform(x_train) x_test_vectorized vectorizer.transform(x_test) 原因 对于支持向量机SVM等基于数值型数据的机器学习模型文本数据通常需要经过适当的处理和特征提取才能用于训练和预测。TF-IDF向量化是一种常见的文本特征提取方法它将文本数据转换为稀疏的数值向量以便机器学习算法能够理解和处理。TF-IDF考虑了单词在文档中的重要性降低了常见词汇的权重增加了罕见词汇的权重。 五、 模型训练与调优 5.1 初始化SVM模型 pythonCopy code svc SVC()原因 在这个项目中我们选择使用支持向量机SVM作为分类模型。通过初始化一个SVM分类器我们为后续的超参数调优和模型训练做好了准备。 5.2 使用GridSearchCV查找最佳超参数组合 pythonCopy code param_grid {C: [0.1, 1, 10], kernel: [linear, rbf], gamma: [scale, auto]} grid_search GridSearchCV(svc, param_grid, cv5, scoringaccuracy, n_jobs-1) grid_search.fit(x_train_vectorized, y_train)原因 为了提高模型的性能我们使用了网格搜索Grid Search来搜索最佳的超参数组合。通过定义超参数的范围GridSearchCV尝试了不同的组合并使用交叉验证来评估它们的性能。在这里我们调整了SVM模型的惩罚参数C、核函数linear或rbf和gamma参数。 5.3 使用最佳超参数重新训练SVM模型 pythonCopy code best_svm_gpu grid_search.best_estimator_ best_svm_gpu.fit(x_train_vectorized, y_train)原因 确定了最佳超参数组合后我们使用这些参数重新训练了SVM模型以便获得更好的性能。 六、 实验结果分析与总结 6.1 在测试集上计算模型评估指标 为了评估模型的性能我在测试集上计算了准确率、精确度和召回率等指标。这些指标提供了对模型在新数据上表现的全面了解。在垃圾邮件分类任务中准确率衡量了模型正确分类的比例精确度度量了垃圾邮件被正确分类的比例召回率则度量了模型找到所有垃圾邮件的能力。 pythonCopy code predictions best_svm_gpu.predict(x_test_vectorized) accuracy accuracy_score(y_test, predictions) precision precision_score(y_test, predictions) recall recall_score(y_test, predictions)print(准确率: , accuracy) print(精确度: , precision) print(召回率: , recall)结果 准确率Accuracy98.08%精确度Precision97.59%召回率Recall98.89% 6.2 使用自定义输入测试模型 通过输入一条新的邮件内容进行模型测试查看模型对未见过的数据的分类预测。 pythonCopy code new_email 亲爱的朋友我有一个很好的投资机会给你 new_email_vectorized vectorizer.transform([new_email]) prediction best_svm_gpu.predict(new_email_vectorized) print(预测结果:, prediction)结果 模型预测结果为1即该邮件被分类为垃圾邮件。 通过以上实验结果我们可以得出结论 模型在测试集上表现良好具有高准确率98.08%和高召回率98.89%。模型对新的、未见过的邮件数据也能做出有效的分类预测体现了其泛化能力。该垃圾邮件分类系统可以在实际应用中发挥作用帮助用户过滤垃圾邮件提升邮件处理效率。 通过对实验结果的分析验证了模型的有效性也为垃圾邮件分类任务提供了可靠的解决方案。在实际应用中该模型可以作为一个自动化工具帮助用户识别和处理大量的电子邮件数据。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/89446.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

乐清开发网站公司自己建还是找代理建网站

光伏连接器 电子元器件百科 文章目录 光伏连接器前言一、光伏连接器是什么二、光伏连接器的类别三、光伏连接器的应用实例四、光伏连接器的作用原理总结前言 常用的光伏连接器类型包括MC4、MC3、Amphenol和Tyco等,它们根据连接方式、电气性能和标准规范等因素进行设计和选择…

企业网站建设哪家服务好网络营销包括

2024年山东省职业院校技能大赛中职组 “网络安全”赛项竞赛试题-B卷 2024年山东省职业院校技能大赛中职组 “网络安全”赛项竞赛试题-B卷A模块基础设施设置/安全加固(200分)A-1:登录安全加固(Windows, Linux)A-2&#…

西安做网站必达网络上海网站建设工作

个人主页:点我进入主页 专栏分类:C语言初阶 C语言程序设计————KTV C语言小游戏 C语言进阶 C语言刷题 数据结构初阶 Linux 欢迎大家点赞,评论,收藏。 一起努力,共赴大厂。 目录 一.前言 二.插入排序 …

有自己网站好处北京注册公司代理机构排名

目录 访问字符串中的值 Python字符串运算符 Python 字符串格式化 str.format() 数字格式化 多行注释 f-string Unicode 字符串 Python 的字符串内建函数 我们可以用单引号或者双引号"来创建字符串。 创建字符串很简单,给变量分配一个值即可例如 ahell…

给个网站手机能看的河南23个岗位无人报考

文章目录 什么是主键生成策略?MyBatis Plus 中的主键生成策略如何在 MyBatis Plus 中配置主键生成策略 什么是主键生成策略? 在数据库中,每一行数据都需要一个唯一的标识符,这就是主键。主键生成策略决定了如何为新插入的行生成这…

网站单个页面紧张搜索引擎蜘蛛企业品牌宣传片制作

该读书笔记大多内容参照了大神浅墨的该篇文章https://zhuanlan.zhihu.com/p/35974789 本章介绍了一种在GPU中模拟和渲染大的水体的系统。它把基本网格的集合波动于动态发现贴图的生成结合起来。 1.1 目标和范围 这章里,我们将由计算简单正弦函数之和开始&#xf…

网站建设多少钱一个平台可以看设计的网站有哪些

前言 很久没写博客了,今天难得闲下来写一次。 不知道大家在使用git的时候有没有遇到过这样的问题:发现git submodule特别好用,适合用于满足同时开发和部署的需求,并且结构清晰,方便我们对整个代码层次有一个大概的了…

北京亦庄做网站公司邯郸网站开发公司电话

一、应用架构演变历史: 单一应用架构 -> 垂直应用架构 -> 分布式服务架构 -> 微服务架构。 单一应用架构 当网站流量很小时,只需一个应用,将所有功能都部署在一起,以减少部署节点和成本。 此时,用于简化增删…

企业网站建设排名网址宁波网站设计皆选蓉胜网络

目录 前言 一、技术栈 二、系统功能介绍 管理员功能实现 财务人员管理 留言管理 薪资管理 财务人员功能实现 报销信息管理 收费信息管理 支出信息管理 员工功能实现 报销信息管理 留言管理 薪资查询 三、核心代码 1、登录模块 2、文件上传模块 3、代码封装 前…

营销型网站的建设和运营可视化 网站开发工具

再继续扒 继续 前一篇 的话题, 在那里, 提到了抽象, 耦合及 MVC, 现在继续探讨这些, 不过在此之前先说下第一篇里提到的对称性. 注: 以下讨论建立在前面的基础之上, 为控制篇幅起见, 这里将不再重复前面说到的部分, 如果您还没看过前两篇章, 阅读起来可能会有些困难. 这是第一…

地方网站需要什么手续成都网多多

Laplacian(拉普拉斯)算子 前面介绍的Sobel算子和Scharr算子存在的问题: 1.要分别计算两个方向(x,y)的边缘,之后将两方向的边缘进行叠加。 2.边缘与方向相关性较大。当我们通过Sobel算子提取x方向检测时,它所能够检测到的边缘都是一个沿着y…

一起做网店网站小程序代理须知

第三方库是工程开发必不可少的部分,而第三方库可以是.a和.framework的静态库,也可以是.framework的动态库,其中静态库是最常用的方式。 静态库往往比较大,可在打包到可执行文件之后,对安装包大小的增加远远小于静态库本…

网站内网页标题对百度排名技术网站

神经网络语言模型 使用神经网络的方法,去完成语言模型的两个问题,下图为两层感知机的神经网络语言模型: 以下为预备概念 感知机 线性模型可以用下图来表示:输入经过线性层得到输出 线性层 / 全连接层 / 稠密层:假…

做编程的+网站如何制作家具网站

网络安全事件分析应急响应 目录 网络安全事件分析应急响应 解析如下:

网站导航页面制作营销网站一般包括哪些内容

关于ElevationStation ElevationStation是一款专为红队设计的权限提升测试工具,在该工具的帮助下,广大红队研究人员和渗透测试人员可以轻松实现SYSTEM权限令牌的获取,并通过将目标账号提升至SYSTEM权限来测试目标操作系统的安全态势。 Elev…

扬州做网站的公司ftp服务器

快答案: SCADA和DCS作为单独的系统开始,但一起成长。今天的带宽如此广泛,不需要在每个节点进行本地化。 SCADA和DCS:如果您参与管理企业级网络,您可能已经听说过这些术语。本文将阐明两种技术之间的区别。请注意&#…

企业网站建设找外包公司做网上超市网站的设计与实现

一、数据监控Prometheus 1、什么是Prometheus Prometheus是由SoundCloud开源监控告警解决方案,从2012年开始编写代码,到2015年github上开源以来,吸引不少用户以及公司的使用。Prometheus作为新一代的开源解决方案,很多理念与Google SRE的运维之道不谋而合。 2、Promet…

英文网站建设 论文哈尔滨工程项目建设网

1. 涉及平台 平台管理、商家端(pc端、手机端)、买家平台(h5/公众号、小程序、app端(ios/android)、微服务平台(业务服务) 2. 核心架构 spring cloud、spring boot、mybatis、redis 3. 前端框架…

广告网站建设价格django网站开发流程

今天主要给大家介绍一下testcafe这个框架元素定位的方法。 一、CSS 选择器定位 使用 testcafe 对元素进行操作的时候,我们可以直接通过 CSS 选择器指定要操作的元素,比如,点击元素,input 输入文本内容,如下&#xff1…

网站用什么切版商务风页面设计

1.变量的指针,其含义是指该变量的 B 。 A)值 B)地址 C)名 D)一个标志 2.已有定义int k2;int *ptr1,*ptr2;且ptr1和ptr2均已指向变量k,下面不能正确执…