机器学习——朴素贝叶斯练习题

一、

使用鸢尾花数据训练多项式朴素贝叶斯模型,并评估模型

代码展示: 

from sklearn.datasets import load_iris
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNBiris = load_iris()x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.3,random_state=42)model = MultinomialNB()model.fit(x_train,y_train)y_pred = model.predict(x_test)
print("预测率:",accuracy_score(y_test,y_pred))

 结果展示:

预测率: 0.9555555555555556

二、

电影评论情感分析

‌项目背景‌:

你在一家电影评论网站工作,需要开发一个情感分析系统来自动分类用户评论是正面还是负面。使用Kaggle上的"IMDB Dataset of 50K Movie Reviews"数据集。

‌数据集链接‌:

IMDB Dataset of 50K Movie Reviews | Kaggle

‌练习题要求‌:

  1. 使用Pandas加载并预处理数据
  2. 使用Numpy进行特征工程
  3. 比较不同朴素贝叶斯变体(高斯、多项式、伯努利)的性能
  4. 使用matplotlib绘制性能比较图表

代码展示:

import re
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB, MultinomialNB, BernoulliNB
import matplotlib.pyplot as pltdf = pd.read_csv("./data/IMDB Dataset.csv",encoding="utf-8")
print(df.head())
print(df.shape)df["sentiment"] = df["sentiment"].map({"positive":1,"negative":0})
# print(df.head())comment = df["review"]
# print(comment.head())comment_lists = []
for i in comment:# print(i)i = i.lower()i = re.sub(r'<.*?>', '', i)i = re.sub(r'[^a-zA-Z]', ' ', i)words = i.split()words = [word for word in words if len(word) > 2]comment_list = " ".join(words)comment_lists.append(comment_list)# print(comment_list)
df["clean_review"] = comment_liststransfer = TfidfVectorizer(max_features=5000,ngram_range=(1,2))
x = transfer.fit_transform(df["clean_review"])
y = df["sentiment"]x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state=42)mu_model = MultinomialNB()
mu_model.fit(x_train,y_train)mu_y_pred = mu_model.predict(x_test)
mu_accuracy = accuracy_score(y_test,mu_y_pred)
print("多项式朴素贝叶斯:",mu_accuracy)be_model = BernoulliNB()
be_model.fit(x_train,y_train)be_y_pred = be_model.predict(x_test)
be_accuracy = accuracy_score(y_test,be_y_pred)
print("伯努利朴素贝叶斯:",be_accuracy)transfer = CountVectorizer(max_features=5000)
x = transfer.fit_transform(comment_lists)x_dense = x.toarray()x_train = x_dense[:4000, :]
good_or_bad = df["sentiment"].values
y_train = good_or_bad[:4000]
x_test = x_dense[4000:, :]
y_test = good_or_bad[4000:]ga_model = GaussianNB()
ga_model.fit(x_train,y_train)
ga_y_pred = ga_model.predict(x_test)
ga_accuracy = accuracy_score(y_test,ga_y_pred)
print("高斯朴素贝叶斯:",ga_accuracy)models = ['GaussianNB','MultinomialNB','BernoulliNB']
values = [ga_accuracy,mu_accuracy,be_accuracy]plt.bar(models,values,color=['blue','green','red']
)plt.title("Comparison of Naive Bayes Variants")
plt.ylabel("Accuracy")
plt.tight_layout()
plt.show()

结果展示:

多项式朴素贝叶斯: 0.8628666666666667
伯努利朴素贝叶斯: 0.8533333333333334
高斯朴素贝叶斯: 0.7214347826086956

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/79948.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

气胸复查重点提问清单 ,怎样平衡检查必要性和辐射影响?

气胸复查重点提问清单&#xff08;打印版&#xff09; 以下是带孩子复查气胸时建议与医生沟通的重点问题&#xff0c;分为不同方面&#xff0c;可打印后随身携带&#xff0c;逐项确认。 术后康复情况相关 1. 肺目前复张情况如何&#xff1f;胸片显示肺是否已经完全展开&…

Linux相关概念和易错知识点(40)(HTML资源交互、网页管理、搜索引擎)

目录 1.HTML资源交互 &#xff08;1&#xff09;媒体加载 &#xff08;2&#xff09;静态页面跳转 &#xff08;3&#xff09;动态页面 &#xff08;4&#xff09;GET和POST传参的区别 2.网页管理 &#xff08;1&#xff09;网页的权限管理 &#xff08;2&#xff09;临…

使用 QGIS 插件 OpenTopography DEM Downloader 下载高程数据(申请key教程)

使用 QGIS 插件 OpenTopography DEM Downloader 下载高程数据 目录 使用 QGIS 插件 OpenTopography DEM Downloader 下载高程数据&#x1f4cc; 简介&#x1f6e0; 插件安装方法&#x1f30d; 下载 DEM 数据步骤&#x1f511; 注册 OpenTopography 账号&#xff08;如使用 Cope…

【通知】2025元宇宙数字人设计大赛启动,大赛线上报名阶段开启!

元宇宙数字人设计大赛火热报名中&#xff01;欢迎大家踊跃报名参与&#xff01; 元宇宙数字人设计大赛报名活动正在如火如荼进行中&#xff0c;欢迎各位对元宇宙数字人感兴趣的同学与老师踊跃参与报名&#xff01; 元宇宙数字人设计大赛承接原大中华区VR盟主选拔赛&#xff0c…

Kaamel隐私合规洞察:Temu在韩被罚事件分析

Kaamel隐私合规与数据安全团队分析报告 韩国个人信息保护委员会&#xff08;PIPC&#xff09;对中国电子商务巨头Temu处以巨额罚款&#xff0c;原因是其严重违反了用户数据保护法律 。核心违规行为包括未经适当披露或用户同意非法跨境传输数据、未能指定当地代表、账户注销流程…

查询公网IP地址的方法:查看自己是不是公网ip,附内网穿透外网域名访问方案

本地搭建服务并提供互联网连接时&#xff0c;较为传统的方法是使用公网IP地址。因此&#xff0c;如何查询本地自己是不是公网IP&#xff0c;是必须要掌握的一种技巧。当面对确实无公网IP时&#xff0c;则可以通过内网穿透方案&#xff0c;如nat123网络映射工具&#xff0c;将本…

Redis特性与应用

1、分布式缓存与redis 2、redis数据结构和客户端集成 3、缓存读写模式与数据一致性 本地缓存&#xff1a;Hash Map、Ehcache、Caffeine、Google Guava 分布式缓存&#xff1a;Memcached、redis、Hazelcast、Apache ignite redis&#xff1a;基于键值对内存数据库&#xff0c;支…

Top-p采样:解锁语言模型的创意之门

Top - p采样 是什么&#xff1a;核采样&#xff1a;排序&#xff0c;累计到0.7&#xff0c;随机选择 在自然语言生成和大规模语言模型推理中&#xff0c;Top - p采样&#xff08;又叫核采样&#xff0c;Nucleus Sampling&#xff09;是一种基于累积概率的采样策略。 Top - p介…

Gitee DevSecOps:军工软件研发的智能化变革引擎

在数字化战争时代背景下&#xff0c;军工软件的研发效率与质量直接关乎国防建设进程。传统军工软件开发面临依赖管理混乱、版本变更失控、团队协作低效等系统性难题&#xff0c;严重制约着"软件工厂"理念的落地。Gitee DevSecOps平台以智能版本管理为突破口&#xff…

芋道项目,商城模块数据表结构

一、需求 最近公司有新的业务需求&#xff0c;调研了一下&#xff0c;决定使用芋道&#xff08;yudao-cloud&#xff09;框架,于是从github&#xff08;https://github.com/YunaiV/yudao-cloud&#xff09;上克隆项目&#xff0c;选用的是jdk17版本的。根据项目启动手册&#…

ES常识9:如何实现同义词映射(搜索)

在 Elasticsearch&#xff08;ES&#xff09;中实现同义词映射&#xff08;如“美丽”和“漂亮”&#xff09;&#xff0c;核心是通过 同义词过滤器&#xff08;Synonym Token Filter&#xff09; 在分词阶段将同义词扩展或替换为统一词项&#xff0c;从而让搜索时输入任意一个…

Web安全渗透测试基础知识之SQL注入篇

一、SQL注入基础理论 1.1 什么是SQL注入 SQL注入是一种常见的Web安全问题&#xff0c;攻击者通过在Web应用程序的输入字段中插入恶意的SQL语句&#xff0c;改变原本SQL查询的逻辑&#xff0c;实现非法获取数据、篡改数据、执行系统命令等操作。这种情况产生的根本原因在于应…

JVM方法区核心技术解析:从方法区到执行引擎

方法区 方法区的内部结构 在经典方法区设计中&#xff0c;主要存储以下核心数据内容&#xff1a; 一、类型信息 方法区维护的类型信息包含以下要素&#xff1a; 类全称标识 类名称&#xff08;含完整包路径&#xff09;直接父类的完全限定名&#xff08;包含完整包路径&am…

【MyBatis插件】PageHelper 分页

前言 在开发 Web 应用时&#xff0c;我们经常需要处理海量数据的展示问题。例如&#xff0c;在一个电商平台上&#xff0c;商品列表可能有成千上万条数据。如果我们一次性将所有数据返回给前端&#xff0c;不仅会导致页面加载缓慢&#xff0c;还会对数据库造成巨大压力。为了解…

springboot+vue实现在线书店(图书商城)系统

今天教大家如何设计一个图书商城 , 基于目前主流的技术&#xff1a;前端vue&#xff0c;后端springboot。 同时还带来的项目的部署教程。 视频演示 在线书城 图片演示 一. 系统概述 商城是一款比较庞大的系统&#xff0c;需要有商品中心&#xff0c;库存中心&#xff0c;订单…

OPC UA + ABP vNext 企业级实战:高可用数据采集框架指南

&#x1f680;&#x1f4ca; OPC UA ABP vNext 企业级实战&#xff1a;高可用数据采集框架指南 &#x1f680; &#x1f4d1; 目录 &#x1f680;&#x1f4ca; OPC UA ABP vNext 企业级实战&#xff1a;高可用数据采集框架指南 &#x1f680;一、前言 &#x1f3af;二、系统…

Oracle统计信息收集时的锁持有阶段

Oracle统计信息收集时的锁持有阶段 1 准备阶段&#xff08;共享模式锁&#xff09; 锁类型&#xff1a;对象级共享锁&#xff08;S锁&#xff09; 持续时间&#xff1a;通常1-5秒 主要操作&#xff1a; 验证对象存在性和权限检查统计信息首选项设置确定采样方法和并行度 监…

shell常用语法

一、shell变量 定义变量语法&#xff1a; 变量名值 # 等号两边不能有空格 示例&#xff1a; #!/bin/bash name"Alice" echo "Hello, $name!" # 使用变量使用变量-语法&#xff1a; 两种方式&#xff1a; 第一种&#xff1a;${变量名} 第二种&#x…

《教育退费那些事儿:从困境到破局》

《教育退费那些事儿&#xff1a;从困境到破局》 教育退费&#xff1a;不容忽视的热点问题 在当今社会&#xff0c;教育消费已成为家庭支出的重要组成部分。无论是 K12 阶段的学科辅导、艺术特长培训&#xff0c;还是成人的职业技能提升、学历继续教育&#xff0c;家长和学生们…

老字号焕新案例:天猫代运营如何让传统品牌年轻化破圈

老字号焕新案例&#xff1a;天猫代运营如何让传统品牌年轻化破圈 在消费升级与年轻化浪潮的冲击下&#xff0c;传统老字号品牌常面临“有历史无活力、有产品无流量”的困境。如何借助电商平台实现品牌焕新&#xff0c;成为其破局的关键。品融&#xff08;PINKROON&#xff09…