实验3 中文分词

必做题:

  1. 数据准备:academy_titles.txt为“考硕考博”板块的帖子标题,job_titles.txt为“招聘信息”板块的帖子标题,
  2. 使用jieba工具对academy_titles.txt进行分词,接着去除停用词,然后统计词频,最后绘制词云。同样的,也绘制job_titles.txt的词云。
  3. 将jieba替换为pkuseg工具,分别绘制academy_titles.txt和job_titles.txt的词云。要给出每一部分的代码。

效果图

 

代码

import jieba
import re
from wordcloud import WordCloud
from collections import Counter
import matplotlib.pyplot as plt# 读取academy_titles文件内容
with open('C:\\Users\\hp\\Desktop\\实验3\\academy_titles.txt', 'r', encoding='utf-8') as file:academy_titles = file.readlines()# 读取job_titles文件内容
with open('C:\\Users\\hp\\Desktop\\实验3\\job_titles.txt', 'r', encoding='utf-8') as file:job_titles = file.readlines()# 将招聘信息与学术信息分开
academy_titles = [title.strip() for title in academy_titles]
job_titles = [title.strip() for title in job_titles]# 分词、去除停用词、统计词频(对academy_titles)
academy_words = []
for title in academy_titles:words = jieba.cut(title)filtered_words = [word for word in words if re.match(r'^[\u4e00-\u9fa5]+$', word)]academy_words.extend(filtered_words)

请自行补全代码,或者这周五晚上更新完整代码

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/776544.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

火山引擎VeDI:A/B测试开放平台正式上线,企业个性化平台一键定制

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 火山引擎数智平台VeDI旗下的A/B测试平台(DataTester),旨在为企业提供科学且可信的A/B测试能力及丰富的场景实验支持。随着企业的…

java常用优秀开发框架及工具类汇总

目录 1、各类系统及简称扫盲2、开发框架2.1、若依(ruoyi) 3、工具组件3.1、java工具类库3.1.1、HuTool3.1.2、office、excel、pdf文档处理3.1.3、运行日志管理3.1.4、数据层框架3.1.5、数据库连接池 java发展了很多年,为了便于开发,出现刴优秀的开发框架…

知识图谱操作的探索与利用

目录 前言1 搜索(Search)1.1 基于关键词搜索1.2 属性搜索1.3 模式匹配 2 过滤(Filtering)2.1 属性过滤2.2 关系过滤 3 引导(Guidance)3.1 相关实体推荐3.2 路径推荐 4 合并(Merging)…

WPF自定义Panel:让拖拽变得更简单

在 WPF 应用程序中,拖放操作是实现用户交互的重要组成部分。通过拖放操作,用户可以轻松地将数据从一个位置移动到另一个位置,或者将控件从一个容器移动到另一个容器。然而,WPF 中默认的拖放操作可能并不是那么好用。为了解决这个问…

智慧公厕的技术融合策略

智慧公厕是迎合现代城市发展需要的一项重要基础设施,其设计的技术融合策略在实现公共厕所泛在感知、互通互联、协同构筑智慧城市等方面起到了关键作用。本文将以智慧公厕源头实力厂家广州中期科技有限公司,大量精品案例现场实景实图实例,从物…

数字兆欧表的量程选择技巧,你需要知道的秘密!

使用数字兆欧表的方法如下: 步骤一:准备工作 在开始操作之前,务必确保待测电气设备已经断电并进行了充分放电,以保证操作的安全性。此外,还需检查数字兆欧表的电量是否足够,外观是否完好,并确保…

元宇宙虚拟展厅——虚拟场景同现实世界的结合宣传

元宇宙作为具有前瞻性和先导性的未来产业,在政策布局、产业发展以及应用融合等方面也都实现了诸多探索。元宇宙虚拟展厅是虚拟场景同现实世界的结合,元宇宙与展厅的应用融合打破了传统展厅、传统宣传对时间和空间的限制,以往我们印刷过数不胜…

Wagtail-基于Python Django的内容管理系统CMS实现公网访问

目录 ⛳️推荐 前言 1. 安装并运行Wagtail 1.1 创建并激活虚拟环境 2. 安装cpolar内网穿透工具 3. 实现Wagtail公网访问 4. 固定Wagtail公网地址 ⛳️推荐 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给…

MySQL 8 索引原理详细分析

千山万水总是情, 问问索引行不行? 轻舟已过万重山, 有种尽管来发难。 索引是在数据库优化时的重要手段之一,今天 V 哥从索引的角度展开讲一讲索引的各个要点,希望可以通过这篇文章,帮助大家彻底搞透索引的关键点。 1.索引的定义与作用2.索引的类型3.索引原理4.二分查…

Redis 不再“开源”:中国面临的挑战与策略应对

Redis 不再“开源”,使用双许可证 3 月 20 号,Redis 的 CEO Rowan Trollope 在官网上宣布了《Redis 采用双源许可证》的消息。他表示,今后 Redis 的所有新版本都将使用开源代码可用的许可证,不再使用 BSD 协议,而是采用…

CBO VS ABO,哪种策略才更能优化FB广告?

海外创业时,FB广告无疑是吸引目标受众、推动业务增长的重要渠道之一!然而令大家头疼的却是在CBO与ABO的选择上,今天就带大家一起解读这两种常见的广告策略。了解两者之间的区别、优缺点及适用场景。 CBO 和 ABO 分别是什么? CBO&a…

从数据治理到数据资产管理,释放新质生产力

在当前的数字化浪潮中,数据作为第五大生产要素,正日益成为企业激活新质生产力的关键引擎。数据治理和数据资产管理作为数据管理的重要环节,对企业提升竞争力、实现数字化转型具有重大意义。本文将对数据治理和数据资产管理进行深入探讨&#…

vue3封装Element动态表单组件

1. 封装组件DymanicForm.vue 使用component实现动态组件组件不能直接使用字符串传入,所以根据传入的组件名称找到对应的组件校验规则,可使用rule传入自定义规则,也可以使用封装好的基本规则 示例中使用了checkRequired暴露重置方法和校验方法…

python_1

要求: 代码: # 先将分钟数转化成年数,再将余数做为天数 minute float(input("请输入分钟数:")) year_1 (minute / 60 / 24) // 365 day_1 (minute / 60 / 24) % 365 now f"{minute}分钟{year_1}年{day_1}天&q…

Cocos2dx-lua ScrollView[三]高级篇

一.概述 本文缩写说明:sv = ScrollView, cell代表ScrollView的一个子节点 本文介绍sv的一种封装类库,来实现快速创建sv,有如下几个优点: 1.item的位置通过参数控制,提高开发效率 2.免去了调用sv的API,提高开发效率 3.分帧创建,提高性能 4.可通过参数控制,复用ite…

Nginx超详细讲解+实操

前言 nginx作为当今火爆的、高性能的http及反向代理服务,不管前端还是后端,都需要全面去了解,学习,实操。 nginx 介绍 为了有一个全面的认知,接下来我们先来看看nginx的架构以及一些特点。 nginx 特点 处理响应请…

QT(C++)-error LNK2038: 检测到“_ITERATOR_DEBUG_LEVEL”的不匹配项: 值“2”不匹配值“0”

1、项目场景: 在VS中采用QT(C)调试时,出现error LNK2038: 检测到“_ITERATOR_DEBUG_LEVEL”的不匹配项: 值“2”不匹配值“0”错误 2、解决方案: 在“解决方案资源管理器”中选中出现此类BUG的项目,右键-…

静态路由表学习实验

实验要求:各个pc设备可以通信,并且可以访问外网,假设R1已连接外网 拓扑结构 思路:配置pc机ip地址,子网掩码,和网关(网关地址是上层路由接口的地址),配置路由各个接口地址…

什么是LLM Agent?

引言: LLM Agent 已经成为大语言模型中最有价值的探索方向,也更趋于最前沿的通用人工智能。构建企业自己的 LLM Agent 有助于企业在最前沿的人工智能领域探索具有完全自主性的智能化能力,包括基于企业知识库、企业工具 API(如&am…

element-plus中的日期时间选择器el-date-picker;日期选择面板中选定起始与结束的日期只能改具体的时刻,日期默认是一个月没法动态修改问题

目前遇到一个问题,在使用element-plus中的日期时间选择器el-date-picker,type为datetimerange时,展示的日期选择面板有两个输入框,开始时间和结束时间,element-plus只提供了default-time 使用datetimerange进行范围选择…