网站二维码悬浮驻马店网站建设zmdsem

web/2025/10/4 0:09:36/文章来源:
网站二维码悬浮,驻马店网站建设zmdsem,图片主题wordpress,骆驼网站建设统计中文词频是Python考试中常见的操作#xff0c;由于考察内容较多#xff0c;因此比较麻烦#xff0c;那么有没有好的方法来实现呢#xff1f;今天#xff0c;我们总结了四种常见的中文词频统计方法#xff0c;并列出代码#xff0c;供大家学习参考。 中文词频统计主…统计中文词频是Python考试中常见的操作由于考察内容较多因此比较麻烦那么有没有好的方法来实现呢今天我们总结了四种常见的中文词频统计方法并列出代码供大家学习参考。 中文词频统计主要是通过open()打开文本然后read()方法读取后采用结巴分词(jieba)模块进行分词接着用推表推导式、Counter或者是字典的方法来统计词频也可以采用NLTK的方法最后格式化打印出来。 题目统计中文文本文件【词频统计文本.txt】中长度大于1的词的词频然后打印出词频数最高的10个词。 默认系统里已经安装好了jieba这个模块。如果还没有安装可以在cmd下通过pip install jieba来安装这个模块。 一、字典法——常用的方法 先读取文本然后jieba分词再对分词后的列表进行遍历然后用字典统计词频。这里排除了单个词代码如下 import jieba txt open(词频统计文本.txt, r).read() words jieba.lcut(txt) counts {} for word in words:if len(word) 1: #排除单个字符的分词结果continueelse:counts[word] counts.get(word,0) 1 items list(counts.items()) items.sort(keylambda x:x[1], reverseTrue) for i in range(10):word, count items[i]print({0:10}{1:5}.format(word,count)) print (已统计数量排前10的词) 二、Counter法——代码简单速度快 先生成Counter对象再排序最后再打印出来。这里我们使用了most_common的方法代码更为简洁更好理解一点。代码如下 import jieba from collections import Counter with open(词频统计文本.txt, r,encodingutf-8) as f:words jieba.lcut(f.read())words [item for item in words if len(item)1] counts Counter(words) for word,count in counts.most_common(10):print(word,count) print (已统计数量排前10的词) 三、NLTK方法——有点儿小麻烦 利用列表推导式筛选列表利用NLTK中的FreqDist来统计列表中的词步代码如下。 import jieba,os from nltk.probability import FreqDist with open(词频统计文本.txt,r,encodingutf-8) as f:text f.read() words jieba.lcut(text) lst [i for i in words if len(i)1] freq FreqDist(lst) for item in freq.most_common(10):word,countitemprint(f{word:10}\t{count:5}) print (已统计数量排前10的词) 使用这种方法得安装nltk包较为麻烦。 四、列表推导式法 如果不借助其它包我们可以充分利用Python自带的count方法和列表推导式实现词频的统计。这其中与前面排序的方法不同的是我们采用了sorted的方法完整代码如下 import jieba,os with open(词频统计文本.txt,r,encodingutf-8) as f:text f.read() words jieba.lcut(text) lst [(key,words.count(key)) for key in set(words) if len(key)1] items sorted(lst,keylambda x:x[1],reverseTrue) for i in range(10):word, count items[i]if len(word) 1: #排除单个字符的分词结果continueelse:print(f{word:10}\t{count:5}) print (已统计数量排前10的词) 五、学后反思 1. 中文词频统计主要考察文本的读取、列表的遍历、jieba分词、词频统计、排序、结果的格式化和打印输出等综合能力。因此它是Python二级中常考的题目认真学习并找出多种词频统计的方法可以更好地理解Python中的相关概念和基础语法知识。 2. 四种方法中最麻烦的是NLTK法和列表推导式化字典法和Counter方法最为常用字典法常出现在考试中而Counter的方法实用性更强大家可以有选择地使用。 3. 有了词频表后续可以进行可视化的图表生成包括词云图和线形图等以便更直观地观察语篇中词的特点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/86492.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

建设网站服务器选择百度认证平台

目录 一、数据库建表(tb_user)以及添加数据。 (1)数据库与数据表说明。 (2)字段与数据说明。 二、创建模块(或工程)、导入对应所需依赖坐标。 三、编写MyBatis核心主配置文件。(解决JDBC中"硬编码"问题) (1&…

网站个人备案类型开发商延期交房怎么申请退房

用户表格及筛选表单配置 - PC通用管理模块(1) 多八多AiIDE - 用户管理页面配置教程 第一课:基础查询配置 目标 配置基础的PC端通用管理模块。添加前端自定义组件以显示管理页面。配置列表表格字段。配置筛选表单。 步骤 1. 注册和新建应用 访问多八多AiIDE平台…

百度不收录的网站做网站策划书

本页文章导读:▪php pchart乱码 有俩种情况:①:未将中文字符编码格式修改成utf-8 (例子如下:)mb_convert_encoding($data, "html-entities","utf-8" ); ②:字体库出现问题 (请使用simhei.ttf字体 此字体…

沈阳定制网站制作做网站有没有受骗过

前些天Hive查询的接口一直超时报警,登录上去查看发现这个超时报警的曲线很有规律,每个小时开始就出现,过了大约3分钟左右就好了.在这个期间里,也发现hive根本就执行不了,完全hang住了,机器负载,…

qq空间刷赞网站推广南京个人网站建设模板

为啥不直接用Cascader 级联选择组件呢?主要是因为作为老项目,已经引入了antd-mobile2.3.4,同时引入v5版本会有兼容性问题。 原始数据格式: 首先需要将后端返回的数据转为前端定义的格式,方便使用: [{&qu…

网站建设推广 seo从珠海回来都变黄码了

节点设置密码 1、修改配置文件 在配置文件里面增加密码选项,一定要加上masterauth,不然Redirected的时候会失败。 masterauth redispassword requirepass redispassword 修改后需要重启redis节点。 2、动态修改 连接redis节点进行配置设置,然…

峰峰网站建设凡科可以建设多个网站吗

https://www.cnblogs.com/cheneyboon/p/11454547.html

移动深圳网站前端个人介绍网站模板下载

由于 HDR 图像的动态范围超出了标准计算机显示器的显示范围。在 Photoshop 中打开 HDR 图像时,图像可能会非常暗或出现褪色现象。 Photoshop 提供了专门的预览调整功能,以使标准显示器显示的 HDR 图像的高光和阴影不会太暗或出现褪色现象。 预览调整设置…

潍坊网站建设工作网站域名查企业邮箱

很多同学需要源文档,所以添加了下载链接,方便大家共同学习进步~ 本文下载链接:http://files.cnblogs.com/yingying0907/Gabor%E7%AC%94%E8%AE%B0.zip Gabor变换是D.Gabor 1946年提出的。为了由信号的Fourier变换提取局部信息,引入…

上海市普陀区建设规划局网站wordpress侧边栏制作

目录 1、安装好Vscode 2、下载安装.NetCore SDK 3、配置C#环境 3.1 打开Vscode并下载扩展 3.2 Vscode中打开文件夹并配置环境 3.3 调试运行 1、安装好Vscode 2、下载安装.NetCore SDK 官网如下,下载完成后双击打开一路走到底就行.NetCore SDK官网 软件显示安…

制作网站图文教程营销策略怎么写

自学python如何成为大佬(目录):https://blog.csdn.net/weixin_67859959/article/details/139049996?spm1001.2014.3001.5501 使用字典推导式可以快速生成一个字典,它的表现形式和列表推导式类似。例如,我们可以使用下面的代码生成一个包含4个随机数的字…

江西个人网站备案网站建设基础百度百科

工业交换机是现代工业网络中不可或缺的重要组成部分,它扮演着连接和管理各种网络设备的关键角色。工业交换机的优点不言而喻,首先是其稳定可靠的性能,能够支撑工业环境下的高负荷工作。无论是在恶劣的温度、湿度或电磁干扰的环境下&#xff0…

网站建设好后能直接打开吗上海仓储公司

文章目录 渗透测试漏洞原理任意文件读取1. 任意文件读取概述1.1 漏洞成因1.2 漏洞危害1.3 漏洞分类1.4 任意文件读取1.4.1 文件读取1.4.2 任意文件读取1.4.3 权限问题 1.5 任意文件下载1.5.1 一般情况1.5.2 PHP实现1.5.3 任意文件下载 2. 任意文件读取攻防2.1 路径过滤2.1.1 过…

汉中网站建设电话海外cdn

日期函数主要介绍两个大类,Extract() 和 Trunc() Extract() 函数作用是提取日期,比如我们可以提取一个日期字段的年份,月份,日等数据 Trunc() 的作用则是截取,比如 2022-06-18 12:12:12,我们可以根据需求…

建设银行网站号设计师网上接单的网站

在单线程程序中,每次只做一件事情,后面的事情需要等待前面这件事情完成才可以进行 如果是多线程程序,这件事情还没做完就又做另外一件事情,这就可能发生两个线程抢占资源的问题 例如:a与b两个人都要去洗手间&#xf…

怎么买网站空间群晖wordpress内外网访问

🎬 秋野酱:《个人主页》 🔥 个人专栏:《Java专栏》《Python专栏》 ⛺️心若有所向往,何惧道阻且长 文章目录 程序结构GPIO操作UART操作接收逻辑发送 以下模板代码均基于官方2023.07.17版本。 程序结构 #include "Config.h" #inc…

网站建设方案书一定要有吗it外包人员最后什么下场

kotlin.collections.Maps.kt 文件定义了许多针对 Map 接口的工具函数,其中大多数是涉及函数式编程的高阶函数,我们在这里先不讲,等到集合框架结束后进入高阶函数时再讲。今天只讲几个简单的函数。Pair 类和 to() 函数Map 接口表示一种“键 -&…

高端网站开发哪家专业wordpress 2个主题

我最近发表了一篇有关如何将非事务性资源(如Web服务/微服务)绑定到全局分布式事务中的文章,以便自动处理恢复。 多年来,我经常不得不将“非事务性”系统集成到Java EE应用程序服务器中,而数据一致性通常是讨论的话题&a…

企业营销型网站建设品牌出口外贸交易平台

本文作者陈计节,ThoughtWorks 高级咨询师。多年的跨平台 .NET 开发者,全栈工程师,技术布道师。擅长互联网应用程序的设计、开发和运维等工作。 近年来,微软坚持为社区提供更多灵活性,并以更开放的思路重构其已有平台&a…

网站建设的前景网站建设包括哪方面

近来,“元宇宙”成为热门话题,越来越频繁地出现在人们的视野里。大家都在谈论它,但似 乎还没有一个被所有人认同的定义。元宇宙究竟是什么?未来它会对我们的工作和生活带来什么样 的改变?当谈论虚拟现实(VR…