网站报价内容郑州网站建设 华数

news/2025/9/26 23:24:57/文章来源:
网站报价内容,郑州网站建设 华数,重庆seo网络营销,广东网站制作报价目录 词云简介 准备工作 安装方法一#xff1a; 安装方法二#xff1a; 生成词云步骤 数据预处理#xff1a; 分词#xff1a; 统计词频出现的次数#xff1a; 去除词语#xff1a; 生成词云#xff1a; 显示词云#xff1a; 保存词云#xff1a; 完整代码 词…目录 词云简介 准备工作 安装方法一 安装方法二 生成词云步骤 数据预处理 分词 统计词频出现的次数 去除词语 生成词云 显示词云 保存词云 完整代码 词云简介 “词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登Rich Gordon于提出词云是一种可视化描绘单词或词语出现在文本数据中频率的方式它主要是由随机分布在词云图的单词或词语构成出现频率较高的单词或词语则会以较大的形式呈现出来而频率越低的单词或词语则会以较小的形式呈现。词云主要提供了一种观察社交媒体网站上的热门话题或搜索关键字的一种方式它可以对网络文本中出现频率较高的“关键词”予以视觉上的突出形成“关键词云层”或“关键词渲染”从而过滤掉大量的文本信息使浏览网页者只要一眼扫过文本就可以领略文本的主旨。 准备工作 我们需要安装一些基本的库因为wordcloud库jieba库不是python的内置库 wordcloudjieba 安装方法一 windowsR打开cmd,在命令行输入 pip install wordcloud 等待安装完成即可。同样的方法安装jieba库  安装方法二 直接再pycharm软件中安装 打开pycharm,找到pythong软件包在搜索框中搜索要下载的库点击安装即可。 如果第一次安装失败的话直接再次尝试安装,基本上第二次是可以成功的。 生成词云步骤 准备好文本数据词云背景模板数据预处理对文本数据处理如去除标点符号停用词数字等以便更好的生成词云图分词文本数据处理好后使用分词工具进行分词也就是将词分成一个个词语统计词频也就是统计每个词语出现的次数去除不想要的词语生成词云图使用wordcloud库的函数生成词云图设置一些背景颜色字体词云形状显示词云图保存词云图 数据预处理 file open(rtest.txt, moder,encodingutf-8) txt1 file.read()txt2 re.sub(r[^\u4e00-\u9fa5],,txt1)这里file是打开文件的操作如果直接print(file),结果显示的也只是一个操作不会显示文本内容要想真正的把文本里面的内容读取出来就需要file.read()的方法txt1中存放的就是原始文本但是只是原始文本并不行使用re库中的re.sub将文本中的标点进行匹配替换成空白优化好的文本我们放到txt2中 这里re.sub()函数可以看re.sub()用法的详细介绍_jackandsnow的博客-CSDN博客_re sub 分词 我们平常看到的词云 如果整个文本直接生成词云肯定是不行的接下来我们就需要对文本进行分词操作 txt3 jieba.cut(txt2) # 可迭代对象#for i in txt3: # print(i) 这里我们就用到了准备工作中的jieba库 jieba.cut(s) 精确模式把文本精确的切分开不存在冗余单词 这样txt3中的保存的就是一个个的词语 统计词频出现的次数 txt4 {} for i in txt3:if i not in txt4:txt4[i]1else:txt4[i]1txt5 sorted(txt4.items(),keylambda x :x[1],reverseTrue)txt6{} for word,count in txt5:txt6[word]count 这里我们把结果存放到字典里面因为{key:value},可以存放值和出现次数 存放好后我们进行排序 sorted函数是默认升序排序当需要降序排序时需要使用reverse Ture这里的items是将txt4字典转换为一个列表 我们排好序后还需要将这个列表转换为一个字典 去除词语 统计并排好词后我们打印一下 如果里面有不想出现的词语可以把它删去 list1{的,和,我,我们,会,可以,是,我会,例如} #去除不想要的词语 for i in list1:del txt6[i] 生成词云 img Image.open(R-C.jpg)//我们想要的词云模板导入img_array np.array(img)wordcloud WordCloud(maskimg_array, # 设置词云模板background_colorwhite, #背景颜色font_pathsimsun.ttc, #字体路径max_words500, #最大显示的单词数max_font_size100, #单词最大字号width 500, #宽度height 500, #高度 ).generate_from_frequencies(txt6) 显示词云 plt.Figure(figsize(8,8)) #画布大小 plt.imshow(wordcloud,interpolationbilinear) plt.axis(off) #关闭坐标轴 plt.show() 保存词云 wordcloud.to_file(词云图片.jpg) # 保存图片 完整代码 import re import matplotlib.pyplot as plt from wordcloud import WordCloud import jieba import numpy as np from PIL import Imagefile open(rtest.txt, moder,encodingutf-8) txt1 file.read() # print(txt1) #原始文本 txt2 re.sub(r[^\u4e00-\u9fa5],,txt1) # print(txt2) #进化后的文本txt3 jieba.cut(txt2) # 可迭代对象 # for i in txt3: # print(i)txt4 {} for i in txt3:if i not in txt4:txt4[i]1else:txt4[i]1 txt5 sorted(txt4.items(),keylambda x :x[1],reverseTrue) # print(txt5)txt6{} for word,count in txt5:txt6[word]count print(txt6)list1{的,和,我,我们,会,可以,是,我会,例如} #去除不想要的词语 for i in list1:del txt6[i] # print(txt6)img Image.open(R-C.jpg)img_array np.array(img)wordcloud WordCloud(maskimg_array, # 设置词云模板background_colorwhite, #背景颜色font_pathsimsun.ttc, #字体路径max_words500, #最大显示的单词数max_font_size100, #单词最大字号width 500, #宽度height 500, #高度 ).generate_from_frequencies(txt6) plt.Figure(figsize(8,8)) #画布大小 plt.imshow(wordcloud,interpolationbilinear) plt.axis(off) #关闭坐标轴 plt.show() wordcloud.to_file(词云图片.jpg) # 保存图片 完结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/918891.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

dedecms 营销网站模板傻瓜式建站平台

正常的 RGB 颜色的有效范围,是从 0 到 16,777,215 (&HFFFFFF&)。每种颜色的设置值(属性或参数)都是一个四字节的整数。对于这个范围内的数,其高字节都是 0,而低三个字节,从最低字节到第三个字节&am…

US$638 VVDI2 BMW and OBD Functions Authorization Service

VVDI2 BMW and OBD Functions Authorization ServiceIf you just buy SV86-B, you want to get the functions for BMW and OBD, you can buy this service.Note: VVDI2 now add BMW FEM & BDC functions, VVDI2 M…

用DW做的网站怎么弄成链接学校的网站的代码模板

简介 提升工程是什么 提示工程(Prompt Engineering)是人工智能领域中的一个概念,特别是在自然语言处理(NLP)领域中。它是一种通过设计和优化输入提示来提高AI模型表现的方法。 对于基于转换器的大型语言模型&#x…

Powershell 入门

Powershell 入门的简单了解bb赖赖time (可以忽略这部分,完全是本人自作多情罢了): 好久不见各位安全道友们,消失了半年时间了,这半年里其实大部分时间都在摆烂 去毕业旅行、躺平、打游戏等等,弥补一下大学时光没…

进地铁建设公司网站网站改版具体建议

归并排序 前言一、归并排序递归实现(1)归并排序的核心思路(2)归并排序实现的核心步骤(3)归并排序码源详解(4)归并排序效率分析1)时间复杂度 O(N*logN&#xf…

漏洞赏金猎手的新年目标实战指南

本文为漏洞赏金猎人提供实用的新年目标设定框架,涵盖优先级目标选择、可量化指标制定、时间管理策略及常见误区规避。重点强调从理论学习转向实战应用,通过具体行动方案帮助猎手有效提升漏洞挖掘效率与成果转化。漏洞…

做网站容易还是做小程序容易wordpress 中文链接

题意:一个whw\times hwh的二维平面上有nnn个城市,有mmm个弹跳装置,第iii个可以花费tit_iti​的时间从城市pip_ipi​跳到矩形x∈[l,r],y∈[u,d]x\in [l,r],y\in[u,d]x∈[l,r],y∈[u,d]中的任意一个城市。求从111到其他每个城市的最小时间。 w,…

US$100 Free Activation VVDI2 Copy 48 Transponder by OBDII Function Authorization Service

VVDI2 Copy 48 Transponder by OBDII Function Authorization ServiceTips: No need shipping, please pass serial number of your VVDI2. This function will be free for all customers since Jan 1st, 2020.VVDI2 …

python 0入门基础第一课 - Jun

python 0入门基础第一课# 打印hello world print("Hello World")# 单行注释"""多行注释 三个双引号"""# 变量 字符,数字,浮点,布尔name = hellage = 32money = 12.34sex =…

lc1037-有效的回旋镖

难度:简单(初期)题目描述给定平面内三个点,判断这三个点是否可以形成回旋镖示例 输入:points = [[1,1],[2,3],[3,2]] 输出:true输入:points = [[1,1],[2,2],[3,3]] 输出:false题解思路判断是否有点重合 判断任…

日常刷题:cf每日一题+abc+反思复盘

cf round723 BProblem 试图瞪眼法解决未果被数据63909轻松单防Submission 随后开始思考: \[1111 = 101 \cdot 11 \]\[11111 = 1000 \cdot 11+111 \]\[111111 = 10101 \cdot 11 \]如所示,所有的由全1组成的数字都可以…

题解:P13523 [KOI 2025 #2] 序列与查询

题目:长度相同的子段受 \(x\) 影响相同。哇好厉害的性质,可以直接把每个长度的最大子段和跑下来,询问 \(X\) 相当于找 \(val_{len}+lenX\) 最大的 \(len\),预处理 \(O(n^2+qn)\),查询优化? 考虑画到坐标轴上,把…

德州做名片的网站响应式app下载wordpress主题

我正在设计一个小的网络应用程序/游戏。 哪个更好:MySQL表或json文件? 它们都存储信息。 它们都可以由PHP解析。 优点/缺点是什么?这就是我的意思:username | password-------------------seefour | abc123与{"username"…

2025年9月26日 - 20243867孙堃2405

今天只有一节课,英语提高,丰富了我的词汇量

实用指南:(14)ASP.NET Core2.2 中的日志记录

实用指南:(14)ASP.NET Core2.2 中的日志记录pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", &…

HarmonyOS 5 网络编程与材料存储实战:从RESTful API到本地持久化

HarmonyOS 5 网络编程与材料存储实战:从RESTful API到本地持久化pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "…

老系统-新系统的数据迁移

目录一、核心同步策略设计二、常用ETL工具实现方案方案1:使用开源工具Apache NiFi(适合技术团队自主部署)方案2:使用商用工具DataPipeline(适合企业级自动化同步)方案3:轻量方案(Python+SQL脚本,适合简单场景…

pc 移动的网站开发定制家具设计软件app

爬虫分为两种:1.通用爬虫。2.聚焦爬虫。通用爬虫:搜索引擎用的爬虫系统。一.目标:爬取所有网站的网页下载下来,存放到本地服务器里形成备份。二.抓取流程:a.首选选取一部分已有的url,把这些url放到待爬取队列。b.从队列…

威海哪家网站做的好北京 网站设计公司

展开全部掌握以下几点步骤,即可轻松加墨。1、首先,从打印机上取下墨盒,32313133353236313431303231363533e4b893e5b19e31333365646234这里就不好做介绍了,取下墨盒的方法因机而异。将墨盒上的一层贴纸撕掉,并拿出所需材…