c 做的网站潍坊建设工程信息网站
c 做的网站,潍坊建设工程信息网站,竞价托管推广哪家好,网站建设伍金手指下拉2一、安装jieba库#xff1a;\pip install jieba #或者 pip3 install jieba二、jieba库解析jieba库主要提供提供分词功能#xff0c;可以辅助自定义分词词典。jieba库中包含的主要函数如下#xff1a;jieba.cut(s) …一、安装jieba库\pip install jieba #或者 pip3 install jieba二、jieba库解析jieba库主要提供提供分词功能可以辅助自定义分词词典。jieba库中包含的主要函数如下jieba.cut(s) 精确模式返回一个可迭代的数据类型jieba.cut(s,cut_allTrue) 全模式输出文本s中所有可能的单词jieba.cut_for_search(s) 搜索引擎模式适合搜索引擎建立索引的分词结果jieba.lcut(s) 精确模式返回一个列表类型建议使用jieba.lcut(s,cut_allTrue) 全模式返回一个列表类型建议使用jieba.lcut_for_search(s) 搜索引擎模式返回一个列表类型建议使用jieba.add_word(w) 向分词词典中增加新词w三、用jieba库统计文本的词频《流浪地球》是刘慈欣的一部作品。该书讲述了庞大的地球逃脱计划逃离太阳系前往新家园。从网上获取该书的文本文件保存于桌面上命名为“流浪地球。”现统计其文本中出现次数最多的是个词语源代码如下importjiebatxt open(C:\\Users\\Administrator\\Desktop\\流浪地球.txt, r, encodingutf-8).read()wordsjieba.lcut(txt)counts{}for word inwords:if len(word) 1: #排除单个字符的分词结果continueelse:counts[word] counts.get(word,0) 1itemslist(counts.items())items.sort(keylambda x:x[1], reverseTrue)for i in range(10):word, countitems[i]print ({0:10}{1:5}.format(word, count))运行程序后输出结果如下故容易得知流浪地球中出现频次较高的词语四、结合jieba库的词频统计制作词云图1、准备工作pip 安装 jieba wordcloud matplotlib2以阿Q正传为例源代码为from wordcloud importWordCloudimportmatplotlib.pyplot as pltimportjieba#生成词云defcreate_word_cloud(filename):text open({}.txt.format(filename)).read()#结巴分词wordlist jieba.cut(text, cut_allTrue)wl .join(wordlist)#设置词云wc WordCloud(#设置背景颜色background_colorwhite,#设置最大显示的词云数max_words2000,#这种字体都在电脑字体中一般路径font_pathC:\Windows\Fonts\simfang.ttf,height1200,width1600,#设置字体最大值max_font_size200,#设置有多少种随机生成状态即有多少种配色方案random_state100,)myword wc.generate(wl) #生成词云#展示词云图plt.imshow(myword)plt.axis(off)plt.show()wc.to_file(p.png) #把词云保存下if __name__ __main__:create_word_cloud(C:\\Users\\Administrator\\Desktop\\阿Q正传)运行程序后输出结果如下故可得出文本的云词图。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/87864.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!