【python】python新闻内容zhua取分析词云可视化(源码)【独一无二】

请添加图片描述


👉博__主👈:米码收割机
👉技__能👈:C++/Python语言
👉公众号👈:测试开发自动化【获取源码+商业合作】
👉荣__誉👈:阿里云博客专家博主、51CTO技术博主
👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。


【python】python新闻内容获取分析词云可视化(源码)【独一无二】


目录

  • 【python】python新闻内容获取分析词云可视化(源码)【独一无二】
  • 一、设计要求
  • 二、功能展示
    • 2.1. zhua取内容
    • 2.2. 词频统计
    • 2.3. 词云展示
  • 三、代码分析


一、设计要求

通过对搜狐新闻网页的内容进行获取和处理,提取其中的中文文本信息。然后利用正则表达式去除非中文字符,使用jieba库进行中文分词,并过滤停用词。接着统计各词语的词频并按照词频降序排序,最后输出词频最高的前50个词汇。同时,根据词频生成词云图,展示文本数据的可视化结果。

网站的内容如下:

在这里插入图片描述

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻分析 ” 获取。👈👈👈

主要功能实现如下:

  1. 使用 requests 库发送请求并获取指定网页的内容。
  2. 使用 BeautifulSoup 库解析网页内容,提取文本信息。
  3. 使用正则表达式去除非中文字符,只保留中文文本内容。
  4. 使用 jieba 进行中文分词。
  5. 过滤停用词(如’的’、‘和’、'是’等),并对分词结果进行处理。
  6. 统计分词后各词语的词频,显示柱状图。
  7. 对词频进行降序排序,并输出词频最高的前50个词。
  8. 指定中文字体文件路径,生成词云图。
  9. 显示生成的词云图。

二、功能展示

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻分析 ” 获取。👈👈👈

2.1. zhua取内容

在这里插入图片描述

2.2. 词频统计

工作: 10
报告: 10
发展: 10
政府: 8
生态环境: 5
一年: 5
江苏: 4
全文: 3
十三届: 3
全国人大: 3
五次: 3
会议: 3
新华社: 3
经济社会: 3
任务: 3
主要: 3
目标: 3
增长: 3
改善: 3
实施: 3
江苏省: 3
来源: 2
李克强: 2
总理: 2
代表: 2
国务院: 2
回顾: 2
二年: 2
总体: 2
要求: 2
政策: 2
取向: 2
三年: 2
指出: 2
统筹: 2
全年: 2
十四五: 2
今年: 2
左右: 2
城镇: 2
新增: 2
就业: 2
以上: 2
控制: 2
经济: 2
基本: 2
保持: 2
持续: 2
着力: 2
创新: 2

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻分析 ” 获取。👈👈👈

使用柱状图展示词频前10名的字段。柱状图如下:

在这里插入图片描述

2.3. 词云展示

在这里插入图片描述


三、代码分析

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻分析 ” 获取。👈👈👈

  1. 导入所需的库:

    import requests
    from bs4 import BeautifulSoup
    import jieba
    import matplotlib.pyplot as plt
    import re
    

    代码导入了执行任务所需的库:

    • requests:用于向网页发送HTTP请求。
    • BeautifulSoup:从bs4库,用于解析HTML和XML文档。
    • jieba:一个中文分词库,用于处理中文文本。
    • matplotlib.pyplot:用于数据可视化。
    • re:正则表达式库,用于文本处理。
  2. 获取网页内容:

    url = "源码获取 关注【测试开发自动化】公众号,回复 “ 新闻分析 ” 获取。"
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')
    

    requests库获取指定URL的内容,然后使用BeautifulSoup解析HTML文档。

  3. 提取和处理文本内容:

    text_content = soup.get_text()
    text_content = re.sub(r"源码获取 关注【测试开发自动化】公众号,回复 “ 新闻分析 ” 获取。", "", text_content)
    

    soup.get_text()从HTML中提取所有文本。接着用正则表达式删除非中文字符。

    👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻抓取分析 ” 获取。👈👈👈

  4. 分词和过滤停用词:

    words = jieba.cut(text_content)
    stop_words = set(['的', '和', '是', '在', '了', '等'])
    

    使用jieba.cut进行分词,然后过滤掉一些常见的停用词和单字词。

  5. 词频统计:

    word_freq = {}
    for word in filtered_words:if word in word_freq:word_freq[word] += 1else:word_freq[word] = 1
    

    对分词后的词进行频率统计,记录每个词出现的次数。

    👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻抓取分析 ” 获取。👈👈👈

  6. 选取前50个高频词汇:

    源码获取 关注【测试开发自动化】公众号,回复 “ 新闻分析 ” 获取。
    

    将词频字典按频率降序排序,并选取前50个高频词。

  7. 绘制柱状图:

    words, freqs = zip(*sorted_word_freq)
    plt.figure(figsize=(10, 6))
    plt.bar(words, freqs)
    plt.xlabel('词语')
    plt.ylabel('词频')
    plt.xticks(rotation=45)
    plt.title('Top 10 Words Frequency Bar Chart')
    plt.show()
    

    使用matplotlib绘制柱状图,展示这十个词及其频率。

  8. 绘制词云图:

    👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻分析 ” 获取。👈👈👈

    
    # 显示词云图
    plt.figure(figsize=(10, 5))
    plt.imshow(wordcloud, interpolation='bilinear')
    plt.axis('off')
    plt.show()
    

总体来说,这段代码通过抓取网页内容,提取中文文本,进行分词和词频统计,最后以柱状图的形式展现出最常见的10个词汇。这是一个结合了网络爬虫、自然语言处理和数据可视化的实用脚本。

👉👉👉 源码获取 关注【测试开发自动化】公众号,回复 “ 新闻分析 ” 获取。👈👈👈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/791966.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

echarts实现炫酷科技感的流光效果

前言: echarts实现炫酷科技感的流光效果 效果图: 实现步骤: 1、引入echarts,直接安装或者cdn引入 npm i echarts https://cdn.jsdelivr.net/npm/echarts5.4.3/dist/echarts.min.js 2、封装 option方法,第一个数据是折线数据&a…

C# 有一条垂直线,怎么判断一点坐标点是在左侧还是右侧,以及该坐标与垂直线的交点?

在C#中,要判断一个点相对于垂直线的位置(左侧还是右侧),以及计算该点与垂直线的交点,你需要先定义垂直线的位置和属性。垂直线通常可以用它的一个点(比如线段的起点或终点)和它的方向&#xff0…

【经典算法】LeetCode350:两个数组的交集 II(Java/C/Python3/JavaScript实现含注释说明,Easy)

#算法 标签:哈希表、数组 目录 题目思路及实现方式一:哈希表思路代码实现Java版本C语言版本Python3版本JavaScript版本 复杂度分析 方式二:排序 双指针思路代码实现Java版本C语言版本Python3版本JavaScript版本 复杂度分析 总结相似题目 题…

在线生成占位图片工具:简便快捷的设计利器

title: 在线生成占位图片工具:简便快捷的设计利器 date: 2024/4/4 17:36:41 updated: 2024/4/4 17:36:41 tags: 占位图片网页设计开发工具图片生成页面布局效率提升预览调整 在网页开发或设计过程中,经常会遇到需要临时使用占位图片的情况。占位图片是指…

C# 委托与事件 浅尝

委托事件此外最后 委托与事件可以用异世界冒险来类比 using System;namespace LHJ {class Publisher {//编写事件,发布委托public delegate int PublisherDelegate(int i);//委托public event PublisherDelegate WhenClick;//委托针对的事件public int happened() {…

Linux------一篇博客了解Linux最常用的指令

🎈个人主页:靓仔很忙i 💻B 站主页:👉B站👈 🎉欢迎 👍点赞✍评论⭐收藏 🤗收录专栏:Linux 🤝希望本文对您有所裨益,如有不足之处&#…

MySQL CASE 语句

CASE声明 CASE case_valueWHEN when_value THEN statement_list[WHEN when_value THEN statement_list] ...[ELSE statement_list] END CASE 或者 CASEWHEN search_condition THEN statement_list[WHEN search_condition THEN statement_list] ...[ELSE statement_list] END…

语音芯片 SOP8、SOP16、SOP24脚在性能上有哪些不同呢?

随着语音识别技术的不断发展,人们对语音芯片的需求也越来越高。 其中,SOP8、SOP16和SOP24脚语音芯片是目前市面上应用比较广泛的芯片类型。这些芯片在性能上有什么区别?下面我们来具体分析一下。 首先,SOP8、SOP16、SOP24脚语音芯…

SpringBoot根据配置类动态加载不同环境下的自定义配置

dev环境配置 Profile({"dev","test"}) PropertySource("classpath:dev.properties") public class DevConfigLoader { }Profile("prod") PropertySource("classpath:prod.properties") public class ProdConfigLoader { }P…

IP-guard WebServer 任意文件读取漏洞复现

0x01 产品简介 IP-guard是由溢信科技股份有限公司开发的一款终端安全管理软件,旨在帮助企业保护终端设备安全、数据安全、管理网络使用和简化IT系统管理。 0x02 漏洞概述 由于IP-guard WebServer /ipg/static/appr/lib/flexpaper/php/view.php接口处未对用户输入的数据进行严…

java Web 健身管理系统idea开发mysql数据库LayUI框架java编程计算机网页源码maven项目

一、源码特点 java Web健身管理系统是一套完善的信息管理系统,结合java 开发技术和bootstrap完成本系统,对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。 前段主要技术 layUI bootst…

显示器and拓展坞PD底层协商

简介: PD显示器或者PD拓展坞方案中,连接显示设备的Type-C端口主要运行在DRP模式,在此模式下可以兼容Source(显卡)、Sink(信号器)、DRP(手机、电脑)模式的显示设备。 Sou…

在Linux系统上搭建Android、Linux和Chrome性能监控和Trace分析的系统

perfetto是知名的Android系统性能分析平台。我们还可以用它去分析Linux系统和Chrome(需要装扩展)。本文我们只介绍如何安装的验证。 部署 我们使用Docker部署perfetto ui系统。 FROM ubuntu:20.04 WORKDIR /perfetto-ui RUN apt-get update -y RUN ap…

C++初学者:优雅创建第一个窗口

我想学习C做一些实用的程序,但是我不想在软件界面上花太多的时间,可是每每就是界面影响我的思绪。 今天学习C类的包装知识,终于整出了一个我的界面类,虽然封装水平很弱, 这次就用这个类,写了自己工作上常用…

JavaEE初阶-线程3

文章目录 一、线程安全问题-内存可见性二、等待通知2.1 wait()方法2.2 notify()方法 一、线程安全问题-内存可见性 import java.util.Scanner;public class Demo27 {private static int count0;//下面这段代码会出现内存的可见性问题//将从内存中读取count值的操作称为load 判…

数学思想论(有目录)

数学思想是数学发展过程中的重要指导原则,它涉及对数学概念、方法和理论的理解和认识,以及如何利用这些工具来解决实际问题。数学思想的形成和演进是随着数学的发展而逐渐深化的,它体现了人类对数学本质和应用的不断探索和思考。 一些主要的数学思想包括: 函数与方程思想…

如何(关闭)断开 Websocket 连接:简单易懂的实现指南

WebSocket 协议提供了一条用于 Web 应用程序中双向通讯的高效通道,让服务器能够实时地向客户端发送信息,而无需客户端每次都发起请求。本文旨在探讨有关结束 WebSocket 连接的适当时机,内容包括协议的基础知识、如何结束连接、一些使用场景&a…

AI技术助推汽车行业走向更光明的未来

我们在汽车上度过的时间很多,有时候由于交通、天气和其他路况问题,我们在汽车上度过的时间之久甚至会出乎意料。正因如此,保障旅途体验的舒适和安全就显得至关重要。交通事故每天都会发生,因此在车辆中采取额外的安全措施对于所有…

美创科技获浙江省网络空间安全协会多项荣誉认可

4月2日,浙江省网络空间安全协会第二届会员大会第一次会议在杭州隆重召开,近180家会员单位代表、数十位特邀专家、嘉宾莅临现场。浙江省委网信办副主任马晓军出席会议并致辞,本次大会由协会秘书长吴铤主持。 凝心聚力,继往开来&…

Redis中的复制功能(五)

心跳检测 概述 在命令传播阶段&#xff0c;从服务器默认会以每秒一次的频率&#xff0c;向主服务器发送命令: REPLCONF ACK < replication_offset >其中replication_offset是从服务器当前的复制偏移量。 发送REPLCONF ACK命令对于主从服务器有三个作用: 1.检测主从服…