企业网站设计行业网页设计代码html分行

diannao/2026/1/24 13:13:55/文章来源:
企业网站设计行业,网页设计代码html分行,杭州企业网站开发,展览网站模板Task01里边对赛题进行了分析,接下来进行数据读取与数据分析#xff0c;通过使用Pandas库完成数据读取和分析操作。 1 数据读取 由赛题数据格式可知#xff0c;可通过read_csv读取train_set.csv数据#xff1a; import pandas as pd import numpy as np import matplotlib…  Task01里边对赛题进行了分析,接下来进行数据读取与数据分析通过使用Pandas库完成数据读取和分析操作。 1 数据读取 由赛题数据格式可知可通过read_csv读取train_set.csv数据 import pandas as pd import numpy as np import matplotlib.pyplot as plt#读取全量数据 train_df pd.read_csv(./data/data45216/train_set.csv,sep\t) train_df.shape#读取部分数据 train_df pd.read_csv(./data/data45216/train_set.csv,sep\tnrows100) train_df.shape 参数sep每列的分隔符,用‘\t’分割nrows100读取100条数据 Pandas还可以读取sqlexceltable,html,json等格式数据。 2 数据分析 2.1 计算新闻文本的长度 赛题数据中每行句子的字符使用空格进行分隔可通过直接统计单词的个数得到每个句子的长度。 train_df[text_len] train_df[text].apply(lambda x:len(x.split( ))) print(train_df[text_len].describe()) 由输出结果可知句子的长度均值在907最短的长度是2最大的长度是57921 查看句子长度的直方图 _ plt.hist(train_df[text_len],bins50) plt.xlabel(Text char count) plt.title(Histogram of char count) 输出结果 2.2 查看赛题数据的类别分布 通过绘制直方图来查看每个新闻类别的分布。 train_df[label].value_counts().plot(kindbar) plt.title(News class count) plt.xlabel(category) 由输出结果可知大部分的新闻分布是0,1,2最少的是13新闻的类别标识为{‘科技’0‘股票’1‘体育’2‘娱乐’3‘时政’4‘社会’5‘教育’6‘财经’7‘家居’8‘游戏’9‘房产’10‘时尚’11‘彩票’12‘星座’13}。 2.3 字符分布 统计每个字符出现的次数将句子进行拼接进而划分为字符并统计每个字符的个数。通过统计知道3750,900,648的出现频率较高可推测为标点符号。 from collections import Counter#将文本变为一个list all_lines .join(list(train_df[text])) print(len(all_lines)) #对每个词统计个数 word_count Counter(all_lines.split( )) #进行排序 word_count sorted(word_count.items(),keylambda d:d[1], reverse True) print(len(word_count)) print(word_count[0]) print(word_count[-1]) 使用Lambda函数先对train_df[text]的数据进行去重然后拼接统计 train_df[text_unique] train_df[text].apply(lambda x: .join(list(set(x.split( ))))) all_lines .join(list(train_df[text_unique])) word_count Counter(all_lines.split( )) word_count sorted(word_count.items(),keylambda d:int(d[1]),reverseTrue) print(len(word_count)) print(word_count[0]) print(word_count[-1]) 分析结论 1.每个新闻的字符个数在900多还有个别新闻较长可能需要截断 2.新闻类别分布不均匀会影响模型精度。 3 作业 1假设字符3750,900,648是句子的标点符号请分析每篇新闻平均由多少个句子构成 一、利用for循环实现 flaglist1 [] flaglist2 [] flaglist3 [] for i in range(train_df[text].shape[0]):flag1,flag2,flag3 train_df[text].loc[i].split( ).count(3750),train_df[text].loc[i].split( ).count(900),train_df[text].loc[i].split( ).count(648)flaglist1.append(flag1)flaglist2.append(flag2)flaglist3.append(flag3) flaglist list(map(lambda x:x[0]x[1]x[2],zip(flaglist1,flaglist2,flaglist3))) train_df[flag_freq] flaglist train_df[flag_freq].mean() 二、用Counter实现 train_df[text_freq] train_df[text].apply(lambda x: .join(list(x.split( )))) print(len(train_df[text])) # # #将文本变为一个list strlist1 [] strlist2 [] strlist3 [] for i in range(train_df[text_freq].shape[0]):all_lines train_df[text_freq].loc[i]# #对每个词统计个数word_count Counter(all_lines.split( ))# print(word_count[3750],word_count[900],word_count[648])strlist1.append(word_count[3750])strlist2.append(word_count[900])strlist3.append(word_count[648])flaglist list(map(lambda x:x[0]x[1]x[2],zip(strlist1,strlist2,strlist3))) train_df[flag_freq] flaglist train_df[flag_freq].mean() 2统计每类新闻出现次数最多的字符 一、用groupby进行分组实现 groupdata train_df.groupby(by[label]) print(groupdata.size())#每类新闻出现最多的词 max_freq [] for i in range(len(groupdata.size())):df groupdata.get_group(i)[text].apply(lambda x: .join(list(x.split( ))))all_lines .join(list(df))word_count Counter(all_lines.split( ))del word_count[3750]del word_count[900]del word_count[648]word_count sorted(word_count.items(),keylambda d:int(d[1]),reverseTrue)print(word_count[1][0])max_freq.append(word_count[1][0])二、通过Pandas的类别数据实现 train_df[new_label] pd.cut(train_df[label],[-1,0,1,2,3,4,5,6,7,8,9,10,11,12,13],labels[0,1,2,3,4,5,6,7,8,9,10,11,12,13]) train_df.set_index(new_label).sort_index(ascendingFalse).head()max_freq [] for i in range(14):df train_df[train_df[new_label]str(i)][text].apply(lambda x: .join(list(x.split( ))))all_lines .join(list(df))word_count Counter(all_lines.split( ))del word_count[3750]del word_count[900]del word_count[648]word_count sorted(word_count.items(),keylambda d:int(d[1]),reverseTrue)print(word_count[1][0])max_freq.append(word_count[1][0]) 思考如何解决类别不均衡问题

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/88634.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

手机网站拦截怎么解除wordpress瀑布流图片

在C语言中,内存单元的地址称为指针,专门用来存放地址的变量,有时对地址,指针和指针变量不区分,统称指针。(地址指针) 一般情况下,最前面的存储类型通常会省略 指针在说明的同时&…

黑马程序员线上课程多少钱信阳seo优化顾问

Spring Boot 3.x.x Spring Security 6.x.x PreAuthorize 失效 背景问题解决备注 背景 最近在搞一个后端项目,登录、接口权限、token认证。 版本 Spring Boot 3.2.0 JDK 21 Spring Security 6.2.0 问题 PreAuthorize 失效,没有走认证。 解决 给PreAu…

网站建设与管理习题一外贸网站经典营销案例

前言: Binder 是一种 IPC 机制,使用共享内存实现进程间通讯,既可以传递消息,也可以传递创建在共享内存中的对象,而Binder本身就是用共享内存实现的,因此遵循Binder写法的类是可以实例化后在进程间传递的。…

网站的定位与功能有没有什么做热力图的图表网站

181/2461/8938产品概述: 特点: 带宽:350 MHz频道:4存储深度:4 Mpts采样速率:5 GSa/s更新速率:每秒1000000个波形波形数学和FFT自动探测接口用于连接、存储设备和打印的USB主机和设备端口 触摸: 8.5英寸电容式触摸屏专为触摸界面设计 发现: 业界最快的无损波形更…

郑州 (网站建设托管公司是怎么托管的

问题1:请建立文本分析的数学模型 商品评论,统计评论中单词的出现频率,利用附录一和附录二中的评论绘制单 词云图,并进行数据和信息的可视化分析。 解答: 建立文本分析的数学模型 首先,我们需要对商品评论进行文本处理,包括去除停用词、词干提取、词义还原等操作。然后…

网站备案 关闭施工企业为何不需要二级造价师

来源:Accurate Nonlinear GaN HEMT Simulations from X- to Ka-Band using a Single ASM-HEMT Model 摘要:本文首次研究了ASM-HEMT模型在宽频带范围内的大信号准确性。在10、20和30 GHz的频率下,通过测量和模拟功率扫描进行了比较。在相同的频…

扬中零壹网站建设科技公司 网站设计经典案例

✈结构体类型的声明 前面我们在学习操作符的时候,已经学习了结构体的知识,这里稍微复习一下。 🚀结构体回顾 结构是一些值的集合,这些值称为成员变量。结构的每个成员可以是不同类型的变量。 🪂结构的声明 例如&a…

提供医疗网站建设河南多用户商城开发

何为Wiki(维客)? 首先,我们要搞清楚:wiki概念的发明人是Ward Cunningham。wiki这个字到底是什幺意思呢?根据FAQ的说法,WikiWiki 一词来源于夏威夷语的“wee kee wee kee”,原本是“快…

网站推广策划公司汽车之家官方网站

java过滤器(imooc学习)定义:过滤器是一个服务器端的组件,它可以截取用户端的请求与响应信息,并对这些信息过滤。 工作原理 1、过滤器中web容器启动时就进行加载2、过滤器存在于用户请求和web资源之间3、用户请求和web资源响应的【收发】都经过…

福清市建设局官方网站重庆巫山网站设计哪家专业

网页环境title标题每一帧都不要放过&#xff0c;或许那个不起眼的地方就存在重要信息到这并未发现什么重要信息&#xff0c;F12看看在源代码底部发现PHP代码&#xff1a; <!-- $cat$_GET[cat]; echo $cat; if($catdog){ echo Syc{cat_cat_cat_cat}; } --> PHP代码…

衡水建网站wordpress招聘模板

Windows 系统 在 Windows 系统中想要合并 PDF 文件我们可能需要借助一些第三方的软件或者浏览器的插件。 我们可以在 Google 浏览器中的 Chrome 应用商店中输入“Merge pdf”这样就可以搜索到在线合并 PDF 文件的插件&#xff0c;只需要下载到浏览器中就可以直接使用。当然 Ed…

捕鱼网站怎么做在线教育平台系统搭建

一、与公司形象契合 在展厅规划时必定要留意公司的LOGO、主色调&#xff0c;以及企业文明。在展现时使用丰满的展厅规划传达出企业的理念。而在功用设置上&#xff0c;应当考虑内涵功用&#xff0c;从展厅作业人员的视点动身&#xff0c;为展厅作业人员提供杰出的环境&#xff…

横向网站模板h5美食制作网站模板

奈氏准则 在理想低通&#xff08;无噪声&#xff0c;带宽受限&#xff09;条件下&#xff0c;为了避免码间串扰&#xff0c;极限码元传输速率为2WBaud&#xff0c;W是信道带宽&#xff0c;单位是赫兹 结论&#xff1a; ①在任何信道中&#xff0c;码元的传输速率是有上限的&…

做搜狗网站优化首页软我要自学网网站开发

参考链接&#xff1a; Java流Stream 题解 使用 toUnsignedString&#xff08;&#xff09;即可 我有仔细读过toUnsignedString&#xff08;&#xff09;&#xff0c;有兴趣可以看看 第3章 java的基本程序设计结构【补缺学习】【注释与数据类型】【核心技术卷I】 impor…

360网站卖东西怎么做电商系统开发公司

1.模仿 STM32 寄存器定义 为了开发方便&#xff0c; ST 官方为 STM32F103 编写了一个叫做 stm32f10x.h 的文件&#xff0c;在这个文件 里面定义了 STM32F103 所有外设寄存器&#xff0c;我们可以使用其定义的寄存器来进行开发&#xff0c;比如我 们可以用如下代码来初始…

商城开发网站无锡高端网站设计

地毯填补问题 题目描述 相传在一个古老的阿拉伯国家里&#xff0c;有一座宫殿。宫殿里有个四四方方的格子迷宫&#xff0c;国王选择驸马的方法非常特殊&#xff0c;也非常简单&#xff1a;公主就站在其中一个方格子上&#xff0c;只要谁能用地毯将除公主站立的地方外的所有地…

用rem做移动网站电脑室内装修设计软件

最近在复习数据结构,早上刚复习完链表&#xff0c;就想到了学生信息管理系统这个经典的大作业,然后呢&#xff0c;花了一早上加一中午的功夫给重新实现了一遍&#xff0c;里面可能会有写的不好的地方&#xff0c;但也代表了我实现的一些想法&#xff0c;在这里我将分享出来。我…

网站空间内存我的世界做壁纸的网站

目录 前言&#xff1a; 题单&#xff1a; P3386 【模板】二分图最大匹配 P1525 [NOIP2010 提高组] 关押罪犯 P3385 【模板】负环 P3371 【模板】单源最短路径&#xff08;弱化版&#xff09; SPFA写法 Dij写法&#xff1a; P3385 【模板】负环 P5960 【模板】差分约束…

中小学生做试卷的网站6阿联酋网站后缀

当我们使用float来使元素并排显示的时候&#xff0c;可以使用margin来控制元素之间的距离&#xff0c;而在很多版式里&#xff08;例如产品图片的列表&#xff09;&#xff0c;需要浮动的元素达到两端对齐的效果&#xff0c;如图1所示。 图1 两端对齐的版式 单纯使用float:left…

做美食直播哪个网站最好网站备案不通过怎么解决

RTlinux主要的api函数实时应用程序分为两部分,内核部分和应用部分,应用部分需要和内核部分通过FIFO进行数据交换和控制,除此之外和一般应用程序没有太多区别,内核部分比较复杂,程序以模块方式挂入内核,这部分程序的编写需要对底层的东西有较高的要求,除了掌握RTLinux的API以外还…