医药电商网站建设网站开发人员工资水平

web/2025/9/28 18:18:09/文章来源:
医药电商网站建设,网站开发人员工资水平,上海网站开发怎么做,wordpress英文版中文版10011311341 吕涛、10011311356李红目的#xff1a;通过熟悉使用火车头采集器#xff0c;在网络上采取3万条笑话并进行排重#xff0c;以此来熟悉web文本挖掘的一些知识。过程#xff1a;本次学习#xff0c;主要分成两个部分。第一部分是笑话文本的采集#xff0c;第二部…10011311341 吕涛、10011311356李红目的通过熟悉使用火车头采集器在网络上采取3万条笑话并进行排重以此来熟悉web文本挖掘的一些知识。过程本次学习主要分成两个部分。第一部分是笑话文本的采集第二部分是笑话排重。以下是具体过程第一部分 笑话抽取火车头采笑话基本流程新建分组新建任务采集网址设置采集内容设置抓数据。一、新建分组及任务根据需要设立“课程”分组以便于以后学习过程中练习使用又建立了子分组“笑话抽取”。本次采集笑话主要是两个网站“中文幽默王”及“开心驿站”由于不同的网站html各种功能框架不同而不同框架结构的采集规则又不同所以将其分成了两个任务建立“开心驿站”和“中文幽默王”。如图1所示图1 分组及任务二、采集网址及内容规则设置由于本次采集作为课程练习使用所以不牵扯到发布因此任务编辑上面仅设置第一步“采集网址规则”和第二步“采集内容规则”如图2所示图2 编辑任务下面学习过程介绍均以开心驿站为例叙述第一步采集网址规则首先要先添加起始网址http://www.kxx.cc/ 接下来的笑话网址采集就分为两种方式。第一种就是在“添加开始采集地址”窗体中设置“批量/多页”项设置“等差数列”方式即采集的笑话从第一页到最后一页这些页数是成公差为1的等差数列如图3所示图3 批量/多页设置将“开心驿站”上面各类笑话设置完全效果图如图3所示图4 起始网址效果图当然如果仅此设置的话我们一页只能采到一条笑话实际上“开心驿站”上面的一页可以显示16条笑话这样我们还要设置一下“多级网址采集规则”。可以手动分析页面html格式然后填写规则这里采用最简单的可视化Xpath方式获取地址。如图5所示图5Xpath方式获取地址我们可以看出多级网址获取方式为get如图6所示图6 多级网址设置效果图第二种就是不在设置“批量/多页”而是直接设置“多级网址获取”首先获得“开心驿站”上面各个分类的默认打开地址。例如“校园笑话”http://www.kxx.cc/xiaohua/list4-1.html这些网址的获取我们同样采用的是最简单的可视化地址Xpath方式获得。Xpath获得的网址里面有可能不是我们想要的网址比如list10-1和list13-1分别为图片和视频所以我们可以进行“结果网址过滤”如图7所示图7 结果网址过滤设置接下来就是“列表分页获取”设置这个就是对每个分类的默认页进行下一页的采集根据html里面的格式我们如图8所示设置图8 列表分页获取设置至于每一页要采集到16条笑话的网址这个就和第一种方式是一样的。就此略过。第二步 采集内容规则首先我们要设计自己想要的记录属性采集笑话需要“标题”“内容”“分类”三个属性如图9所示内容标签定义图9 内容标签定义具体到各个标签的规则定义如下图10-13图10 前后截取方式抽取标题图11可视化抽取内容需要注意的是在内容抽取过程中可能会遇到一些html标签残留或者是双引号感叹号以及省略号等等不显示这时候我们可以根据需要进行html标签排除和一些字符的替换。图12可视化提取分类图13 规则测试三、抓数据通过以上“网址采集规则”和“内容采集规则”的设置就可以开始任务了。经过一段时间数据采集完成我们可以对任务进行右单击选择“打开Data下任务文件夹”就可以看到默认为Access的数据文件当然也可以转换为Excel格式。由于排重的时候我们是以Excel格式进行数据输入的所以我们将其转换为Excel格式。第二部分 笑话排重算法思想本次笑话排重主要是从内容上判断。采用MD5摘要算法我们选取第一个句话前后7个字符进行MD5码运算就是中文“。”和英文“.”前面4个后面两个再加本身7个字符进行MD5运算没有中文句号和英文句号的暂时定为不重复。然后对比比每条笑话的前七个字符的MD5码。根据“select*,count(distinct Md5)from mo1 group by Md5”将和现有的笑话重复的笑话排除掉。算法描述MD5对以512位为单位的输入进行变换最终以32位为单位4个的压缩信息组输出。根据运算结果的唯一性我们可以每条笑话的第一个句号的前7个字符进行相同MD5运算比对之后进行确认是否相同。MD5过程描述如图14图14 MD5过程算法实现1、inputimport MySQLdbimport xlrdconn MySQLdb.connect(hostlocalhost , user root,passwdroot ,db joke ,use_unicodeTrue,charsetutf8)cursor conn.cursor()data xlrd.open_workbook(E:\joke1.xls)table data.sheets()[0]cursor.execute(select *,count(distinct Md5)from mo1 group byMd5;)rows cursor.fetchall()for row in rows:k row[0]a int(table.cell(k,0).value)b table.cell(k,1).valuec table.cell(k,2).valued table.cell(k,3).valuee table.cell(k,4).valuef table.cell(k,5).valueg table.cell(k,6).valuesql INSERT INTO jo1values(%s,%s,%s,%s,%s,%s,%s)cursor.execute(sql,(a,b,c,d,e,f,g))cursor.close()conn.commit()2、MD5算法代码实现# -*- coding: UTF-8 -*-import xlrdimport reimport hashlibimport MySQLdbdata xlrd.open_workbook(E:\joke1.xls)table data.sheets()[0]conn MySQLdb.connect(hostlocalhost , user root,passwdroot ,db joke ,use_unicodeTrue,charsetutf8)cursor conn.cursor()for n in range(1,table.nrows):a table.cell(n,4).valueprint nmdfor i inrange(len(a)):s if a[i] u.:printa[i]if i len(a)-1:j len(a)elif i len(a)-2:j len(a)else:j i3for k inrange(j-7,j):s sa[k]m hashlib.md5(s.encode(utf8))md m.hexdigest()breakelif a[i] u。:printa[i]if i len(a)-1:j len(a)elif i len(a)-2:j len(a)else:j i3for k inrange(j-7,j):s sa[k]m hashlib.md5(s.encode(utf8))md m.hexdigest()breakif md :md str(n)sql INSERT INTO mo1values(%s,%s)cursor.execute(sql,(n,md))cursor.close()conn.commit()报告总结本次课程作业进行过程当中遇到了很多问题有些解决了有些目前还没有火车头是门学问各种规则的书写学习路还很漫长在以后的学习过程中慢慢积累经验。排重的算法上也还有不足在今后的学习当中应该再接再厉。总之本次课程学习学到了很多东西。特别是在学习方法上自己吃不透的地方可以向别人请教可以通过别的渠道获取知识。学习是个任道重远的事情自己的能力也有触及不到的地方日后的工作也会更多的依赖团队的合作所以要更加注重合作的重要性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/83468.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站之间的区别查询网站备案显示划横线

随着科技的进步,智能机器人越来越多地融入我们的日常生活。其中,CyberDog 2作为一款前沿的四足机器人,凭借其出色的视觉灵敏度和多功能技术配备,受到了广泛的关注。本文将重点探讨CyberDog 2的视觉系统,尤其是其四种不同类型的摄像头如何共同提升其视觉灵敏度,以及激光传…

网站域名过期未续费怎么办梅县区住房和城乡规划建设局官方网站

西甲的赫罗纳足球俱乐部是8868体育助力的球队之一,西甲排名第12的赫塔费队迎来了西甲第29轮的较量,赫塔费队此役坐镇自己的主场PK赛前排名第2的争冠超级黑马赫罗纳队。 赛前赫塔费队已经连续4轮联赛不胜(2平2负状态低迷)&#xff…

计算机网络 网站开发与设计徐州有哪些做网站

参考资料: JAVA并发专题 - 终有救赎的专栏 - 掘金 Java并发编程学习路线(建议收藏��) | Java程序员进阶之路x沉默王二 面试题目: JUC第一讲:Java并发知识体系详解 面试题汇总(P6熟练 P7精通…

网站怎么增加流量长沙seo工资

最近,网上疯传OpenAI2027年关于AGI的计划。在本文,我们将针对部分细节以第一人称进行分享。​ 摘要:OpenAI于2022年8月开始训练一个125万亿参数的多模态模型。第一个阶段是Arrakis,也叫Q*,该模型于2023年12月完成训练&…

台州seo网站推广旅游网站信息门户建设方案

Kafka中神秘的内部主题(Internal Topic)__consumer_offsets。 consumer_offsets在Kafka源码中有个更为正式的名字,叫*位移主题*,即Offsets Topic。为了方便今天的讨论,我将统一使用位移主题来指代consumer_offsets。需…

做网站哪个公司电子商务网站推广计划书

文章目录 定义案例:零售销售数据仓库实践创建维度表创建事实表插入维度表数据插入事实表数据增改查 定义 维度建模是一种用于数据仓库设计的技术,它的目标是使数据库结构更加直观,易于理解和使用,特别是对于那些进行数据查询和报…

校园兼职网站开发用例图wordpress 联系我们表单

操作系统:CentOS 7.5 64bit,安装方式为gnome Desktop,附加系统工具以及兼容X Window安装包Oracle版本:11gR2Oracle11gR2官方文档链接安装系统建立默认用户的时候建立非oracle的账号。由于是离线安装,使用ssh登录&#…

北京响应式网站制作公司网站免费源码下载

TP框架的自动绑定 对于某些操作的情况(例如模型的写入和更新方法),可以支持参数的自动绑定,例如: 首先需要开启DB_BIND_PARAM配置参数: DB_BIND_PARAM > true 然后,我们在使用 1.$Model M(U…

深圳做网站网站制作的基本流程是什么

Uniapp是一个基于Vue.js的跨平台开发框架,可以同时开发微信小程序、H5、App等多个平台的应用。下面是Uniapp常用的API讲解: Vue.js的API Uniapp采用了Vue.js框架,因此可以直接使用Vue.js的API。例如:v-show、v-if、v-for、compu…

旅游在线网站开发小米发布会后多久可以买到新机

Redis 内存管理 1. Redis 给缓存数据设置过期时间的作用 给缓存数据设置过期时间(TTL, Time-To-Live)有以下几个重要作用: (1) 自动释放内存 避免缓存数据无限增长,导致 Redis 内存溢出。例如,在 会话管理、短连接…

网站源码怎么弄网站网上预定功能怎么做

目录 一、 算法概述二、代码示例三、输出结果一、 算法概述 适用:根据指定的box范围框来裁剪点云数据。(独创的思路,借用opencv内置的函数来实现点云数据在平面上的裁剪)。 二、代码示例 #include<iostream> #include<pcl/point_cloud.h> #include

手机网站淘宝客电商网站平台建设视频

前言 最近有许多小伙伴找我来咨询Python&#xff0c;我来讲几个极其重要&#xff0c;但是大多数Python小白都在一直犯的思维错误吧&#xff01;如果你能早点了解清楚这些&#xff0c;会改变你的编程学习生涯的。小编这一期专门总结了大家问的最多的&#xff0c;关于学习Python…

社交网站开发流程国内网页设计师个人网站

文章目录 1.题目示例提示 2.解答思路3.实现代码结果 4.总结 1.题目 给定两个字符串 s 和 p&#xff0c;找到 s 中所有 p 的 异位词 的子串&#xff0c;返回这些子串的起始索引。不考虑答案输出的顺序。 异位词 指由相同字母重排列形成的字符串&#xff08;包括相同的字符串&a…

做视频网站软件长春网站制作设计

1. 单例模式 单例模式是一种设计模式&#xff0c;设计模式是我们必须要掌握的一个技能&#xff1b; 1.1 关于框架和设计模式 设计模式是软性的规定&#xff0c;且框架是硬性的规定&#xff0c;这些都是技术大佬已经设计好的&#xff1b; 一般来说设计模式有很多种&#xff0c;…

商丘市网站建设公司自己做的网站如何上传

推荐&#xff1a;使用 NSDT场景编辑器助你快速搭建可二次编辑的3D应用场景 什么是Visual ChatGPT&#xff1f; Visual ChatGPT 是一个包含 Visual Foundation 模型 &#xff08;VFM&#xff09; 的系统&#xff0c;可帮助 ChatGPT 更好地理解、生成和编辑视觉信息。VFM 能够指…

会议响应式网站开发卓商网站建设

算术运算、比较运算、赋值运算、位和位运算、运算优先级python里的算术运算我们最熟悉的计算就是算术运算&#xff0c;加减乘除等。在python的算术运算中&#xff0c;除了四则运算外&#xff0c;还有幂运算、取模、取整运算。什么是取模、取整运算呢&#xff1f;取模和取整运算…

做网站的价格参考怎么做网站的排名优化

2019年03月全国计算机等级考试山东科技大学(青岛校区)考点的报名工作于2018年12月22日9时至12月28日24时开始网上报名&#xff0c;请各位报考考生登录 http://www.sdzk.cn/zsks/NCREbm/Ncrebm.htm 进行网上注册并填报基本信息&#xff0c;信息正确无误后,进行网上缴费&#xff…

学校 网站建设工作小组想推网站目录源码

目录 引言 一、Requests库简介 二、安装与基本使用 三、requests库的特性与优势 四、requests库在实际应用中的案例 1.get请求 2.post请求 3.超时重试 4.headers设置 5.session会话 6.携带cookie​​​​​​​ 7.携带代理​​​​​​​ 8.携带身份认证​​​​​…

云南省网站备案高端定制网站开发需要多少钱

Thread类中的yeild方法有什么作用 谦让机制&#xff1a;Thread.yield()方法主要用于实现线程间的礼让或谦让机制。当某个线程执行到yield()方法时&#xff0c;它会主动放弃当前已获得的CPU执行权&#xff0c;从运行状态&#xff08;Running&#xff09;转变为可运行状态&#…

建网站要花多少钱跨境商城网站开发

目录 介绍 基本的 SRAM 存储单元阵列 1. SRAM 存储单元 2. SRAM 阵列 3. SRAM 阵列的读写操作 4. SRAM 阵列的扩展 5. SRAM 阵列的应用 6. SRAM 阵列的优缺点 基本的 SRAM 逻辑结构 1. 存储单元 2. 存储单元阵列 3. 译码器 4. 读写电路 5. 控制逻辑 6. SRAM 逻辑…