做加工都在哪个网站推广电商网站创办过程

diannao/2025/10/22 23:08:54/文章来源:
做加工都在哪个网站推广,电商网站创办过程,百度网站地图在线生成,网站正在建设中英文英杰社区https://bbs.csdn.net/topics/617804998 一、背景 近年来#xff0c;Python在数据爬取和处理方面的应用越来越广泛。本文将介绍一个基于Python的爬虫程 序#xff0c;用于抓取豆瓣电影Top250的相关信息#xff0c;并将其保存为Excel文件。 程序包含以下几个部…英杰社区https://bbs.csdn.net/topics/617804998 一、背景      近年来Python在数据爬取和处理方面的应用越来越广泛。本文将介绍一个基于Python的爬虫程 序用于抓取豆瓣电影Top250的相关信息并将其保存为Excel文件。 程序包含以下几个部分 导入模块程序导入了 BeautifulSoup、re、urllib.request、urllib.error、xlwt等模块。 定义函数 geturl(url)接收一个URL参数返回该URL页面内容。getdata(baseurl)接收一个基础URL参数遍历每一页的URL获取电影信息数据以列表形式返回。savedata(datalist,savepath)接收电影信息数据和保存路径参数将数据保存到Excel文件中。 二、导入必要的模块 代码首先导入了需要使用的模块requests、lxml和csv。 import requests from lxml import etree import csv 如果出现模块报错 进入控制台输入建议使用国内镜像源 pip install 模块名称 -i https://mirrors.aliyun.com/pypi/simple我大致罗列了以下几种国内镜像源 清华大学 https://pypi.tuna.tsinghua.edu.cn/simple阿里云 https://mirrors.aliyun.com/pypi/simple/豆瓣 https://pypi.douban.com/simple/ 百度云 https://mirror.baidu.com/pypi/simple/中科大 https://pypi.mirrors.ustc.edu.cn/simple/华为云 https://mirrors.huaweicloud.com/repository/pypi/simple/腾讯云 https://mirrors.cloud.tencent.com/pypi/simple/ 三、定义了函数来解析每个电影的信息 设置了请求头部信息以模拟浏览器的请求函数返回响应数据的JSON格式内容。 def getSource(url):# 反爬 填写headers请求头headers {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36}response requests.get(url, headersheaders)# 防止出现乱码response.encoding utf-8# print(response.text)return response.text 如何获取请求头 火狐浏览器 打开目标网页并右键点击页面空白处。选择“检查元素”选项或按下快捷键Ctrl Shift CWindows在开发者工具窗口中切换到“网络”选项卡。刷新页面以捕获所有的网络请求。在请求列表中选择您感兴趣的请求。在右侧的“请求标头”或“Request Headers”部分即可找到请求头信息。 将以下请求头信息复制出来即可 四、源代码 该爬虫程序使用了Python的第三方库BeautifulSoup和正则表达式模块通过解析HTML页面并进行匹配提取了电影详情链接、图片链接、影片中文名、影片外国名、评分、评价数、概述以及相关信息等数据最后将这些数据保存到Excel文件中。 from bs4 import BeautifulSoup import re #正则表达式进行文字匹配 import urllib.request,urllib.error #指定URL获取网页数据 import xlwt #进行excel操作def main():baseurl https://movie.douban.com/top250?startdatalist getdata(baseurl)savepath .\\豆瓣电影top250.xlssavedata(datalist,savepath)#compile返回的是匹配到的模式对象 findLink re.compile(ra href(.*?)) # 正则表达式模式的匹配影片详情 findImgSrc re.compile(rimg.*src(.*?), re.S) # re.S让换行符包含在字符中,图片信息 findTitle re.compile(rspan classtitle(.*)/span) # 影片片名 findRating re.compile(rspan classrating_num propertyv:average(.*)/span) # 找到评分 findJudge re.compile(rspan(\d*)人评价/span) # 找到评价人数 #\d表示数字 findInq re.compile(rspan classinq(.*)/span) # 找到概况 findBd re.compile(rp class(.*?)/p, re.S) # 找到影片的相关内容如导演演员等##获取网页数据 def getdata(baseurl):datalist[]for i in range(0,10):url baseurlstr(i*25) ##豆瓣页面上一共有十页信息一页爬取完成后继续下一页html geturl(url)soup BeautifulSoup(html,html.parser) #构建了一个BeautifulSoup类型的对象soup是解析html的for item in soup.find_all(div,class_item): ##find_all返回的是一个列表data[] #保存HTML中一部电影的所有信息item str(item) ##需要先转换为字符串findall才能进行搜索link re.findall(findLink,item)[0] ##findall返回的是列表索引只将值赋值data.append(link)imgSrc re.findall(findImgSrc, item)[0]data.append(imgSrc)titlesre.findall(findTitle,item) ##有的影片只有一个中文名有的有中文和英文if(len(titles)2):onetitle titles[0]data.append(onetitle)twotitle titles[1].replace(/,)#去掉无关的符号data.append(twotitle)else:data.append(titles)data.append( ) ##将下一个值空出来rating re.findall(findRating, item)[0] # 添加评分data.append(rating)judgeNum re.findall(findJudge, item)[0] # 添加评价人数data.append(judgeNum)inq re.findall(findInq, item) # 添加概述if len(inq) ! 0:inq inq[0].replace(。, )data.append(inq)else:data.append( )bd re.findall(findBd, item)[0]bd re.sub(br(\s)?/(\s)?, , bd)bd re.sub(/, , bd)data.append(bd.strip()) # 去掉前后的空格datalist.append(data)return datalist##保存数据 def savedata(datalist,savepath):workbook xlwt.Workbook(encodingutf-8,style_compression0) ##style_compression0不压缩worksheet workbook.add_sheet(豆瓣电影top250,cell_overwrite_okTrue) #cell_overwrite_okTrue再次写入数据覆盖column (电影详情链接, 图片链接, 影片中文名, 影片外国名, 评分, 评价数, 概况, 相关信息) ##execl项目栏for i in range(0,8):worksheet.write(0,i,column[i]) #将column[i]的内容保存在第0行第i列for i in range(0,250):data datalist[i]for j in range(0,8):worksheet.write(i1,j,data[j])workbook.save(savepath)##爬取网页 def geturl(url):head {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36}req urllib.request.Request(url,headershead)try: ##异常检测response urllib.request.urlopen(req)html response.read().decode(utf-8)except urllib.error.URLError as e:if hasattr(e,code): ##如果错误中有这个属性的话print(e.code)if hasattr(e,reason):print(e.reason)return htmlif __name__ __main__:main()print(爬取成功)五、详解代码 导入所需模块包括BeautifulSoup、re、urllib和xlwt。 from bs4 import BeautifulSoup import re # 正则表达式进行文字匹配 import urllib.request,urllib.error # 指定URL获取网页数据 import xlwt # 进行excel操作 主函数主要包含三个步骤获取数据、保存数据和打印成功信息。 def main():baseurl https://movie.douban.com/top250?startdatalist getdata(baseurl)savepath .\\豆瓣电影top250.xlssavedata(datalist, savepath) 这里使用正则表达式对html页面进行匹配获取需要的信息返回的是匹配到的模式对象。  ##compile返回的是匹配到的模式对象 findLink re.compile(ra href(.*?)) # 正则表达式模式的匹配影片详情 findImgSrc re.compile(rimg.*src(.*?), re.S) # re.S让换行符包含在字符中图片信息 findTitle re.compile(rspan classtitle(.*)/span) # 影片片名 findRating re.compile(rspan classrating_num propertyv:average(.*)/span) # 找到评分 findJudge re.compile(rspan(\d*)人评价/span) # 找到评价人数 #\d表示数字 findInq re.compile(rspan classinq(.*)/span) # 找到概况 findBd re.compile(rp class(.*?)/p, re.S) # 找到影片的相关内容如导演演员等 获取网页数据的函数包括以下步骤 1. 循环10次依次爬取不同页面的信息 2. 使用urllib获取html页面 3. 使用BeautifulSoup解析页面 4. 遍历每个div标签即每一部电影 5. 对每个电影信息进行匹配使用正则表达式提取需要的信息并保存到一个列表中 6. 将每个电影信息的列表保存到总列表中。 def getdata(baseurl):datalist []for i in range(0, 10):url baseurl str(i * 25) html geturl(url)soup BeautifulSoup(html, html.parser) for item in soup.find_all(div, class_item): data [] item str(item) link re.findall(findLink, item)[0] data.append(link)imgSrc re.findall(findImgSrc, item)[0]data.append(imgSrc)titles re.findall(findTitle, item) if (len(titles) 2):onetitle titles[0]data.append(onetitle)twotitle titles[1].replace(/, ) data.append(twotitle)else:data.append(titles)data.append( ) rating re.findall(findRating, item)[0] data.append(rating)judgeNum re.findall(findJudge, item)[0] data.append(judgeNum)inq re.findall(findInq, item) if len(inq) ! 0:inq inq[0].replace(。, )data.append(inq)else:data.append( )bd re.findall(findBd, item)[0]bd re.sub(br(\s)?/(\s)?, , bd)bd re.sub(/, , bd)data.append(bd.strip()) datalist.append(data)return datalist 将获取到的数据保存到excel文件中包括以下步骤 1. 创建一个excel文件 2. 在文件中创建一个工作表 3. 写入execl项目栏即第一行的标题 4. 循环保存每一部电影的信息。 def savedata(datalist, savepath):workbook xlwt.Workbook(encodingutf-8, style_compression0) ##style_compression0不压缩worksheet workbook.add_sheet(豆瓣电影top250, cell_overwrite_okTrue) # cell_overwrite_okTrue再次写入数据覆盖column (电影详情链接, 图片链接, 影片中文名, 影片外国名, 评分, 评价数, 概况, 相关信息) ##execl项目栏for i in range(0, 8):worksheet.write(0, i, column[i]) # 将column[i]的内容保存在第0行第i列for i in range(0, 250):data datalist[i]for j in range(0, 8):worksheet.write(i 1, j, data[j])workbook.save(savepath) 使用urllib获取网页数据的函数。 def geturl(url):head {User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36}req urllib.request.Request(url, headershead)try: ##异常检测response urllib.request.urlopen(req)html response.read().decode(utf-8)except urllib.error.URLError as e:if hasattr(e, code): ##如果错误中有这个属性的话print(e.code)if hasattr(e, reason):print(e.reason)return html 程序入口执行主函数并打印成功信息。  if __name__ __main__:main()print(爬取成功) 六、效果展示 七、文末送书 参与活动 1️⃣参与方式关注、点赞、收藏评论(人生苦短我一天我也懒得卷 2️⃣获奖方式程序随机抽取 3位每位小伙伴将获得一本书 3️⃣活动时间截止到 2024-1-10 22:00:00 注活动结束后会在我的主页动态如期公布中奖者包邮到家。 ​编辑 这本书是美国人工智能领域的权威经典教材受到广大师生的广泛好评。中文版更是被近百所高校采用作为专业教科书使用。 本书第 2 版出版于 2018 年恰恰在过去的5年中人工智能技术有了突破性的进展大模型即是其中的代表。第3版在第 2 版的基础上进行了内容调整和升级以跟上技术发展的步伐。新增了深度学习、人工智能安全和人工智能编程等新进展、新成果。 全书内容包括人工智能的历史、思维和智能之辩、图灵测试、搜索、博弈、知识表示、产生式系统、专家系统、机器学习、深度学习、自然语言处理NLP、自动规划、遗传算法、模糊控制、安全等。此外它还介绍了一些新技术和应用如机器人、高级计算机博弈等。 这本书是美国人工智能领域的权威经典教材受到广大师生的广泛好评。中文版更是被近百所高校采用作为专业教科书使用。 本书第 2 版出版于 2018 年恰恰在过去的5年中人工智能技术有了突破性的进展大模型即是其中的代表。第3版在第 2 版的基础上进行了内容调整和升级以跟上技术发展的步伐。新增了深度学习、人工智能安全和人工智能编程等新进展、新成果。 全书内容包括人工智能的历史、思维和智能之辩、图灵测试、搜索、博弈、知识表示、产生式系统、专家系统、机器学习、深度学习、自然语言处理NLP、自动规划、遗传算法、模糊控制、安全等。此外它还介绍了一些新技术和应用如机器人、高级计算机博弈等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/91933.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

阿里云的网站接入方式网站空间 群集

反射 反射的概念 反射机制允许程序在执行期借助于ReflectionAPI取得任何类的内部信息(比如成员变量,构造器,成员方法等等),并能操作对象的属性及方法。反射在设计模式和框架底层都会用到加载完类之后,在堆中就产生了一个Class类型…

备份wordpress网站网站建设增城

一、协议族体系结构 TCP/IP协议族分为四层协议系统,自底向下分别为数据链路层、网络层、传输层、应用层。 数据链路层常用ARP(地址解析协议)和RARP(逆地址解析协议)。在网络层使用IP寻址,而在数据链路层使用…

响应式网站的排版做定制网站多少钱

文章目录 1. 每日一言2. 题目(78)删除有序数组中的重复项2.1 解题思路2.2 代码 3. 题目(79)排序矩阵查找3.1 解题思路3.1.1 暴力查找暴力查找代码 3.1.2 二分查找二分查找代码 3.1.3 贪心贪心代码 4. 结语 1. 每日一言 水晶帘动微风起,满架蔷薇一院香。 —高骈- 2.…

注册网站法律风险专业做seo的网站

SVG是矢量图,刚接触尚不能仔细介绍,但只需记得一点:放大不失真,存储也方便。 因为多数户型图使用SVG格式,Android要用的话必须通过相关转换工具,将原SVG格式文件,转换为XML后缀的VectorDrawable…

沈阳网站做网站使用网络图片做素材 侵权

sql语句中最后多了分号的原因,去掉分号就可以。

网站设计服务流程如何注册一个自己的网址

Linux Mint 默认禁用未经验证的 Flatpak 软件包 Linux Mint 新政策 Linux Mint 项目宣布了一项新政策,即默认禁用那些未经官方验证的 Flatpak 软件包,以增强用户的安全保障。 当用户选择启用未经验证的 Flatpak 软件包时,Linux Mint 的软…

广州企业网站设计方案苏州百姓网

采购订单没有生成上传订单号pkg_inpurchase_task.p_rk_sc_rkd_zc iv_yzid ----- ZDA iv_djbh ---- KPD00014712 销售订单下传下去后直接转历史表 select * from INTERFACE_OUT_SALE_M t where djbh like %XSGYMA00220297%日志表查询结果ORA-01400: 无法将 NULL 插入 ("WMS…

网站验证码系统免费行情网站app斗印

上一篇文章学习了GIT中commit、tree和blob三个对象之间的关系,点击链接查看:【Git、GitHub、GitLab】六 GIT中commit、tree和blob三个对象之间的关系 文章目录1 git中如何删除分支2 分离头指针的情况需要注意什么1 git中如何删除分支 如何查看分支&#…

凡科网站怎么做友情链接网站制作用什么软件

如果直接修改SQL报错的话,可以考虑【增加备用字段->复制字段值->删除原字段->备用字段改名】的思路进行处理。 执行的时候建议一步一步执行而非批量执行 其中COLUMN_T为备用字段,COLUMN_O为原字段。 -- 根据原字段创建新长度的备用字段 alte…

上海专业商城建设什么叫seo推广

标准库类型string 和 vector ,分别定义了大小可变的字符串和集合。 bitset,提供了一个抽象方法来操作位的集合。提供更方便的处理位的方式(相对于整型值上的位操作符)vector用于保存一组指定类型的对象。::…

百度推广 做网站遥控器外壳设计网站推荐

电压互感器 Potential Transformer (简称:PT)将高电压转换成标准低电压(100V),供测量、保护用。相数代号:D-单相、S-三相绝缘型式:J-油侵式、G-干式、Z-浇注式结构型式:W-五柱三绕组、B-带补偿绕组、J-接地保护、X-带剩…

专业网站设计招聘信息九江建设局网站

在意大利间谍软件厂商 Hacking Team 的内部邮件和文档被曝光将近一年后,黑掉这家黑客公司的黑客公开了他如何入侵HT的完整细节。该文档于上周六在网上发布,本意是为了给黑客活动人士的一份指南。但对于安全从业人员来说,则意味着当任何企业或…

公司网站维护好做吗wordpress哪个版本

大家好,我是Z哥。“这个 bug 的问题不是很明显吗?怎么这么久才搞定?”“就改一行代码,你怎么弄了这么久?”我想上面的言语几乎每个程序员都听到过。特别是面对那些“稍懂技术”的同事的时候。我觉得这篇文章特别适合你…

兴义市 网站建设官方传奇手游下载

一、在gitHub上创建新项目 【1】点击添加()-->New repository 【2】填写新项目的配置项 Repository name:项目名称 Description :项目的描述 Choose a license:license 【3】点击确定,项目已在githu…

广东网站建站系统哪家好网站建设违法行为

转载自 Java 8 日期和时间解读现在,一些应用程序仍然在使用java.util.Date和java.util.Calendar API和它们的类库,来使我们在生活中更加轻松的处理日期和时间,比如:JodaTime。然而,Java 8 引进的新的类库来处理日期和时…

网站服务器需要多少钱化妆品网站做的好的

《C新经典对象模型》之第7章 模板实例化语义学 7.1 模板及其实例化详细分析7.1.1 函数模板7.1.2 类模板的实例化分析7.1.3 多个源文件中使用类模板07.01.cpp 7.2 炫技写法7.2.1 不能被继承的类7.2.2 类外调用私有虚成员函数07.02.cpp 7.1 模板及其实例化详细分析 7.1.1 函数模…

网站管理助手 ftp网站开发毕业实训总结

好的架构是进化出来的 ,不是设计出来的; 不同时期和不同环境有着不同的最佳架构; 存在即合理,合适的才是最好的; 转载于:https://www.cnblogs.com/sky-jyq/p/11527254.html

网站网页制作机构网站被k有什么表现

免责声明: 本文内容旨在提供有关特定漏洞或安全漏洞的信息,以帮助用户更好地了解可能存在的风险。公布此类信息的目的在于促进网络安全意识和技术进步,并非出于任何恶意目的。阅读者应该明白,在利用本文提到的漏洞信息或进行相关测…

百度网站排名规则注册域名是什么意思

参考文章:深入理解JS引擎的执行机制 JavaScript 异步、栈、事件循环、任务队列 我的笔记:ES系列之Promise async 和 await Event Loop 前提 js是单线程的 js的Event Loop是JS的执行机制,深入了解JS的执行,就等于深入了解JS里的event …

淘宝运营跟做网站哪种工资高宜昌做网站的公司

constexpr 是 C 11 标准新添加的关键字,在此之前(C 98/03标准)只有 const 关键字,其在实际使用中经常会表现出两种不同的语义(常量和只读)。 dis_1() 函数中的“const int x”只是想强调 x 是一个只读的变量…