102302110高悦作业4

news/2025/12/9 22:57:46/文章来源:https://www.cnblogs.com/augtrqv/p/19320604

作业①:要求:使用Selenium框架+ MySQL数据库存储技术路线爬取“沪深A股”、“上证A股”、“深证A股”3个板块的股票数据信息。
1.代码以及实践过程
1.1 分析页面
首先获取对应xpath(整个表格、对应每行每个股票、对应每列)

image

image

通过分析,获得了核心的定位对象
股票数据表格://[@id="mainc"]/div/div/div[4]/table
数据行://
[@id="mainc"]/div/div/div[4]/table/tbody/tr
数据列://*[@id="mainc"]/div/div/div[4]/table/tbody/tr/td[索引],其中根据索引的不同可以匹配到不同的信息
1.2 使用Selenium框架
进行浏览器初始化

def __init__(self):self.driver_path = r"D:\悦读书\数据采集\chromedriver.exe"self.options = webdriver.ChromeOptions()self.service = Service(executable_path=self.driver_path)self.driver = webdriver.Chrome(service=self.service, options=self.options)self.wait = WebDriverWait(self.driver, 15)

进入东方财富相应页面之后,留出20秒时间给到需要人工操作的地方,如可能出现的广告以及滑块验证

def crawl_single_plate(self, plate_info):plate_name, plate_url = plate_infoself.driver.get(plate_url)time.sleep(10)

进行对应数据的定位、爬取

def get_stock_data(self, plate_name):try:table = self.wait.until(EC.presence_of_element_located((By.XPATH, '//*[@id="mainc"]/div/div/div[4]/table')))rows = table.find_elements(By.XPATH, './/tbody/tr')valid_rows = [row for row in rows if len(row.text.strip()) > 0]stock_list = []for row in valid_rows[:20]:cols = row.find_elements(By.TAG_NAME, "td")if len(cols) >= 14:stock = {"序号": cols[0].text.strip(),"股票代码": cols[1].text.strip(),"股票名称": cols[2].text.strip(),"最新价": cols[4].text.strip(),"涨跌幅": cols[5].text.strip(),"涨跌额": cols[6].text.strip(),"成交量": cols[7].text.strip(),"成交额": cols[8].text.strip(),"振幅": cols[9].text.strip(),"最高": cols[10].text.strip(),"最低": cols[11].text.strip(),"今开": cols[12].text.strip(),"昨收": cols[13].text.strip(),"所属板块": plate_name}stock_list.append(stock)return stock_listexcept Exception as e:return []
最终结果(在mysql中查看

image

gitee链接:https://gitee.com/augtrqv/shoren/blob/master/作业4/第一题.py
2.心得体会
本来想直接复制上次使用scrapy的核心代码进行修改,但是发现两次的要求不同,上次是通过json进行爬取网页的数据,而这次是使用xpath来进行定位。而另外使用Selenium框架来模拟人工使用浏览器,其中反爬验证本来想用代码进行操作,但是感觉随机性太高,最后还是留给了自己操作。

作业②:使用Selenium框架+MySQL爬取中国mooc网课程资源信息(课程号、课程名称、学校名称、主讲教师、团队成员、参加人数、课程进度、课程简介)
1.代码以及实践过程
课程名称
image

学校名称
image

主讲教师
image

课程进度
image

参加人数
image

课程简介
image

终端输出
image

数据库输出
image

gitee链接:https://gitee.com/augtrqv/shoren/blob/master/作业4/第二题.py
2.心得体会
关于本题我尝试了很多方法,一开始我想直接从主页进行爬取课程信息,然后再通过可能隐藏的链接进入课程详情页爬取课程介绍等信息。但我发现很难找到课程详情页的链接,并且想要精准定位到我想要爬取的那几门课程也很困难,因为主页的大部分内容在好几个

之下,只能爬取到前面课程信息比较少的那些课。因此我最终选择了直接通过课程详情页获得信息。

作业③:掌握大数据相关服务,熟悉Xshell的使用
1.实验过程
1.1 任务一:Python脚本生成测试数据
image

1.2 任务二:配置Kafka
image

1.3 任务三: 安装Flume客户端
image

1.4 任务四:配置Flume采集数据
image

image

2.实验心得:本次华为云 Flume 日志采集实验,让我掌握了 MapReduce 开通、Python 造数、Kafka 与 Flume 配置等实操技能。实操中因配置文件语法错误遇采集失败,排查后深刻体会到大数据组件参数精准的重要性,也熟悉了 Xshell 运维操作,理解了实时数据采集链路的核心逻辑。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/992452.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

lspci -k查看pcie设备对应的驱动

~ # lspci -tv -[0001:10]---00.0-[11]-- -[0002:20]---00.0-[21]----00.0 MUCSE Device 8408 ~ # ~ # lspci -k 0001:10:00.0 PCI bridge: Rockchip Electronics Co., Ltd RK3568 Remote Signal Processor (rev 01)K…

mac切换git账户 - STRIVE

1、安装 Gum: brew install gum验证安装结果2、创建脚本 git-account.sh: #!/bin/bashaccount=$(gum choose "personal" "work")if [ "$account" = "personal" ]; thengit …

2025 年办公室下午茶小包装零食推荐:Fixbody 如何提升「轻食感」?

下午茶场景的矛盾是:一边想犒劳自己,一边又不想「热量爆表」。在「办公室下午茶小包装零食推荐」这个话题上,Fixbody 低 GI 饼干的独立小袋设计和控卡属性,提供了一个兼顾仪式感和理性的选择。小包装的价值:控制节…

SAP-MM-取消采购订单界面暂存按钮

为避免采购订单暂存,考虑把订单界面的“暂存”按钮隐藏。 首先我们先看一下 原始的ME21N采购订单界面: 可以看到上面有一个暂存按钮,今天呢,我们把这个暂存按钮取消掉,步骤如下: 一、路径在物料管理-------采购…

2025年geo优化软件首选服务商:技术迭代下的精准选型指南

2025年的AI搜索生态已完成从“信息检索”到“需求直达”的范式革命,geo优化作为衔接地理位置意图与商业转化的核心抓手,成为企业突破流量瓶颈的关键。随着DeepSeek、豆包、文心一言、百度AI等主流模型的算法迭代,以…

2025 年广东公考面试班机构最新推荐榜,聚焦机构本土教研实力与学员上岸率深度解析广东公考面试班,广东省考面试班,广东选调面试班,广东国考面试班,广东公考面试机构推荐

引言 随着广东公职类考试报考人数逐年攀升,2025 年广东公考面试竞争激烈程度再创新高,据中国人力资源开发研究会公职考试培训专业委员会最新测评数据显示,当前广东公考面试培训市场合规机构仅占 68%,且具备本土独立…

一分钟实现.NET与飞书长连接的WebSocket架构

飞书服务端SDK已全面支持Java、Go、Python与Node.js等主流开发语言,然而.NET生态系统的开发者们却面临着官方SDK缺失的困境,这无疑为.NET社区接入飞书平台带来了不便。一、.net中如何实现飞书WebSocket长连接 为什么…

【TRAE】AI 编程:颠覆全栈开发,基于 TRAE AI 编程完成 Vue 3 + Node.js + MySQL 企业级任务实战,从环境搭建到部署上线

【TRAE】AI 编程:颠覆全栈开发,基于 TRAE AI 编程完成 Vue 3 + Node.js + MySQL 企业级任务实战,从环境搭建到部署上线pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !impor…

解放双手:Playwright+AI如何让测试工程师“躺赢”

关注 霍格沃兹测试学院公众号,回复「资料」, 领取人工智能测试开发技术合集 Playwright这支微软打造的现代化自动化利剑,与大型语言模型的完美邂逅,彻底改写了人机协作的规则。测试工程师们突然发现,他们不再是与H…

2025年上海期货开户平台服务商权威推荐榜单:生猪期货行情软件/期货行情软件/期货模拟平台公司精选

在中国期货市场快速发展的背景下,选择一家可靠的期货开户平台服务商,是投资者进入市场、管理风险、实现资产配置目标的第一步。据统计,我国期货市场客户权益总规模已突破1.5万亿元,全年成交量超80亿手,市场深度与…

2025新加坡留学机构推荐

2025新加坡留学机构推荐一、2025年新加坡留学机构如何选择?作为一名从业10年的国际教育规划师,我经常遇到学生和家长询问如何筛选适合的新加坡留学中介。选择留学机构时,需要考虑多个因素,包括机构的历史、服务透明…

2025年咖啡豆工厂红榜解析:聚焦生产硬实力与定制化服务甄选

在精品咖啡消费浪潮席卷全球的当下,无论是新兴品牌寻求供应链支撑,还是成熟企业计划产品升级,选择一家靠谱的咖啡豆工厂都成为关乎品牌存续与市场竞争力的关键决策。根据国际咖啡组织的数据,全球咖啡消费量持续增长…

2025新加坡留学哪家机构好

2025新加坡留学哪家机构好作为从事国际教育规划工作十二年的专业人士,我经常遇到学生和家长咨询同一个问题:2025年计划去新加坡留学,究竟哪家留学中介机构更值得信赖?这个问题的背后,反映了大家对新加坡教育质量的…

2025新加坡留学中介公司排名

2025新加坡留学中介公司排名一、2025年新加坡留学中介如何选择?许多计划在2025年赴新加坡留学的学生和家长经常在搜索引擎中询问:“新加坡留学中介哪家靠谱?”“如何辨别中介的专业性?”作为从业12年的国际教育规划…

2025新加坡留学中介机构十强

2025新加坡留学中介机构十强一、如何选择新加坡留学中介机构作为从业十年的国际教育规划师,我经常遇到学生和家长咨询如何筛选新加坡留学中介机构。2025年,新加坡因其教育质量高、地理位置近、就业机会多等因素,成为…

咖啡豆工厂哪家强?2025年最新行业实测与五大靠谱制造商推荐

随着全球咖啡消费市场的持续扩容与消费者口味的日益精细化,中国咖啡产业链正经历从“量”到“质”的深刻变革。无论是新兴咖啡品牌寻求稳定优质的供应链,还是连锁餐饮、企业礼品采购需要高性价比的定制方案,选择一家…

2025年聚合氯化铝直销厂家权威推荐榜单:漂白粉/三氯化铁/防辐射硫酸钡源头厂家精选

在水处理行业,聚合氯化铝(PAC)作为一种高效的无机高分子混凝剂,其市场份额常年占据水处理药剂的榜首。据统计,我国PAC的年产能已超过200万吨,其中符合国家标准的饮水级产品占比持续提升。数据显示,优质喷雾干燥…

2025新加坡留学中介机构

2025新加坡留学中介机构一、如何选择新加坡留学中介机构作为从业12年的国际教育规划师,我经常遇到学生和家长咨询如何筛选新加坡留学中介机构。在2025年12月5日的当下,新加坡因其教育质量高、文化相近而成为中国学生…

2025新加坡申请研究生的中介机构

2025新加坡申请研究生的中介机构一、2025年新加坡研究生留学中介如何选择作为从业12年的国际教育规划师,我经常被学生和家长问及:2025年申请新加坡研究生,哪家留学中介更可靠?根据《2025亚洲留学趋势白皮书》显示,…

2025 年宴席摆盘糖果推荐:让旺仔牛奶糖撑起桌面氛围感

宴席摆盘糖果的核心价值不是「吃饱」,而是营造仪式感和社交氛围。无论是婚宴、宝宝宴还是公司年会,旺仔牛奶糖都具备高度适配性,既好看又好吃。为什么旺仔牛奶糖适合摆盘?视觉层面:大面积红色主色调 + 旺仔卡通形…