手机兼职在哪个网站做装修队伍做网站

diannao/2026/1/23 23:53:52/文章来源:

手机兼职在哪个网站做,装修队伍做网站,建设新闻博客类网站要多大空间,怎样把网站做的好看文章目录写在前面实验描述实验框架实验需求实验内容1.安装依赖库2.创建Scrapy项目3.配置系统设置4.配置管道文件5.连接数据库6.分析要爬取的内容7.编写爬虫文件运行结果写在后面写在前面本期内容#xff1a;基于scrapymysql爬取博客信息并保存到数据库中实验需求 ana… 文章目录写在前面实验描述实验框架实验需求实验内容1.安装依赖库2.创建Scrapy项目3.配置系统设置4.配置管道文件5.连接数据库6.分析要爬取的内容7.编写爬虫文件运行结果写在后面写在前面本期内容基于scrapymysql爬取博客信息并保存到数据库中实验需求 anaconda丨pycharmpython3.11.4scrapymysql 项目下载地址https://download.csdn.net/download/m0_68111267/88740730 实验描述本次实验实现了使用Scrapy框架爬取博客专栏的目录信息并保存到MySQL数据库中实验主要涉及到Python的爬虫技术以及MySQL的基本操作需要有一定的基础。实验框架 Scrapy 实验需求 Scrapy Scrapy是一个基于Python的开源网络爬虫框架用于快速、高效地获取网页数据。它具有强大的抓取能力支持多线程和分布式爬虫能够并行爬取多个网页。Scrapy提供了方便的API和丰富的功能可以自定义爬虫规则和处理流程支持数据的持久化存储和导出。它还提供了可视化的调试工具和强大的反爬虫策略可以帮助开发者更轻松地构建和管理网络爬虫。Scrapy是一个成熟、稳定和广泛应用的爬虫框架被广泛用于数据抓取、搜索引擎和大数据分析等领域。MySQL MySQL是一个开源的关系型数据库管理系统由Oracle Corporation开发和维护。它具有高性能、可靠性和稳定性能够在各种不同规模的应用中存储和管理大量的数据。MySQL使用SQL语言进行数据操作和查询支持多用户并发操作和事务处理提供了丰富的功能和灵活的配置选项。它可以在多种操作系统上运行并且与多种编程语言和开发工具兼容。MySQL被广泛应用于Web应用、企业级应用和大数据分析等领域。实验内容 1.安装依赖库本次实验需要安装scrapy库如果没有scrapy库的话可以运行下面的命令进行安装哦~ pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy2.创建Scrapy项目在终端输入以下命令可以创建一个scrapy项目 scrapy startproject myblog项目框架如下此时你们应该没有db.py和sp_blogs.py文件 spidersspiders 文件夹是 Scrapy 框架中存放爬虫代码的目录。在 spiders 文件夹中会包含一个或多个 Python 文件每个 Python 文件代表一个独立的爬虫。每个爬虫文件都需要继承自 Scrapy 的 Spider 类并定义爬虫的名称、起始 URL、解析页面的方法等。在爬虫文件中还可以定义一些其他的属性和方法来实现对网页的抓取和解析。Scrapy 框架通过读取 spiders 文件夹中的爬虫文件来识别和启动爬虫。在运行爬虫时可以指定要运行的爬虫名称Scrapy 将会找到对应的爬虫文件并执行相应的代码。spiders 文件夹是 Scrapy 爬虫的核心部分开发者可以根据需要在该文件夹下创建多个爬虫文件以支持同时抓取和解析多个网站。items.pyitems.py文件是Scrapy框架中用于定义数据模型的文件用于指定爬取的数据结构。它定义了爬虫需要爬取和保存的数据字段类似于数据库表的结构方便数据的提取和存储。在items.py文件中使用Python的类来定义数据模型每个类的属性对应一个需要爬取和保存的字段。middlewares.pymiddlewares.py文件是Scrapy框架中用于处理请求和响应的中间件文件。中间件是Scrapy框架的一个重要组成部分用于对请求进行预处理、对响应进行处理或者是处理异常情况。middlewares.py文件中定义了多个中间件类每个中间件类都有特定的功能例如设置请求头、代理设置、处理重定向等。通过在settings.py中配置中间件的顺序Scrapy框架会按照顺序依次使用不同的中间件对请求和响应进行处理。pipelines.pypipelines.py文件是Scrapy框架中用于处理数据的管道文件。在Scrapy中管道是一个用于处理爬取到的数据的组件可以对数据进行清洗、验证、存储或者是发送到其他系统。pipelines.py文件中定义了多个管道类每个管道类都有特定的功能例如将数据存储到数据库、写入文件、发送邮件等。通过在settings.py中配置管道的优先级Scrapy框架会按照优先级顺序依次使用不同的管道对爬取到的数据进行处理。settings.pysettings.py 文件是 Scrapy 框架中的配置文件用于管理和配置爬虫的各种设置选项。在 settings.py 文件中可以设置爬虫的名称、启用或禁用的中间件、管道、下载器、并发请求数、延迟、日志级别等。settings.py 文件包含了许多可配置的选项可以根据实际需求进行调整。通过修改 settings.py 文件可以改变爬虫的行为并对其进行个性化定制。此外settings.py 文件还提供了一些默认的全局配置选项这些选项可以决定爬虫的运行方式和输出结果。在终端输入以下命令创建爬虫文件 scrapy genspider sp_blogs https://want595.blog.csdn.net/category_12039968_1.html该命令将使用Scrapy生成一个名为sp_blogs的爬虫并将爬虫的起始URL设置为https://want595.blog.csdn.net/category_12039968_1.html。本次实验需要爬取的就是这个专栏的目录输入完这个命令后在spiders的目录下就会出现sp_blogs.py这个文件啦~ 3.配置系统设置打开settings.py文件配置系统设置 4.配置管道文件 pipelines.py文件主要用于编写代码处理爬取的数据例如存放到文件中数据库中等等 # Define your item pipelines here # # Dont forget to add your pipeline to the ITEM_PIPELINES setting # See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html# useful for handling different item types with a single interface import pymysql from twisted.enterprise import adbapiclass MyblogPipeline:def __init__(self, dbpool):self.dbpool dbpoolclassmethoddef from_settings(cls, settings):dbparams dict(hostsettings[MYSQL_HOST], # 读取settings中的配置dbsettings[MYSQL_DBNAME],usersettings[MYSQL_USER],passwdsettings[MYSQL_PASSWD],charsetutf8, # 编码要加上否则可能出现中文乱码问题cursorclasspymysql.cursors.DictCursor,use_unicodeFalse,)dbpool adbapi.ConnectionPool(pymysql, **dbparams) # **表示将字典扩展为关键字参数,相当于hostxxx,dbyyy....return cls(dbpool) # 相当于dbpool付给了这个类self中可以得到# pipeline默认调用def process_item(self, item, spider):query self.dbpool.runInteraction(self.insert, item) # 调用插入的方法query.addErrback(self.error, item, spider) # 调用异常处理方法return item# 写入数据库中def insert(self, db, item):# print item[name]sql insert ignore into blogs(title,url) values(%s,%s)params (item[name], item[url])db.execute(sql, params)# 错误处理方法def error(self, failue, item, spider):print(failue)该代码是一个Twisted框架下的MySQL数据库存储的Pipeline。Twisted是一个事件驱动的网络框架使用异步的方式处理网络请求。该代码中的MyblogPipeline类继承自object类并且实现了__init__、from_settings、process_item、insert和error方法。 __init__方法初始化了一个数据库连接池dbpool并将其赋值给self.dbpool。 from_settings方法从配置文件中读取数据库的相关配置信息并利用这些信息创建一个数据库连接池dbpool。 process_item方法是Pipeline默认调用的方法用于处理item并存储到数据库中。在该方法中首先调用self.dbpool.runInteraction()方法创建一个操作数据库的事务并调用self.insert方法将item插入到数据库中。然后通过addErrback方法添加了一个异常处理方法self.error。 insert方法接收两个参数一个是数据库连接对象db一个是item。在该方法中定义了一个SQL语句和参数并通过db.execute()方法执行了数据库插入操作。 error方法用于处理插入数据库时的异常情况将异常信息打印出来。总体而言该代码实现了将爬取的数据存储到MySQL数据库中的功能。 5.连接数据库新建一个db.py文件输入以下代码连接到本地数据库运行后创建一个表用于保存等会爬取的数据。 import pymysql from scrapy.utils.project import get_project_settings # 导入seetings配置class DBHelper:def __init__(self):self.settings get_project_settings() # 获取settings配置设置需要的信息self.host self.settings[MYSQL_HOST]self.port self.settings[MYSQL_PORT]self.user self.settings[MYSQL_USER]self.passwd self.settings[MYSQL_PASSWD]self.db self.settings[MYSQL_DBNAME]# 连接到具体的数据库settings中设置的MYSQL_DBNAMEdef connectDatabase(self):conn pymysql.connect(hostself.host,portself.port,userself.user,passwdself.passwd,dbself.db,charsetutf8) # 要指定编码否则中文可能乱码return conn# 创建表def createTable(self, sql):conn self.connectDatabase()cur conn.cursor()try:cur.execute(sql)cur.close()conn.close()print(创建表成功)except:print(创建表失败)pass# 插入数据def insert(self, sql, *params): # 注意这里params要加*,因为传递过来的是元组*表示参数个数不定conn self.connectDatabase()cur conn.cursor();cur.execute(sql, params)conn.commit() # 注意要commitcur.close()conn.close()if __name__ __main__:dbHelper DBHelper()sql create table pictures(id int primary key auto_increment,name varchar(50) unique,url varchar(200))dbHelper.createTable(sql)这段代码是一个用于操作MySQL数据库的助手类。它使用了Scrapy框架的get_project_settings函数来获取配置信息然后根据配置信息连接到数据库。在初始化方法中它获取到了MySQL数据库的主机地址、端口号、用户名、密码和数据库名并保存在实例变量中。 connectDatabase方法用于连接到具体的数据库并返回一个数据库连接对象。 createTable方法用于创建表它接受一个SQL语句作为参数使用数据库连接对象执行SQL语句来创建表。 insert方法用于插入数据它接受一个SQL语句和参数作为参数使用数据库连接对象执行SQL语句来插入数据。最后在主函数中创建了一个DBHelper对象并调用createTable方法来创建一个名为pictures的表。 6.分析要爬取的内容本实验要爬取的是博客专栏的目录信息 7.编写爬虫文件编写spiders目录下的sp_blogs.py文件实现博客信息的爬取 import scrapy from scrapy import Selector, cmdlineclass MyblogItem(scrapy.Item):name scrapy.Field()url scrapy.Field()class SpBlogsSpider(scrapy.Spider):name sp_blogsallowed_domains [want595.blog.csdn.net]……请下载后查看完整代码哦这段代码是一个基于Scrapy框架的爬虫用于爬取一个博客网站的文章标题和链接。首先定义了一个MyblogItem类它继承自scrapy.Item并定义了两个字段name和url用于保存文章的标题和链接。然后定义了一个SpBlogsSpider类它继承自scrapy.Spider表示一个具体的爬虫。在SpBlogsSpider类中指定了爬虫的名字为sp_blogs指定了允许爬取的域名为want595.blog.csdn.net并指定了要爬取的起始URL。起始URL使用了一个循环生成器生成了多个URL用于爬取多页的数据。 parse方法是默认的回调方法在爬取网页的响应返回后自动被调用。在parse方法中使用Selector对象对响应进行了解析提取出了文章的标题和链接并将它们保存到MyblogItem对象中然后通过yield返回给引擎。最后通过调用cmdline.execute函数来执行爬虫。执行时会根据给定的参数调用对应的爬虫。在这里使用scrapy crawl sp_blogs参数来执行sp_blogs爬虫。也可以在终端项目的根目录下运行scrapy crawl sp_blogs命令来执行爬虫。运行结果爬取的博客信息如下写在后面我是一只有趣的兔子感谢你的喜欢

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/88843.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！