Python2 Python3 爬取赶集网租房信息,带源码分析

*之前偶然看了某个腾讯公开课的视频,写的爬取赶集网的租房信息,这几天突然想起来,于是自己分析了一下赶集网的信息,然后自己写了一遍,写完又用用Python3重写了一遍.之中也遇见了少许的坑.记一下.算是一个总结.*

python2 爬取赶集网租房信息与网站分析

  1. 分析目标网站url
  2. 寻找目标标签
  3. 获取,并写入csv文件
#-*- coding: utf-8 -*-
from bs4 import BeautifulSoup
from urlparse import urljoin
import requests
import csvURL = 'http://jn.ganji.com/fang1/o{page}p{price}/'
# 首先最基本的是 jn,ganji.com/fang1 其中jn为济南,也就是我的城市,默认登录后为此
# 而fang1 位租房信息 fang5 为二手房信息,zhaopin 为招聘模块等,我们这次只查找fang1
# 不过这个链接还可以更复杂 
#比如http://jn.ganji.com/fang1/tianqiao/h1o1p1/ 或者
#  http://jn.ganji.com/fang1/tianqiao/b1000e1577/
#    其中h:房型,o页面,p价格区间,其中h,p后的数字与网站相应菜单的排列顺序相对应 
# 而s与e则为对应的自己输入的价格区间
#                          h: house o:page p:price
# jn jinan  fang1 zufang tiaoqiao:tianqiaoqu b:begin 1000  e:end start 1755ADDR = 'http://bj.ganji.com/'
start_page =1
end_page = 5
price =1# 注意wb格式打开写入可能会导致csv文件每次写入前面多一个空格
# 对此你可以参考这篇文章:http://blog.csdn.net/pfm685757/article/details/47806469
with open('info.csv','wb') as f :csv_writer = csv.writer(f,delimiter=',')print 'starting'while start_page<end_page:start_page+=1# 通过分析标签可知我们要获取的标签信息必须要通过多个class确认才能保证唯一性# 之后是获取信息的具体设置print 'get{0}'.format(URL.format(page = start_page,price=price))response = requests.get(URL.format(page = start_page,price=price))html=BeautifulSoup(response.text,'html.parser')house_list = html.select('.f-list > .f-list-item > .f-list-item-wrap')#check house_listif not house_list:print 'No house_list'breakfor house in house_list:house_title = house.select('.title > a')[0].string.encode('utf-8')house_addr = house.select('.address > .area > a')[-1].string.encode('utf-8')house_price = house.select('.info > .price > .num')[0].string.encode('utf-8')house_url = urljoin(ADDR,house.select('.title > a ')[0]['href'])# 写入csv文件csv_writer.writerow([house_title,house_addr,house_price,house_url])print 'ending'

Python3 爬取赶集网i租房信息

要注意的点

  1. urlparse.urljoin 改为urllib.urlparse.urljoin
# python2
from urlparse import urljoin
# Python3
from urllib.parse  import urljoin
  1. Python3中csv对bytes和str两种类型进行了严格区分,open的写入格式应该进行改变wb->w
  2. 设置utf8编码格式
with open('info.csv','w',encoding='utf8') as f :csv_writer = csv.writer(f,delimiter=',')

完整代码如下

#-*- coding: utf-8 -*-
from bs4 import BeautifulSoup
from urllib.parse  import urljoin
import requests
import csvURL = 'http://jn.ganji.com/fang1/o{page}p{price}/'
#                                h: house o:page p:price
#  http://jn.ganji.com/fang1/tianqiao/b1000e1577/
# jn jinan  fang1 zufang tiaoqiao:tianqiaoqu b:begin 1000  e:end start 1755
# fang5 为二手房 zhipin 为 招聘 赶集网的url划分的都很简单,时间充足完全可以获取非常多的信息ADDR = 'http://bj.ganji.com/'
start_page =1
end_page = 5price =1'''
URL = 'http://jn.ganji.com/fang1/h{huxing}o{page}b{beginPrice}e{endPrice}/'
# 选择户型为h1-h5
# 输入价位为 begin or end
price='b1000e2000'# 户型为'''
# 默认为utf8打开,否则会以默认编码GBK写入
with open('info.csv','w',encoding='utf8') as f :csv_writer = csv.writer(f,delimiter=',')print('starting')while start_page<end_page:start_page+=1print('get{0}'.format(URL.format(page = start_page,price=price)))response = requests.get(URL.format(page = start_page,price=price))html=BeautifulSoup(response.text,'html.parser')house_list = html.select('.f-list > .f-list-item > .f-list-item-wrap')#check house_listif not house_list:print('No house_list')breakfor house in house_list:house_title = house.select('.title > a')[0].stringhouse_addr = house.select('.address > .area > a')[-1].stringhouse_price = house.select('.info > .price > .num')[0].stringhouse_url = urljoin(ADDR, house.select('.title > a ')[0]['href'])csv_writer.writerow([house_title,house_addr,house_price,house_url])print('ending')

最后的csv文件展示一下:
赶集网租房信息 csv文件 网络爬虫

转载于:https://www.cnblogs.com/fonttian/p/9162844.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/252827.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

红外热成像技术原理

目前&#xff0c;新的热成像仪主要采用非致冷焦平面阵列技术&#xff0c;集成数万个乃至数十万个信号放大器&#xff0c;将芯片置于光学系统的焦平面上&#xff0c;无须光机扫描系统而取得目标的全景图像&#xff0c;从而大大提高了灵敏度和热分辨率&#xff0c;并进一步地提高…

深度学习简介(一)——卷积神经网络

本文的主要目的&#xff0c;是简单介绍时下流行的深度学习算法的基础知识&#xff0c;本人也看过许多其他教程&#xff0c;感觉其中大部分讲的还是太过深奥&#xff0c;于是便有了写一篇科普文的想法。博主也是现学现卖&#xff0c;文中如有不当之处&#xff0c;请各位指出&…

Jenkins持续集成 之 Jenkins安装

一、安装JDK与TOMCAT8 参考地址&#xff1a; http://ibm.chick.blog.163.com/blog/static/144201610201652811537410/ 二、下载Jenkins安装包 wget http://mirrors.jenkins.io/war/latest/jenkins.war 三、把jenkins.war放到TOMCAT下的webapps 四、启动tomcat并访问 http://10.…

夜视模式,多少猥琐相机假汝之名

一般相机加装一个红外滤光片&#xff0c;就是一个可以用来干猥琐事情的相机了。现在有相机直接把这个功能整合了&#xff0c;它的这个功能叫红外夜视模式&#xff0c;可以拍下黑暗中的物体&#xff0c;当然&#xff0c;也可以透视纺织品和一些其他材质的衣物。这部相机具有500万…

Java中设计模式之单例设计模式-1

单例作用 1 节省内存2 可以避免多种状态导致状态冲突单例的创建步骤 1 私有化构造方法2 私有化声明的属性3 getInstance4 方法需要静态单例分类 1.懒汉式 2.饿汉式 两种单例区别&#xff1a; 饿汉式 线程安全的 懒汉式 线程不安全的 饿汉式&#xff1a; package 设计模式之单…

夜视仪

国民兵所用F-16的驾驶舱&#xff0c;机员配有夜视镜以备观察领空的客机或飞行物体使用夜视镜时看到的影像夜视仪〈night vision device&#xff0c;简称NVD〉&#xff0c;也称夜视镜&#xff0c;是透过光学科技强化黑暗中光源的科技装置&#xff0c;通常用于军事用途。目前在民…

2springboot:快速创建springboot项目

使用IDEA快速创建springboot项目流程&#xff1a; 创建新的项目选择 项目的命名以及包名 需要什么包就导入什么包 进行测试的单元 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-test</artifactId>&…

jQuery导入代码片段并绑定事件

a.html <div><button class"button" >点我达</button> </div> b.html <html> <head><script type"text/javascript" src"./js/jquery-1.0.1.js"></script><meta http-equiv"Content-Ty…

汉邦高科范俊峰:关于透雾摄像机那点事

慧聪安防网讯 生活在北方的人们&#xff0c;隔三差五就和雾霾来一次亲密接触&#xff0c;雾霾对人们的出行和交通有很大的影响&#xff0c;雾霾笼罩之下&#xff0c;人们出行如果闯红灯、车辆违规行驶发生交通事故&#xff0c;交通监控摄像头只能“雾里看花”&#xff0c;透雾摄…

SpringBoot注解大全(转)

原文链接&#xff1a;[springBoot系列]--springBoot注解大全 一、注解(annotations)列表 SpringBootApplication&#xff1a;包含了ComponentScan、Configuration和EnableAutoConfiguration注解。其中ComponentScan让spring Boot扫描到Configuration类并把它加入到程序上下文。…

工业摄像头传感器尺寸与像元尺寸的关系

http://www.mv186.com/show-list.php?id462 在机器自动化行业检测应用中&#xff0c;工业摄像头是必备的硬件&#xff0c;而图像传感器又是工业摄像头中最最关键核心的东西。图像传感器的尺寸&#xff08;靶面大小&#xff09;&#xff0c;往往直接关系到成像的质量。通常来讲…

微信小程序倒计时实现

思路&#xff1a;跟一般js倒计时一样&#xff0c;主要在于this的变相传递。 实现效果&#xff1a; wxml文件部分代码&#xff1a; common.js文件 : 引用页JS文件: PS: 1.在data里初始化时间格式&#xff0c;是避免时间加载的第1秒显示为空白&#xff0c;因为setTimeOut是在1s以…

基于Kubeadm的Flannel分析

Flannel概述 Flannel是将多个不同子网&#xff08;基于主机Node&#xff09;通过被Flannel维护的Overlay网络拼接成为一张大网来实现互联的&#xff0c;通过官方的一张网络拓扑图我们可以对其基本原理一目了然&#xff1a; 值得探讨的是&#xff0c;flannel的这个overlay网络支…

sensor的skipping and binning 模式

1、第一种理解 关于sensor的缩放存在两种模式 binning mode 和skip mode skipping mode 就是把想要的数据采集上来 把其余的数据扔掉 如下所示 column skip 2 row skip 2 留下的就是白色的像素 黑色的像素丢掉。 binning mode 就是把相邻的像素合成一个像素&#xff0c;然后再…

治安卡口摄像机与电警抓拍机之间有什么区别?

接下来小编和大家说说它们有哪些相同和不同的地方&#xff0c;供大家参考。 治安卡口&#xff1a; 卡口摄像机主要是用于城市道路或高速公路出入口、收费站等重点治安监控地段的全天候实时检测与记录收费站、交通或治安检查站等地点。 治安卡口监控系统的前端部分主要由三个单元…

高亮显示QSS文件

转【作者&#xff1a;一去丶二三里 博客地址&#xff1a;http://blog.csdn.net/liang19890820】 简述 语法高亮是文本编辑器用来显示文本的&#xff0c;特别是源代码&#xff0c;根据不同的类别来用不同的颜色和字体显示。这个功能有助于编写结构化的语言&#xff0c;例如&…

智能识别技术对电子警察设备的影响

电子警察是目前交通管理部门用的最多的一种监控管理系统。这类系统与传统安防的监控设备有很大区别&#xff0c;原先的系统只能抓拍车辆图片&#xff0c;准确率又低所以被交通管理部门慢慢的淘汰了&#xff0c;同业兴创这款最新的设备系统&#xff0c;有它一个很优质的特点就是…

交通治安卡口监控系统解决方案

随着社会经济发展、城镇建设速度的加快&#xff0c;流动人口不断增加&#xff0c;城市中人口密度逐渐加大&#xff0c;给城市治安监管带来很大的压力。因此采用高清网络摄像监控系统以科技手段提高执法监督效率&#xff0c;成为有力推进“和谐社会”构建的最有力办法。 同业兴创…

细说shiro之三:在独立应用中使用shiro

官网&#xff1a;https://shiro.apache.org/ 1. 下载在非Web环境的独立应用中使用Shiro时&#xff0c;只需要shiro-core组件。在Maven项目中的依赖配置如下&#xff1a; <dependency><groupId>org.apache.shiro</groupId><artifactId>shiro-core</a…

2、C#基础 - Visual Studio 的版本选择和下载

有句话说&#xff1a;工欲善其事&#xff0c;必先利其器&#xff0c;我不推荐在学习一个语言时使用记事本练习&#xff0c;甚至说相当的排斥。当然了&#xff0c;你也可以选择你自己喜欢的方式。本系列推荐使用的IDE为vs2017 community版&#xff0c;银子不够的同志不用怕&…