R语言-Kindle特价书爬榜示例 输出HTML小技巧

20170209更新:

根据回复提示,rvest包更新,原用函数html作废,需改用read_html

并后续amazon网页改版等

因此此文章代码失效!各位可看评论内容了解详情

等以后有空再重写一遍代码,抱歉。果然代码还是放在github上好啊。。。。

----------------------------------

博客总目录:http://www.cnblogs.com/weibaar/p/4507801.html

----

自从买了kindle以后,总是想要定期刷有没有便宜的书,amazon经常有些1元/2元的书打特价,但是每次都去刷那些榜单太麻烦了,而且榜单又不能按照价格排名,捞书有点累

所以自己用R语言的rvest包简单写了一个小程序,让它自动按照不同价格区间把特价书给分出来。

主要看的是kindle新品排行榜和最快畅销榜。

销售爬升最快榜: http://www.amazon.cn/gp/movers-and-shakers/digital-text/

新品榜: http://www.amazon.cn/gp/new-releases/digital-text/

 

不在博客园上阅读时才会看到的,这篇博文归http://www.cnblogs.com/weibaar 所有

仅保证在博客园博客上的排版干净利索还有代码块与图片正确显示,他站请保留作者信息尊重版权啊

需要预先安装data.table / dplyr / rvest包。

代码如下

install.packages("rvest")
install.packages("data.table")
install.packages("dplyr")

 

主要分享点是:

1、Rvest的简单应用实例
2、如何把数据框(data.frame or table) 输出为html文件,即添加html脚本的方法

 

 1 library(rvest)
 2 library(data.table)
 3 library(dplyr)
 4 #这里是导入网址。研究一下amazon的顺序,直接导入就好
 5 id<-1:5
 6 url_increase_fast<-paste0(
 7         "http://www.amazon.cn/gp/movers-and-shakers/digital-text/ref=zg_bsms_digital-text_pg_",
 8         id,
 9         "?ie=UTF8&pg=",
10         id)
11 url_newest<-paste0(
12         "http://www.amazon.cn/gp/new-releases/digital-text/ref=zg_bsnr_digital-text_pg_",
13         id,
14         "?ie=UTF8&pg=",
15         id)
16 url<-c(url_increase_fast,url_newest)
17 #这里编写readdata函数,读取网页内容。里面有些不常用的字段,为了最后导出效果好看,我没全部都导。
18 #有额外需要的可以自己改编,譬如分类啊,好评率啊等等。对我来说,知道价格、书名就够了
19 readdata<-function(i){
20         web<-html(url[i],encoding="UTF-8")
21         title<-web %>% html_nodes("div.zg_title") %>% html_text()
22         title_short<-substr(title,1,20)
23         price<-as.numeric(gsub("","",web %>% html_nodes("div.zg_itemPriceBlock_normal strong.price") %>% html_text()))
24         ranking_movement<-web %>% html_nodes("span.zg_salesMovement") %>% html_text()
25         rank_number<-as.numeric(gsub("\\.","",web %>% html_nodes("span.zg_rankNumber") %>% html_text()))
26         #新书榜里没有销售变动记录,所以记为NA
27         if (length(ranking_movement)==0) {ranking_movement=rep(NA,20)
28                                           rank_number=rep(NA,20)}
29         link<-gsub("\\\n","",web %>% html_nodes("div.zg_title a") %>% html_attr("href"))
30         ASIN<-sapply(strsplit(link,split = "/dp/"),function(e)e[2])
31         img<-web %>% html_nodes("div.zg_itemImage_normal img")  %>% html_attr("src")
32         #这里加上html代码
33         img_link<-paste0("<img src='",img,"'>")
34         title_link<-paste0("<a href='",link,"'>",title_short,"</a>")
35         #合并数据
36         combine<-data.table(img_link,title_link,price,ranking_movement)
37         setnames(combine,c("图像","书名","价格","销售变动"))
38         #以防被封IP,设为5秒跑一次数据。
39         Sys.sleep(5)
40         combine
41 }
42 
43 #做一个循坏开始跑数
44 final<-data.table()
45 for (i in 1:10){
46         final<-rbind(final,readdata(i))
47         print(i)
48 }
49 
50 #这里编写一个函数,把data.table转化为html_table#要点请查看w3school,table页,以<table>开始,表头是<th>,行与行之间是<tr>#主要就是sapply, apply,paste的应用啦……就是把数据框先加<td>,再加<tr>,最后外面套一层<table>
51 transfer_html_table<-function(rawdata){
52         title<-paste0("<th>",names(rawdata),"</th>")
53         content<-sapply(rawdata,function(e)paste0("<td>",e,"</td>"))
54         content<-apply(content,1,function(e) paste0(e,collapse = ""))
55         content<-paste0("<tr>",content,"</tr>")
56         bbb<-c("<table border=1><tr>",title,"</tr>",content,"</table>")
57         bbb
58 }
59 #这里应用transfer_html_table函数,把榜单输出为html表格
60 final_less1<-transfer_html_table(rawdata=final %>% filter(价格<=1))
61 write(final_less1,"~//Kindle-低于1元特价书.html")
62 
63 
64 final_1_2<-transfer_html_table(rawdata=final %>% filter(价格>1 & 价格<=2))
65 write(final_1_2,"~//Kindle_1-2元特价书.html")
66 
67 final_2_5<-transfer_html_table(rawdata=final %>% filter(价格>2 & 价格<=5))
68 write(final_2_5,"~//Kindle_2-5元特价书.html")

 

 

 

最后在我的文档("~//"表示定位到我的文档那里)会找到三个HTML文件,打开来,大概长下面这个样子,于是就可以很愉悦得选书了。Kindle时不时会把一些好书1元贱卖的~~所以有了kindle经常手贱,有这个小脚本之后我觉得我会更加手贱买书了。。。

 

如果大家有兴趣,还可以去搜一下R语言批处理、自动运行等文章来看,把这个代码设为定期跑一下,然后让结果能够累计保存。那么以后就知道kindle商城在什么时候调价最多了。 amazon还是比较容易爬虫的,它html页面内代码很规范整洁,除了在产品详情页里,产品描述(product description)总是被脚本保护起来,比较难爬。

不在博客园上阅读时才会看到的,这篇博文归http://www.cnblogs.com/weibaar 所有

仅保证在博客园博客上的排版干净利索还有代码块与图片正确显示,他站请保留作者信息尊重版权啊

 

以及最近开始学python了!

大牛分享了一个很好用的python IDE,叫做ANACONDA,里面那个spyder的IDE真的做的很棒~~跟rstudio有的一拼~ 而且ANACONDA集成了python 2.7,都不用单独下python了~~

然后github上有两个教程写的还蛮不错的

1、 python入门

https://github.com/qiwsir/StarterLearningPython

2、python爬虫101个示例(基于python 3)

https://github.com/compjour/search-script-scrape

转载于:https://www.cnblogs.com/weibaar/p/4824578.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/405032.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【原创】指针和下标的10条对比

【原创】指针和下标的10条对比摘要&#xff1a;在编程语言中&#xff0c;指针和下标都是访问数据的有效手段&#xff0c;本文以C/C语言为例&#xff0c;讲解它们之间的区别。要想完全理解本文&#xff0c;读者可能需要&#xff1a;1.至少熟悉一门含有指针和下标语义的编程语言值…

[react] constructor和getInitialState有不同?

[react] constructor和getInitialState有不同&#xff1f; constructor用在class组件中getInitialState用在createReactClass实现的组件中 个人简介 我是歌谣&#xff0c;欢迎和大家一起交流前后端知识。放弃很容易&#xff0c; 但坚持一定很酷。欢迎大家一起讨论 主目录 与…

求数组中数对的最大值

题目&#xff1a; 在数组中&#xff0c;每个数字减去它右边的所有数字得到一个数对之差。求所有数对之差的最大值。 例如在数组{2, 4, 1, 16, 7, 5, 11, 9}中&#xff0c;数对之差的最大值是9&#xff0c;是16减去5的结果。 分析&#xff1a; 要使 a-b要最大&#xff0c;只有…

工业RS485接口电路设计

1、电路芯片 485芯片有很多种&#xff0c;项目中用的比较多的是高速SP3485。满足RS-485和RS-422串行协议的要求&#xff0c;兼容工业标准规范&#xff0c;数据传输速率可高达10Mbps&#xff08;带负载&#xff09;。 2、工业设计 485需要做防雷考虑、瞬态过电压抑制、阻抗匹配…

读《大道至简》有感

编程序从一开始到现在给我是“斩不断&#xff0c;理还乱”的感觉&#xff0c;有时候真的对着一个程序一点头绪都没有&#xff0c;不知该如何下手。 在两千年前的寓言故事《愚公移山》中&#xff0c;已在无形中成就了一名工程师&#xff1a;愚公。他在移山之前都有详细的计划&am…

处理局域网网速变慢问题的几个思路

在一些企业中&#xff0c;我们会构建自己的内部局域网。然而&#xff0c;有的时候会出现局域网网速变慢的情况。一个刚建的小型局域网&#xff0c;一台服务器&#xff0c;十几台工作站&#xff0c;使用一台交换机作为接入设备&#xff0c;连接线路为6类线。主要故障表现为网内计…

int a[5]={}, a+1与(int*)a+1的区别

/*int a[5]{}, &a1与(int*)a1的区别 */ #include <stdio.h>int main() {int b, *pb;char *pb2;pb &b 1;pb2 (char*)&b sizeof(b);printf("&b%#x, pb%#x, pb2%#x\n", &b, pb, pb2);printf("Equal%d\n", (void*)pb (void*)p…

[react] 装饰器(Decorator)在React中有什么应用?

[react] 装饰器(Decorator)在React中有什么应用&#xff1f; connect、withRouter&#xff0c;等类似的高阶组件都可以用装饰器来使用 个人简介 我是歌谣&#xff0c;欢迎和大家一起交流前后端知识。放弃很容易&#xff0c; 但坚持一定很酷。欢迎大家一起讨论 主目录 与歌谣…

MyBatis学习笔记(一)——MyBatis快速入门

转自孤傲苍狼的博客&#xff1a;http://www.cnblogs.com/xdp-gacl/p/4261895.html 一、Mybatis介绍 MyBatis是一个支持普通SQL查询&#xff0c;存储过程和高级映射的优秀持久层框架。MyBatis消除了几乎所有的JDBC代码和参数的手工设置以及对结果集的检索封装。MyBatis可以使用简…

一个USB HUB电路分享

1、USB HUB 当USB接口不够用的时候&#xff0c;可以采用USB HUB电路进行扩展&#xff0c;将一个USB接口扩展为多个&#xff0c;并可以使这些接口同时使用的装置。USB HUB根据所属USB协议可分为USB2.0 HUB、USB3.0 HUB与USB3.1 HUB。 选用的USB HUB芯片为 USB2514B. 参考文档&…

自言自语(2011.8.1)

我就喜欢在夜里听想清幽的曲子&#xff0c;边听边在回忆和遐想。 说说近期的心得吧。 1 做事还是很急&#xff0c;一点不像职场老手。对事情考虑的不足&#xff0c;做完了没有留下点什么&#xff0c;没有系统性的规化&#xff0c;以至于用的时候还要再现去找。很是麻烦。 2 不够…

[react] React Fiber它的目的是解决什么问题?

[react] React Fiber它的目的是解决什么问题&#xff1f; 我个人的理解&#xff1a; React 15 的 StackReconciler 方案由于递归不可中断问题&#xff0c;如果 Diff 时间过长&#xff08;JS计算时间&#xff09;&#xff0c;会造成页面 UI 的无响应&#xff08;比如输入框&…

Fedora 17删除旧内核的操作

From: http://linux.chinaitlab.com/administer/904852.html 由于Fedora更新升级非常的频繁&#xff0c;所以非常有必要清除陈旧的内核&#xff0c;方法如下&#xff1a; 1. 查看当前系统中已安装的内核相关包&#xff1a; [rootlocalhost mint]# rpm -qa|grep kernel kernel…

围魏救赵

初&#xff0c;孙膑与庞涓俱学兵法&#xff0c;庞涓仕魏为将军&#xff0c;自以能不及孙膑&#xff0c;乃召之&#xff1b;至&#xff0c;则以法断其两足而黥之&#xff0c;欲使终身废弃。齐使者至魏&#xff0c;孙膑以刑徒阴见&#xff0c;说齐使者&#xff1b;齐使者窃载与之…

高压断路器故障诊断的相关方法

一、综述 高压断路器机械故障诊断方法综述_关永刚 二、参考文献 断路器的机械振动信号小波去噪技术研究_罗光鸿高压断路器分合闸线圈电流采集实验平台与故障模拟实验研究_彭在兴混合布谷鸟算法在高压断路器故障诊断上的应用_徐其丹基于Kohonen网络的高压断路器机械故障识别方…

[react] 如何用React实现滚动动画?

[react] 如何用React实现滚动动画&#xff1f; 简单的用CssTransitionGroup插件 &#xff0c;想自己搞就 用css3 动画结束后执行&#xff0c;setState&#xff0c;滚动用requestAnimFrame 效果更佳。点击事件内增加 位置判断&#xff0c;没到就 requestAnimFrame&#xff0c;到…

使用sql语句创建和删除约束示例代码

使用sql语句创建和删除约束 约束类型 主键约束&#xff08;Primary Key constraint&#xff09; --&#xff1a;要求主键列数据唯一&#xff0c;并且不允许为空。 唯一约束&#xff08;Unique constraint&#xff09; --&#xff1a;要求该列唯一&#xff0c;允许为空&#x…

RIP、 OSPF、 EIGRP的区别

我们前面已经简单介绍了三种类型的动态路由协议算法分别是距离矢量算法&#xff0c;链路状态算法以及平衡混合算法&#xff0c;那么咱们今天就来看看这几种算法的类型代表&#xff1a;RIP、OSPF、EIGRP。而且它们都是内部网关协议&#xff08;IGP&#xff09;&#xff0c;也就是…

数独设计(4)

经过了前两天的设置后&#xff0c;我们就可以再View类中&#xff0c;进行游戏的布置&#xff0c;和进行操作了。 package com.mars.demo;import android.content.Context; import android.graphics.Canvas; import android.graphics.Color; import android.graphics.Paint; imp…

[react] 使用高阶组件(HOC)实现一个loading组件

[react] 使用高阶组件(HOC)实现一个loading组件 function HOC(wrappedComponent) {return class extends React.Component {render() {if(!this.props.data) {return (<div>loading</div> )}return <wrappedComponent {...this.props}/>}} } 个人简介 我是…