node.js简单爬虫

这里假设你已经安装好node.js和npm,如果没有安装,请参阅其他教程安装。

  • 配置
    首先是来配置package.json文件,这里使用express,request和cheerio。

package.json如下:

{"name": "node-scrape","version": "0.0.1","description": "Scrape","main": "server.js","dependencies": {"express" : "latest","request" : "latest","cheerio" : "latest"}
}
  • npm 安装
    把package.json文件放到一个你自己定义的文件夹(nodejs_scrape)下,然后在命令行下执行

cd nodejs_scrape
npm install
  • 抓取内容
    在nodejs_scrape目录下新建一个server.js文件,先定义如下变量的和方法

var express = require('express');
var fs = require('fs');
var request = require('request');
var cheerio = require('cheerio');
var app = express();app.get('/',function (req,res) {//抓取内容的方法
});app.listen('8081'); //使用8081端口console.log('Magic happens on port 8081');exports = module.exports = app;

下面我们就来完善get方法的内容
首先定义要抓取的url,这里以segmentfault为例

url  = 'https://segmentfault.com/news';

页面如下面所示,点击F12查看,我们就提取最简单的 class="mr10" 这个标签
图片描述

抓取内容的方法如下

 request(url, function (err,res,html) {if (!err){ var $ = cheerio.load(html);var title;$('.mr10').filter(function () {var data = $(this);title = data.text(); //获取标签的内容console.log('title is ' + title); //控制台打印});}});

server.js完整代码如下

/*** Created by Administrator on 2017/3/1.*/
var express = require('express');
var fs = require('fs');
var request = require('request');
var cheerio = require('cheerio');
var app = express();app.get('/',function (req,res) {//all scrape magic will happen hereurl  = 'https://segmentfault.com/news';request(url, function (err,res,html) {if (!err){var $ = cheerio.load(html);var title;$('.mr10').filter(function () {var data = $(this);title = data.text();console.log('title is ' + title);});}});});app.listen('8081');console.log('Magic happens on port 8081');exports = module.exports = app;
  • 运行
    在nodejs_scrape目录下运行 node server ,可以看到如下所示

图片描述

在浏览器运行http://127.0.0.1:8081/,可以看到抓取的内容如下:

抓取的标题

这样我们就完成了一个简单到不能再简单的node.js爬虫。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/457084.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Struts2入门(二)——配置拦截器

一、前言 之前便了解过,Struts 2的核心控制器是一个Filter过滤器,负责拦截所有的用户请求,当用户请求发送过来时,会去检测struts.xml是否存在这个action,如果存在,服务器便会自动帮我们跳转到指定的处理类中…

linux固态机械分区吗,不再疑惑!实测数据后才知道固态硬盘究竟要不要分区

不再疑惑!实测数据后才知道固态硬盘究竟要不要分区2019-12-10 20:52:00162点赞594收藏177评论前几年的固态硬盘价格昂贵,一般用户会选择128G或256G的固态作为系统盘,由于单盘空间不大,一般都会配合机械硬盘使用,无需考…

安卓手机的后门控制工具SPADE

SPADE,一款安卓手机的后门控制工具,安全研究人员可以以此了解和研究安卓后门原理。 首先,我们从网站www.apk4fun.com下载apk文件,如ccleaner。然后,我们安装spade git clone https://github.com/suraj-root/spade.git …

MySQL案例-open too many files,MyISAM与partition

-------------------------------------------------------------------------------------------------短文---------------------------------------------------------------------------------------------------------------长话短说~现象: error log中批量刷错误日志, 形…

linux网卡有很多error,教你设置win7系统虚拟机安装linux提示network error的解决方法...

很多朋友在使用电脑的过程中,会发现win7系统虚拟机安装linux提示network error的现象,当遇到win7系统虚拟机安装linux提示network error的问题,我们要怎么解决呢?如今还有很多用户不知道如何处理win7系统虚拟机安装linux提示netwo…

linux模拟网络延迟,使用Nistnet搭建网络延迟模拟设备 (network delay simulator)

mknod /dev/hitbox c 62 0mknod /dev/nistnet c 62 1chown root /dev/hitboxchown root /dev/nistnetmknod /dev/mungebox c 63 0chown root /dev/mungeboxmknod /dev/spybox c 64 0chown root /dev/spyboxmodprobe nistnet可以将这个放到/etc/rc.local中,以便重启后…

将本地Blog部署到GitHub上,有自己的博客页面!

前言 上一篇文章我们已经把本地的hexo环境搭建好了,并且在本地成功预览,但是本地预览也意味着自己的博文只能自己看的到,其他人根本看不到,这篇文章将接上文说一说如何把本地Blog部署到GitHub上,好让小伙伴可以来访问我…

Linux下安装配置JDK

本人使用的VM虚拟机,在VM上安装了Linux,版本是CentOS-6.7-i386-bin-DVD1.iso。 一、下载JDK 在进入JDK官网,找到要下载的JDK版本,将下载地址复制下来,放到迅雷中下载,我下载的是:http://downloa…

新手使用GitHub客户端提交项目的步骤

1.下载https://windows.github.com/ github客户端 2.安装完github,会出现 点击GitHub,Git Shell是命令行指令,暂时用不上 3.点击进入之后 输入你在https://github.com上面注册的用户名和密码点击log in 4.登录之后新建项目 点击左上角…

linux的命令uname n,Linux下uname命令及其选项

Linux下uname命令及其选项2017-03-15 23:22:26晓得了Linux系统的用户信息后,你也可能想晓得所登录的系统信息,今日就绍介获取系统本身信息的命令uname,这搭u应当是UNIX的缩写,操作如次:uname使役uname还可以得到其它相关系统的信息…

火狐浏览器Firefox如何使用插件,火狐有哪些好用的插件

1 CoorPreviews 不打开网页链接预览该网页的内容。 预览如图所示: 点击关闭旁边的钉子可以让该窗口保持开着并且浏览速度加快。这对于快速浏览图片时非常有用。 2 FoxTab 3D方式预览网页,只要按一下输入框左侧按钮即可。 此外还提供多种预览模式和其…

GitHub+Hexo搭建自己的Blog之-主题配置

前言 前两章我们已经把Blog的环境全部搭建完毕了,但是还没有内容,而且hexo默认的主题是不是感觉挺丑的,其实hexo给我们提供了很多主题模板,总有一款是你喜欢的,本篇文章将继续说一说如何配置主题,怎么创建博…

开源app之MyHearts

前言 这个月,说实话,有忙有闲,经历了一次病痛的洗礼,才认识到了只有好好的生活,认真的对待自己的身体,才能更好的去工作,没有了身体的支撑,什么工作都只能是纸老虎,不攻自…

前端那些事之原生 js实现贪吃蛇篇

2019独角兽企业重金招聘Python工程师标准>>> 原生js实现贪吃蛇 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><title>贪吃蛇游戏</title><style>body, div, img {margin: 0 auto;pa…

整理一些完全免费开放的API接口

前言 在开发测试阶段&#xff0c;或者是在写Demo的时候&#xff0c;难免会用到一些测试数据&#xff0c;有时苦于没有可用的接口&#xff0c;需要自己动手去写&#xff0c;但是这样大大降低了效率&#xff0c;前期我也找了一些开放的接口&#xff0c;这篇文章整理一下&#xff…

如何发现优秀的开源项目?

之前发过一系列有关 GitHub 的文章&#xff0c;有同学问了&#xff0c;GitHub 我大概了解了&#xff0c;Git 也差不多会使用了&#xff0c;但是 还是搞不清 GitHub 如何帮助我的工作&#xff0c;怎么提升我的工作效率&#xff1f; 问到点子上了&#xff0c;GitHub 其中一个最重…

自已开发完美的触摸屏网页版仿app弹窗型滚动列表选择器/日期选择器

手机端网页版app在使用下拉列表时&#xff0c;传统的下拉列表使用起来体验非常不好&#xff0c;一般做的稍好一点的交互功能界面都不会直接使用下拉列表&#xff0c;所以app的原生下拉列表都是弹窗列表选择&#xff0c;网页型app从使用体验上来当然也应该做成那样&#xff0c;前…

一个 js 中值传递和引用传递的坑。

今天在调试代码时遇到一个问题&#xff0c;刚开始想不明白&#xff0c;然后分析了一下后&#xff0c;才知道其中的问题&#xff0c;这也是一个基础的问题&#xff0c;&#xff08;所以基础是很重要的&#xff09; 代码如下&#xff1a; var a 3; a a * 2; console.log(a); //…

关于在用异步消息处理机制使用Message.Obtain()方法(而非New Message)获得一个Message对象的好处

类概述 定义一个包含任意类型的描述数据对象&#xff0c;此对象可以发送给Handler。对象包含两个额外的int字段和一个额外的对象字段&#xff0c;这样可以使得在很多情况下不用做分配工作。 尽管Message的构造器是公开的&#xff0c;但是获取Message对象的最好方法是调用Messag…

python编程中的if __name__ == 'main': 的作用和原理

大多数编排得好一点的脚本或者程序里面都有这段if __name__ main: &#xff0c;虽然一直知道他的作用&#xff0c;但是一直比较模糊&#xff0c;收集资料详细理解之后与打架分享。 1、这段代码的功能 一个python的文件有两种使用的方法&#xff0c;第一是直接作为脚本执行&…