TypechoJoeTheme

一生亦木

标签搜索

『nodejs』Crawler 模块

2020-07-08
/
0 评论
/
17 阅读
/
正在检测是否收录...
07/08

Crawler 模块

安装

npm i crawler

示例

var Crawler = require("crawler");
 
// 创建爬虫实例
var c = new Crawler({
    maxConnections : 10,
    // 这将为每个已爬网页面调用
    callback : function (error, res, done) {
        if(error){
            console.log(error);
        }else{
            var $ = res.$;
            // $ 是默认的内容
            // 专为服务器设计的核心jQuery的精益体现
            console.log($("title").text());
        }
        done();
    }
});
 
// 仅排队一个网址,默认回叫
c.queue('http://www.amazon.com');
 
// 排列网址列表
c.queue(['http://www.google.com/','http://www.yahoo.com']);
 
// 使用自定义回调和参数对网址进行排队
c.queue([{
    uri: 'http://parishackers.org/',
    jQuery: false,
 
    // The global callback won't be called
    callback: function (error, res, done) {
        if(error){
            console.log(error);
        }else{
            console.log('Grabbed', res.body.length, 'bytes');
        }
        done();
    }
}]);
 
// 直接将一些HTML代码排队而不抓取(主要是为了测试)
c.queue([{
    html: '<p>This is a <strong>test</strong></p>'
}]);

方法

  • queue 获取网页信息
  • on 设置事件
朗读
赞 · 0
版权属于:

一生亦木

本文链接:

http://blog.onemue.cn/nodejs-crawler-%E6%A8%A1%E5%9D%97.md(转载时请注明本文出处及文章链接)

评论 (0)
本篇文章评论功能已关闭