• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录

cynchanpin

  • 博客园
  • 联系
  • 订阅
  • 管理

View Post

NodeJs编写小爬虫


一,爬虫及Robots协议


          爬虫,是一种自己主动获取网页内容的程序。

是搜索引擎的重要组成部分,因此搜索引擎优化非常大程度上就是针对爬虫而做出的优化。

    

          robots.txt是一个文本文件。robots是一个协议,而不是一个命令。robots.txt是爬虫要查看的第一个文件。robots.txt文件告诉爬虫在server上什么文件是能够被查看的。搜索机器人就会依照该文件里的内容来确定訪问的范围。

           

          



     如上图,我们能够在站点中直接訪问robots.txt文件查看站点禁止訪问和同意訪问的文件。


二,使用NodeJs爬去网页须要安装的模块


Express

       Express 是一个基于 Node.js 平台的极简、灵活的 web 应用开发框架。它提供一系列强大的特性。帮助你创建各种 Web 和移动设备应用。

        中文API:http://www.expressjs.com.cn/


Request

       简化了http请求。

       API:https://www.npmjs.com/package/request


Cheerio

        以一种相似JQ的方式处理爬取到的网页。

        API:https://www.npmjs.com/package/cheerio



这三个模块在安装NodeJs 之后,能够使用npm命令进行安装。


三,简单爬取网页演示样例

var express = require('express');
var app = express();
var request = require('request');
var cheerio = require('cheerio');
app.get('/', function(req, res){
    request('http://blog.csdn.net/lhc1105', function (error, response, body) {
      if (!error && response.statusCode == 200) {
        $ = cheerio.load(body);//当前的$,它是拿到了整个body的前端选择器
      console.log($('.user_name').text()); //我博客的获取username
      }else{
         console.log("思密达,没爬取到username,再来一次");
      }
})
});
app.listen(3000);

之后,




然后在浏览器中訪问:http://localhost:3000/。就能看到输出的username。



感觉比python爬取方便点儿,主要是对网页元素解析上,省去了非常多正則表達式。


     by the way ,新年快乐~~~







posted on 2017-08-01 18:24  cynchanpin  阅读(161)  评论(0)    收藏  举报

刷新页面返回顶部
 
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3