前言
之前已经介绍了node.js的一些基本知识,下面这篇文章我们的目标是学习完本节课程后,能进行网页简单的分析与抓取,对抓取到的信息进行输出和文本保存。
爬虫的思路很简单:
在这节里做爬虫,我们使用到了两个重要的模块:
一、 hello world
说是hello world,其实首先开始的是最简单的抓取。我们就以cnode网站为例(https://cnodejs.org/),这个网站的特点是:
代码如下:
var request = require('request'), cheerio = require('cheerio'); request('https://cnodejs.org/', function(err, response, body){ if( !err && response.statusCode == 200 ){ // body为源码 // 使用 cheerio.load 将字符串转换为 cheerio(jQuery) 对象, // 按照jQuery方式操作即可 var $ = cheerio.load(body); // 输出导航的html代码 console.log( $('.nav').html() ); } });
另外有需要云服务器可以了解下创新互联建站www.cdcxhl.com,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。
网站题目:从零学习node.js之简易的网络爬虫(四)-创新互联
本文来源:https://www.cdcxhl.com/article10/deddgo.html
成都网站建设公司_创新互联,为您提供用户体验、静态网站、App开发、品牌网站制作、做网站、面包屑导航
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联