爬虫CrawlSpider模板的用法-创新互联

本篇内容介绍了“爬虫Crawl Spider模板的用法”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!

创新互联建站是专业的筠连网站建设公司,筠连接单;提供做网站、成都做网站,网页设计,网站设计,建网站,PHP网站建设等专业做网站服务;采用PHP框架,可快速的进行筠连网站开发网页制作和功能扩展;专业做搜索引擎喜爱的网站,专业的做网站团队,希望更多企业前来合作!

1.Spider模板

  • scrapy默认创建的spider模板就是basic模板,创建spider文件的命令是:scrapy genspider dribbble dribbble.com,查看spider模板的命令是:scrapy genspider --list

  • 在项目中明确指明使用crawl生成模板生成spider的命令是:scrapy genspider -t crawl csdn www.csdn.net

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class CsdnSpider(CrawlSpider):
    name = 'csdn'
    allowed_domains = ['www.csdn.net']
    start_urls = ['https://www.csdn.net/']
    rules = (
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )
    def parse_item(self, response):
        return item

2.CrawlSpider类介绍

  • CrawlSpider是Spider的派生类,目的是对全站信息爬取更加简单,爬取那些具有一定规则网站的常用的爬虫, 它基于Spider并有一些独特属性;

3.rules规则列表

  • 语法:Rule(link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=None),rules是Rule对象的集合,用于匹配目标网站并排除干扰;

  • link_extractor:是一个LinkExtractor对象,其定义了如何从爬取到的页面提取链接;

  • callback:从link_extractor中每获取到链接得到Responses时,会调用参数所指定的值作为回调函数,该回调 函数接收一个response作为其一个参数;

  • cb_kwargs:用于作为**kwargs参数,传递给callback;

  • follow:是一个布尔值,指爬取了之后,是否还继续从该页面提取链接,然后继续爬下去, 默认是False;

  • process_links:指定spider中哪个的函数将会被调用,从link_extractor中获取到链接列表时将会调用该函数 。该方法主要用来过滤;

  • process_request:指定处理函数,根据该Rule提取到的每个Request时,该函数将会被调用,可以对Request进 行处理,该函数必须返回Request或者None;

4.LinkExtractors

  • LinkExtractors 的目的是提取链接,每个LinkExtractor有唯一的公共方法是extract_links(),它接收一个 Response对象,并返回一个scrapy.link.Link对象;

  • Link Extractors要实例化一次,并且 extract_links 方法会根据不同的 response 调用多次提取链接;

主要参数:

  • allow:满足括号中”正则表达式”的值会被提取,如果为空,则全部匹配;

  • deny:与这个正则表达式(或正则表达式列表)不匹配的url一定不提取;

  • allow_domains:会被提取的连接的;

  • deny_domains:一定不会被提取链接的domains;

  • restrict_xpaths:使用xpath表达式,和allow共同作用过滤链接;

5.爬取CSDN的文章, 且提取URL和文章标题

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class DoubanSpider(CrawlSpider):
    name = 'csdn'
    allowed_domains = ['blog.csdn.net']
    start_urls = ['https://blog.csdn.net']
    # 指定链接提取的规律
    rules = (
        # follow:是指爬取了之后,是否还继续从该页面提取链接,然后继续爬下去
        Rule(LinkExtractor(allow=r'.*/article/.*'), callback='parse_item', follow=True),
    )
    def parse_item(self, response):
        print('-'*100)
        print(response.url)
        title = response.css('h2::text').extract()[0]
        print(title)
        print('-' * 100)
        return None

“爬虫Crawl Spider模板的用法”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注创新互联-成都网站建设公司网站,小编将为大家输出更多高质量的实用文章!

网站题目:爬虫CrawlSpider模板的用法-创新互联
转载来源:https://www.cdcxhl.com/article48/hpgep.html

成都网站建设公司_创新互联,为您提供动态网站服务器托管手机网站建设标签优化定制网站网站导航

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

外贸网站制作