小白的python爬虫，40代码教你爬取豆瓣小说-创新互联

这篇文章写了很久了，一直没有发布；
爬虫学的差不多了，觉得这篇文章对新手实践还是有些作用的。毕竟这也是我刚学爬虫的时候练习的，爬取了比较好爬的网站，也比较经典；多余的解释不说了，代码里每一行都有注释，解释的很清楚；
后续有时间的话还会发布一些爬虫文章的；

创新互联专注于成都网站建设、网站建设、网页设计、网站制作、网站开发。公司秉持“客户至上,用心服务”的宗旨,从客户的利益和观点出发,让客户在网络营销中找到自己的驻足之地。尊重和关怀每一位客户，用严谨的态度对待客户，用专业的服务创造价值，成为客户值得信赖的朋友，为客户解除后顾之忧。

=============================================

直接上代码：

import requests
from bs4 import BeautifulSoup
from lxml import etree
#抓取豆瓣小说的 书名、评分；

page = 0            #定义页数初始值；
lists_book = []     #定义书名列表；
lists_grade = []    #定义评分的列表；
for u in range(0,20):   #循环20次，每一次循环爬取一页，即：抓取20页；
    basic_url = 'https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4?start=' + str(page) + '&type=T'
    page += 20      #每循环一次 +20，适应链接变化；

    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
    }
    #发送请求
    response = requests.get(basic_url, headers=headers, timeout=10)     #requests请求；
    response.encoding = 'utf-8'     #设置编码
    htm = response.text     #返回text文本；

    #解析请求
    selector = etree.HTML(htm)      #利用 etree.HTML 初始化
    book_name = selector.xpath('//*[@id="subject_list"]/ul/li/div[2]/h3/a/text()')  #获取书名
    grade = selector.xpath('//*[@id="subject_list"]/ul/li/div[2]/div[2]/span[2]/text()')    #获取评分；

    #将书名存入到lists_book列表；
    for i in book_name:
        lists_book.append(i.strip())     #去除字符串空格，存入列表；
        while '' in lists_book:      #如果列表中有空元素，则删除空元素；
            lists_book.remove('')
    #将评分存入到lists_grade列表；
    for i in grade:
        lists_grade.append(i.strip())     #去除字符串空格，存入列表；
        while '' in lists_grade:      #如果列表中有空元素，则删除空元素；
            lists_grade.remove('')

print(lists_book)           #输出爬取的书名列表；
print(len(lists_book))      #输出列表的长度，即：爬取了多少本书
print(lists_grade)          #输出评分的列表；
print(len(lists_grade))     #输出评分列表的长度；为了和书的数目核对，防止偏差；
print("评分高: "+ str(max(lists_grade)) + "\n" + "书名: " + lists_book[lists_grade.index(max(lists_grade))])

运行后结果输出到了屏幕上，并没有存入数据库，后续需要也可以继续添加代码将爬取结果存入数据库；

另外有需要云服务器可以了解下创新互联cdcxhl.cn，海内外云服务器15元起步，三天无理由+7*72小时售后在线，公司持有idc许可证，提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案，具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势，专为企业上云打造定制，能够满足用户丰富、多元化的应用场景需求。

当前名称：小白的python爬虫，40代码教你爬取豆瓣小说-创新互联
网站地址：https://www.cdcxhl.com/article12/ihsgc.html

成都网站建设公司_创新互联，为您提供关键词优化、自适应网站、搜索引擎优化、网站设计、品牌网站建设、做网站

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容