用python“爬”一篇小说-创新互联

需要你的python安装有requests模块,如果没有安装可执行如下命令安装

让客户满意是我们工作的目标,不断超越客户的期望值来自于我们对这个行业的热爱。我们立志把好的技术通过有效、简单的方式提供给客户,将通过不懈努力成为客户在信息化领域值得信任、有价值的长期合作伙伴,公司提供的服务项目有:域名与空间、网页空间、营销软件、网站建设、石拐网站维护、网站推广。
pip3 install requests

以最近比较火的小说“魔道祖师”为例。

下面是整个脚本

import requests,re

def get_content(url,timeout=10):
    req = requests.get(url=url,timeout=timeout)
    return req.text

def get_title(html,re_title):
    ret = re_title.search(html)
    if ret:
        ret = ret.group()
        tmp = ret.split('_')[0]
        tmp = tmp.replace('<title>','')
        tmp = tmp.strip()
        return tmp

def get_body(html,ret_body):
    ret_body = re_body.search(html)
    if ret_body:
        ret = ret_body.group()
        tmp = re_clear_header.sub(r'\2',ret)
        tmp = tmp.replace(r'&nbsp;',' ').replace(r'<br /><br />','\n').replace(r'<br />','\n')
        tmp = tmp.replace(r'2k小说阅读网</p>','\n\n')
        return tmp

if __name__ == '__main__':
    mdzs = open('mdzs.txt','w')
    re_title = re.compile(r'<title>(.*?)</title>')
    re_body = re.compile(r'<p class="Text">(.*?)</p>',re.S)
    re_clear_header = re.compile(r'(.*</script>)(.*)',re.S)
    first_page = 19613532
    for i in range(116):
        page = first_page + i
        url = r'https://www.2kxs.com/xiaoshuo/96/96717/{}.html'.format(page)
        try:
            html = get_content(url)
            title = get_title(html,re_title)
            mdzs.write(title + '\n\n')
            body = get_body(html,re_body)
            mdzs.write(body)
            print('{} is success'.format(url))
        except Exception as e:
            print('url :{} , error: {}'.format(url,e))

该网站是小说网站,排版和网页的url比较有规律性,所以实现起来比较简单

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。

分享文章:用python“爬”一篇小说-创新互联
浏览路径:https://www.cdcxhl.com/article10/ddgodo.html

成都网站建设公司_创新互联,为您提供全网营销推广搜索引擎优化网站改版网站策划静态网站微信小程序

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

成都app开发公司