需要你的python安装有requests模块,如果没有安装可执行如下命令安装
创新互联是专业的墨脱网站建设公司,墨脱接单;提供网站设计、网站建设,网页设计,网站设计,建网站,PHP网站建设等专业做网站服务;采用PHP框架,可快速的进行墨脱网站开发网页制作和功能扩展;专业做搜索引擎喜爱的网站,专业的做网站团队,希望更多企业前来合作!
pip3 install requests
以最近比较火的小说“魔道祖师”为例。
下面是整个脚本
import requests,re def get_content(url,timeout=10): req = requests.get(url=url,timeout=timeout) return req.text def get_title(html,re_title): ret = re_title.search(html) if ret: ret = ret.group() tmp = ret.split('_')[0] tmp = tmp.replace('<title>','') tmp = tmp.strip() return tmp def get_body(html,ret_body): ret_body = re_body.search(html) if ret_body: ret = ret_body.group() tmp = re_clear_header.sub(r'\2',ret) tmp = tmp.replace(r' ',' ').replace(r'<br /><br />','\n').replace(r'<br />','\n') tmp = tmp.replace(r'2k小说阅读网</p>','\n\n') return tmp if __name__ == '__main__': mdzs = open('mdzs.txt','w') re_title = re.compile(r'<title>(.*?)</title>') re_body = re.compile(r'<p class="Text">(.*?)</p>',re.S) re_clear_header = re.compile(r'(.*</script>)(.*)',re.S) first_page = 19613532 for i in range(116): page = first_page + i url = r'https://www.2kxs.com/xiaoshuo/96/96717/{}.html'.format(page) try: html = get_content(url) title = get_title(html,re_title) mdzs.write(title + '\n\n') body = get_body(html,re_body) mdzs.write(body) print('{} is success'.format(url)) except Exception as e: print('url :{} , error: {}'.format(url,e))
该网站是小说网站,排版和网页的url比较有规律性,所以实现起来比较简单
网站栏目:用python“爬”一篇小说
标题路径:https://www.cdcxhl.com/article16/pescdg.html
成都网站建设公司_创新互联,为您提供服务器托管、做网站、微信小程序、网站设计、网站导航、动态网站
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联