多线程爬取都挺好链接并保存到mongodb-创新互联

  • 一个比较简单,python3多线程使用requests库爬取都挺好,并使用正则提取下载链接,保存到mongodb
#!/usr/bin/env python
# -*- coding:utf-8 -*-
"""
@author:Aiker Zhao
@file:doutinghao.py
@time:下午8:18
"""
import requests
import re
import pymongo
from multiprocessing import Pool

MONGO_URL = 'localhost:27017'
MONGO_DB = 'doutinghao'
MONGO_TABLE = 'doutinghao'
client = pymongo.MongoClient(MONGO_URL, connect=False)
db = client[MONGO_DB]

def get_result(url):
    response = requests.get(url).text
    # print(reponse.text)
    pattern = re.compile('<a href="(ed2k.*?)"\srel.*?title="(.*?.mp4).*?".*?>', re.S)
    result = re.findall(pattern, response)
    if result:
        for i in result:
            url, name = i
            yield {
                "name": name,
                'url': url
            }

def save_to_mongo(result):
    if db[MONGO_TABLE].insert(result):
        print('存储到MongoDB成功', result)
        return True
    return False

def main(result):
    # result = get_result(url)
    save_to_mongo(result)

if __name__ == '__main__':
    pool = Pool()
    url = "https://www.xl720.com/thunder/34283.html"
    item = [item for item in get_result(url)]
    # print(item)
    pool.map(main, item)
    pool.close()
    pool.join()

多线程爬取都挺好链接并保存到mongodb

十年的马龙网站建设经验,针对设计、前端、开发、售后、文案、推广等六对一服务,响应快,48小时及时工作处理。成都全网营销推广的优势是能够根据用户设备显示端的尺寸不同,自动调整马龙建站的显示方式,使网站能够适用不同显示终端,在浏览器中调整网站的宽度,无论在任何一种浏览器上浏览网站,都能展现优雅布局与设计,从而大程度地提升浏览体验。创新互联建站从事“马龙网站设计”,“马龙网站推广”以来,每个客户项目都认真落实执行。

多线程爬取都挺好链接并保存到mongodb
多线程爬取都挺好链接并保存到mongodb

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。

新闻名称:多线程爬取都挺好链接并保存到mongodb-创新互联
转载源于:https://www.cdcxhl.com/article44/dsgdhe.html

成都网站建设公司_创新互联,为您提供网站建设全网营销推广静态网站网站设计公司网站设计做网站

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

成都定制网站网页设计