python如何爬取豆瓣各分类书单

这篇文章主要介绍“python如何爬取豆瓣各分类书单”,在日常操作中,相信很多人在python如何爬取豆瓣各分类书单问题上存在疑惑,小编查阅了各式资料,整理出简单好用的操作方法,希望对大家解答”python如何爬取豆瓣各分类书单”的疑惑有所帮助!接下来,请跟着小编一起来学习吧!

创新互联公司长期为近千家客户提供的网站建设服务,团队从业经验10年,关注不同地域、不同群体,并针对不同对象提供差异化的产品和服务;打造开放共赢平台,与合作伙伴共同营造健康的互联网生态环境。为鄞州企业提供专业的网站制作、网站建设鄞州网站改版等技术服务。拥有十年丰富建站经验和众多成功案例,为您定制开发。

python如何爬取豆瓣各分类书单

代码展示:

pachon2.5.py      # -- coding: utf-8 --import urllibimport urllib2import reimport sys
reload(sys)
sys.setdefaultencoding('utf-8')
class book:     #豆瓣书籍的类    def init(self, types, page):        self.baseUrl = 'http://www.douban.com/tag/'        self.types = types        self.filename = 'doubanbook.txt'        self.page = page
def getContents(self): #爬取源代码    try:        #if self.page == 0:        url = self.baseUrl + self.types + '/book'        #else:        #   url = self.baseUrl + self.types + '/book?start=' + str(self.page)        user_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.65 Safari/537.36'        headers = { 'User-Agent' : user_agent}        request = urllib2.Request(url,headers = headers)        response = urllib2.urlopen(request)        content = response.read()  #.decode('utf-8')        pattern = re.compile('<a href=.*?class="title".*?target="_blank">(.*?)</a>.*?>(.*?)</div>',re.S)        items = re.findall(pattern,content)        return items    except urllib2.URLError, e:        if hasattr(e, "reason"):            print u"豆瓣链接错误,错误原因", e.reason            return None
def writetext(self, items): #写入txt    for item in items:        print item[0],item[1]        files = open(self.filename,'a')        files.write(item[0])        files.write(item[1])        files.write('\n')        files.close()
def strat(self): #启动函数    self.writetext(self.getContents())    print u"""出现乱码为正常现象,在与本脚本相同的文件夹下会多出一个,        doubanbook.txt的文件里面有所爬书籍,如你把本脚本放在桌面,文件便会出现在桌面"""        print u"结束输入 'O' , 联系作者输入 'A'"        end = raw_input('>')        if end == 'A':            print u"QQ邮箱:1021644861@qq.com"            raw_input('>')        else:            print "over"

到此,关于“python如何爬取豆瓣各分类书单”的学习就结束了,希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习,快去试试吧!若想继续学习更多相关知识,请继续关注创新互联网站,小编会继续努力为大家带来更多实用的文章!

网站名称:python如何爬取豆瓣各分类书单
URL链接:https://www.cdcxhl.com/article24/gighje.html

成都网站建设公司_创新互联,为您提供搜索引擎优化自适应网站标签优化微信小程序网站设计公司

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

搜索引擎优化