python爬虫之UserAgent-创新互联

在学习爬虫的过程中在有的时候没使用头在使用python的爬虫脚本刚爬了两次,就只是测试了一下就打不开这个网页了,刚开始还一直迷糊着,到后来才知道,python在做爬虫的时候默认的user agent就是python的大版本,python2.7.的User-Agent: Python-urllib/2.7;python3.5.的User-Agent: Python-urllib/3.5

创新互联建站的客户来自各行各业,为了共同目标,我们在工作上密切配合,从创业型小企业到企事业单位,感谢他们对我们的要求,感谢他们从不同领域给我们带来的挑战,让我们激情的团队有机会用头脑与智慧不断的给客户带来惊喜。专业领域包括成都做网站、网站建设、电商网站开发、微信营销、系统平台开发。

下面来做个试验:
python代码如下:

python2

import urllib2

url = "http://www.baidu.com/"

request = urllib2.Request(url)

response = urllib2.urlopen(request)

print(response.read())

python3

from urllib import request

url = "http://www.baidu.com/"

req = request.Request(url)

response = request.urlopen(req)

print(response.read().decode()

我们开启fiddler,运行完成代码,然后在fiddler上面查看下我们的数据
python爬虫之User Agent
很明显就是python的版本,
因此我们在学习爬虫的时候无论爬什么,代码最好都要加上这个头信息

下面我们在代码上加入一个头

from urllib import request

headers = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64"
}

url = "http://www.baidu.com/"

req = request.Request(url,headers=headers)

response = request.urlopen(req)

print(response.read().decode())

抓包的结果如下:
python爬虫之User Agent

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。

网站名称:python爬虫之UserAgent-创新互联
网页地址:https://www.cdcxhl.com/article8/dpdoop.html

成都网站建设公司_创新互联,为您提供响应式网站网站营销品牌网站建设搜索引擎优化ChatGPT域名注册

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联

成都app开发公司