蜘蛛是如何抓取页面的?

2016-11-04 分类：网站建设

搜索引擎的蜘蛛抓取页面的一般过程是这样的。

首先，收集待索引网页的url。

搜索引擎的蜘蛛一般分为两类，这一类的主要工作就是收集网页的中有效的URL。它们的任务是一刻不停地扫描Internet资源，以随时更新其搜索引擎庞大的url列表以供它的第二类蜘蛛使用。也就是说，当这一类蜘蛛访问我们网页的时候，并不在于索引我们的网页，而是在寻找网页中的所有有效链接。

关于有的站长在自己的访问日志中发现多个蜘蛛IP爬自己站的情况。

我们常用的搜索引擎每天要处理数以亿计的信息，没有一个大型的搜索引擎公司（GOOGLE或百度之类）不配备上万台服务器来共同执行这个工作，因此搜索引擎都拥有不同的数据中心，也就是说有多个robots来检索你的站是很正常的事情。

不过这也仅限于一类蜘蛛，在索引页面的时候，搜索引擎会限制某个特定的数据中心来让专门索引页面的蜘蛛检索你的站。

因此朋友们从服务器访问日志中时常可以看到源自不同IP的蜘蛛，在很短的时间内频繁访问网站。不过千万不要高兴得太早，也许其根本不是在索引你的网页而只是在扫描url。

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容