不清楚SEO爬行收集和索引？

2013-04-21 分类：网站建设

你如何学习做SEO？第一步是什么？记得？你想买一本关于SEO的书，找出一开始会提到的基本概念，这会让你感到困惑，想把它写下来，却发现根本不懂？

大多数不想自己学习的人都会有这样一个痛苦的开始。对于来智优的新人，我们通常会安排他们从写文章开始，先写再谈概念。在培训期间，他们还会多次提到这些概念和优化技能。当你再看一遍基本的书，你就会知道他们在说什么，你会发现当你在不同的阶段读同一本书时，你会感觉完全不同。这就是“向过去学习，向新学习”。

但在这期间，会有新球员不按常理打球。我想我可以运用这些技巧。为什么我要理解这个概念？

原因很简单。概念是技能描述的概括和集中。其中一个或两个字将代表一个操作。现在你问身边的优化人员，什么是爬行？抓什么？指数是多少？包括什么？他能描述清楚吗？

当然，如果解释不清楚，并不意味着他的优化能力不好，但他的“产出”能力不好，也就是说，他不会总结。总结越精辟，他对企业的理解就越深刻。所以今天智友英嘉就带大家来复习这些基本概念，希望能提醒初学者和没有“输出”概念的朋友们。

爬网是指搜索引擎蜘蛛从已知页面解析链接的URL，然后沿链接查找新页面（即链接的URL）的过程。当然，蜘蛛不会立即爬过新的URL来获取新页面，而是将发现的URL存储在要获取的地址库中。蜘蛛按照一定的顺序从地址库中提取要获取的URL。

爬行是指搜索引擎蜘蛛从要抓取的地址库中提取要抓取的URL，访问URL，并将读取的HTML代码存储在数据库中。Spider的爬行是像浏览器一样打开这个页面，这将在服务器的原始日志中留下记录，并允许用户访问浏览器。

索引是指对URL的信息进行排序并存储到数据库中，即索引库中。当用户搜索时，搜索引擎从索引库中提取URL信息并按顺序显示。

从搜索引擎的角度来看，包含了URL，即该URL的信息存在于索引库中。

也就是说，蜘蛛不访问和抓取此页面（例如，禁止通过robots文件抓取），但此页面的索引库中有信息，用户搜索时可以看到这些信息。

例如，百度蜘蛛不允许用机器人文件抓取淘宝网的整个网站，但Noindex也不禁止索引，所以即使百度不访问和抓取淘宝网的页面，淘宝网的很多页面都会被百度索引，用户可以找到：

百度从互联网上这么多的链接知道淘宝主页的存在。通过链接的锚文本，它也知道这个页面的标题可能是淘宝等。当然，它也知道百度口碑中的评价数字。所以即使百度蜘蛛没有抓到淘宝的主页，用户仍然可以找到它并显示百度知道的一些信息。

百度怎么能不回淘宝首页呢？删除禁止获取的robots文件，并使用页面上的Noindex禁止索引。

最常见的情况是，如上所述，禁止使用Noindex对页眉信息进行索引，并对页面进行爬网。读取Noindex之后，它将不会被索引，也不会在搜索结果中返回。向旧页添加新的Noindex不会立即删除索引，但它会保留索引一段时间，但不会返回搜索结果。

使用no index的页面上的链接可以被跟踪一段时间，但经过很长时间后，使用Noindex的页面搜索引擎可能不再抓取和索引，上面的链接将无效。

网页内容也有可能被抄袭、转载，质量不高。尽管搜索引擎会抓取页面，但它会在索引过程中检测到这些内容问题，这些问题会被丢弃而不会被索引。因此，如果没有包含页面，通常需要先检查原始日志，看看是否已捕获。如果已捕获，则可能是内容质量问题。如果根本没有捕获，建议首先查看网站结构是否有问题。

声明：本网站发布的内容（图片、视频和文字）以用户投稿、用户转载内容为主，如果涉及侵权请尽快告知，我们将会在第一时间删除。文章观点不代表本网站立场，如需处理请联系客服。电话：028-86922220；邮箱：631063699@qq.com。内容未经允许不得转载，或转载时需注明来源：创新互联

猜你还喜欢下面的内容