资深上海SEOer谈怎样喂饱“蜘蛛”

已有 13400 次阅读 2009-08-27 02:19 标签: 蜘蛛上海 SEOer

当“蜘蛛”程序出现时，现代意义上的搜索引擎才初露端倪。它实际上是一种电脑“机器人”电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去，反反复复，不知疲倦。所以，搜索引擎的“机器人”程序就被称为“蜘蛛”程序。

对于搜索引擎来说，要抓取互联网上所有的网页几乎是不可能的，从目前公布的数据来看，容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈，无法遍历所有的网页，有许多网页无法从其它网页的链接中找到；另一个原因是存储技术和处理技术的问题，如果按照每个页面的平均大小为20K计算（包含图片），100亿网页的容量是100×2000G字节，即使能够存储，下载也存在问题（按照一台机器每秒下载20K计算，需要340台机器不停的下载一年时间，才能把所有网页下载完毕）。同时，由于数据量太大，在提供搜索时也会有效率方面的影响。因此，许多搜索引擎的网络蜘蛛只是抓取那些重要的网页，而在抓取的时候评价重要性主要的依据是某个网页的链接深度。这种时候，对SEOer来说，的确是一个相当值得探究的事实。以下，是从事上海SEOer中的资深人士提供的一些建议。

　　在抓取网页的时候，网络蜘蛛一般有两种策略：广度优先和深度优先（如下图所示）。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。这是最常用的方式，因为这个方法可以让网络蜘蛛并行处理，提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别，下图的说明会更加明确。

　　由于不可能抓取所有的网页，有些网络蜘蛛对一些不太重要的网站，设置了访问的层数。例如，在上图中，A为起始网页，属于0层，B、C、D、E、F属于第1层，G、H属于第2层，I属于第3层。如果网络蜘蛛设置的访问层数为2的话，网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到，另外一部分不能被搜索到。对于网站设计者来说，扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。

　　网络蜘蛛在访问网站网页的时候，经常会遇到加密数据和网页权限的问题，有些网页是需要会员权限才能访问。当然，网站的所有者可以通过协议让网络蜘蛛不去抓取，但对于一些出售报告的网站，他们希望搜索引擎能搜索到他们的报告，但又不能完全**的让搜索者查看，这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取，从而提供搜索。而当搜索者点击查看该网页的时候，同样需要搜索者提供相应的权限验证。

　　怎样喂蜘蛛，让蜘蛛经常关顾呢？下面主要讲下百度蜘蛛：

分析一下，要想百度蜘蛛经常光顾自己的站，首先要先把蜘蛛引过来。怎么引?最简单的办法是你自己创造个关键字，注意要保证关键字的唯一性(如：得开旗胜)，百度搜索到的结果相关性要低。那关键字要在你首页出现，而且有相关解释，目的是围绕关键字做相关内容。然后去百度更新快的地方，发布相关信息。你发表的文章要围绕你创造的关键字写，关键字可以使用一两次加粗，色彩，或者下划线等，关键字连接到你首页地址，内容里再加一两次你首页地址(传说中的软文)。最关键字加好了，信息也发布了，最关键的就是要触发百度检测数据库，使百度蜘蛛会顺着那些新内容找到你首页!怎么触发?还用问吗?刚做的关键字，具有唯一性，而且相关性低。如果有人搜索那关键字，百度蜘蛛检索时候会优先考虑最合适的页面，也许百度暂时没显示收录你的站，但是百度蜘蛛肯定已经闻风而动了。