辩真假百度蜘蛛:解虚拟主机用户之危
发布日期:2012-6-9 阅读次数:1988
真假百度蜘蛛:虚拟主机用户慎用
相信不论是站长还是SEO专业人员都遇到过的IP不是属于在蜘蛛段,曾经好奇这是,基本上现在都能够判断,结果发现那些不属于蜘蛛段IP确实是蜘蛛,为了避免客户误杀,下面浅析浅析:
一、发现“假蜘蛛”
众所周知,百度蜘蛛一般来自于202.181.108.* 和123.125.71.* 这两个IP段,显然其他的就不属于百度蜘蛛所属的IP段。
为了确保不误杀百度蜘蛛,我们可以用nslookup ip命令反解了此IP,得到以下信息发现可以确定该IP不属于百度蜘蛛的IP段,是一个“假蜘蛛”,我们需要屏蔽该IP释放那些被占用的带宽。
二,误会“假蜘蛛”
灵光乍现,脑中不停浮现CDN加速这几个词,就想会不会跟这个有关
为了验证这个推测,发现谷歌蜘蛛和搜狗蜘蛛也来自于之前三个IP(之前对网站日志进行了拆分,只查看百度的情况,因为网站是针对百度做SEO的)。
这下子总算清楚了,这些所属IP的蜘蛛不是假蜘蛛,而是货真价实的百度蜘蛛、谷歌蜘蛛和其他搜索引擎的蜘蛛。只不过因为他们通过了一次CDN节点,所以造成了他们的来源IP是一致的。
三,虚拟主机如何产生“假蜘蛛”
1.很大一部分发现假蜘蛛的站长,所使用的是某主机供应商提供的集群主机,或类似性质的虚拟主机。
2.集群性质的虚拟主机,同CDN的道理是相同的,即将客户的空间和站点资料同步到同一个群组的所有服务器上。
3.蜘蛛的来源不同,一些是直接访问站点的,另一些是通过一些外链访问站点的。而这些通过外链访问站点的蜘蛛,会就近通过CDN节点访问。
4.CDN节点每家公司都不一样,但大致分为地域大区(不是省)和电信、网通这样的方式划分。
假蜘蛛对我们网站的危害是巨大的,具体有:
1.占用网站带宽,导致网站流量上升,增加额外开销
2.在有限带宽的前提下,阻碍了正常蜘蛛的抓取
3.误导了我们在对网站开展SEO工作时的思路
4.部分伪装成假蜘蛛的采集工具剽窃了我们的工作
5.那些通过CDN节点访问网站的蜘蛛,来源IP自然不是从北京总部出发时的IP。
最终事情得到了很好的解决,该电商网站自优化以来效果一直良好,虽然采用了CDN,但事实证明CDN对搜索引擎而言没有任何障碍,反而有利于网站速度和提高用户体验。