错误的robots
蜘蛛来到一个网站,首先会访问这个网站的根目录下的robots,如果你写入了相应的规则,比如整站禁止蜘蛛爬行,哪么蜘蛛是不会爬行的
与首页点击距离。
一般来说网站上权重最高的是首页,大部分外部链接是指向首页的,蜘蛛访问最频繁的也是首页。离首页点击距离越近,页面权重越高,被蜘蛛爬行的机会也越大。
错误的sitemap
蜘蛛访问完robots后,就会访问sitemap,如果网站地图格式或者路径不正确,蜘蛛会找不到路,这样也会对蜘蛛爬行造成困难
死链过多
死链就是死胡同,走入死胡同没有出路了,只能打道回府,次数多了,让蜘蛛心灰意冷,路不顺畅,下次也不想来了。
页面更新度。
蜘蛛每次都会把爬行抓取的数据存储起来。如果第二次爬行发现页面与第一次收录完全一样,说明页面没有更新,蜘蛛也就没有必要经常抓取。如果页面内容经常更新,蜘蛛就会更加频繁的访问这种页面,页面上出现的新链接,也自然会被蜘蛛更快的跟踪,抓取新页面