亲历robots文件出错导致新站不收录
做SEO也已经一年了,感觉有点小水平了,应该可以自己操作1,2个站看看了,所以8月份下旬自己做了个淘宝,卖点小玩意,顺便自己练练手,大家都知道,淘宝和百度都是有网上买卖业务的,是一种竞争关系,两个肯定是互不相容的 ,淘宝网不鸟百度,屏蔽了蜘蛛的抓取,所以我就想着和别人一样,自己另外建个站,然后在百度进行推广,搞搞排名,为我的淘宝店多吸引些流量过来。想做就做,9月初站点就准备好上线了,以下是网站上线前的优化过程:
首先我要做的是一个正规战,所以我都是用正规的操作,上线前先用ROBOTS.TXT文件来屏蔽蜘蛛的抓取,先把网站排版好,把原有的一些JS代码和多余的垃圾代码删除。然后写好网站标题,确认不会有出现堆砌关键词的嫌疑,接着在每个内容板块都发4、5的原创或者伪原创文章,把网站填充好,别等上线时让搜索引擎觉得这网站没什么内容来抓取。网站标题,内容,结构,布局都搞定了,就网站可以上线了。
我先把ROBOTS.TXT改回来,允许搜索引擎来抓取内容,然后发1、2篇原创文章上去,接着去各大搜索引擎提交网站登陆口,接着再等到晚上去A5吸引蜘蛛的专门版块,在晚上11:00到00:30的时间内,发布原创软文,在上面添加自己网站的链接,快速吸引蜘蛛来爬取我的网站。最后就坐等收录了,我想最多明天、后天网站就会收录的,结果意外发生了,第三天都没收录,感觉很奇怪,在这期间,我都有更新内容和发一些外链的,按道理说应该早就要收录的。我就上FTP下载了日志来看,发现上线那天晚上12点的时候蜘蛛来过了,但爬取到robots.txt文件时就走了,很纳闷,估摸着应该是robots.txt文件哪里出错了,就打开看看,下面是看robots.txt文件一些发现:
发现robots规则设置都没有问题,再查看程序生成的robots.txt文件,与后台设置一模一样,进入webmaster查看抓取,在“拆取工具权限”栏目中看到:第一行:?User-agent:*,然后结果是语法错误。很明显多出一个“?”,莫名其妙,实在不知道是什么问题,没办法了,只能用绝招了,用模拟搜索引擎来爬取下网站,看看到底哪里出问题了,果然看出问题所在,是由于txt文件的编码不正确所致,写入文件时采用了utf8编码,但搜索引擎貌似对robots的utf-8编码并不能正确理解,将程序改写为ansi编码之后问题解决终于解决了。
之后晚上再去A5引蜘蛛,顺利收录了,一个小细节导致我的网站晚了4天才收录,如果没发现,估计还更惨,所以平时我们做SEO的要多注意一些小问题,细节不能不当回事,尤其是ROBOTS.TXT文件,是蜘蛛来网站第一个爬取的文件,一有差错,就会出现大问题,也有许多人通过修改别人robots.txt文件,来危害我们网站,平时多注意看看,不过还好这个容易看出来,只要调日志出来看看久能大致知道错在哪,所以我们也要养成多看日志的习惯。
本文由迅达seo发布在福州印刷http://www.fzywzx.com,转载请保留连接!











