网站改版后利用robots.txt来更新百度收录

 
最近公司网站改版了,1个多月了百度还未更新收录的记录,昨天尝试用robots.txt 控制来更新,效果比慢慢等要强。
 
介绍操作如下
 
打开记事本,写入如下内容:
 
robots.txt
 
User-Agent: Baiduspider
Allow: /sitemap_baidu_index.xml

User-Agent: Googlebot
Allow: /sitemap_google_index.xml

User-Agent: *
Allow: /sitemap.xml

Disallow: /*.htm 
Disallow: /*.asp 
Allow: /.html$

Disallow: /img
Disallow: /images
Disallow: /inc
 
 
传到跟目录即可!
 
这里详细解释一下每行代码的意思:
 
User-Agent: Baiduspider  
Allow: /sitemap_baidu_index.xml
 
这2行是允许百度蜘蛛(爬虫)访问sitemap_baidu_index.xml这个站点地图文件
 
User-Agent: Googlebot
Allow: /sitemap_google_index.xml
 
这2行是允许谷歌蜘蛛(爬虫)访问sitemap_google_index.xml这个站点地图文件
 
User-Agent: *
Allow: /sitemap.xml
 
这2行是允许所有蜘蛛(爬虫)访问sitemap.xml这个站点地图文件
 
Disallow: /*.htm 
Disallow: /*.asp 
Allow: /.html$
 
这里要说明下,旧版网站使用的是.htm结尾的文件,新站是使用.html结尾的文件,改版后首先要屏蔽搜索引擎抓取.htm文件,这里就有了第1行代码
Disallow: /*.htm 
ASP文件为程序文件,一般不让访问,如果访问的话,会造成很多内容重复,所以这里要屏蔽掉所有.asp 类的文件,就有了第2行代码:
Disallow: /*.asp 
 
 
第3行代码
Allow: /.html$
就是允许抓取最新站的.html文件
 
 
Disallow: /img
Disallow: /images
Disallow: /inc
 
这几行是让搜索引擎不让抓取的文件夹,如图片文件夹:img,images;共用文件夹inc等
 
文件传上去后,第3天百度抓取的记录就开始有新网站的数据了。

 

    相关文章

评论

发表新评论

此内容将保密,不会被其他人看见。
点击刷新验证码
  • 可用的 UBB 标签:
  • 留言最长字数:1000。