最近公司网站改版了,1个多月了百度还未更新收录的记录,昨天尝试用robots.txt 控制来更新,效果比慢慢等要强。
介绍操作如下
打开记事本,写入如下内容:
User-Agent: Baiduspider
Allow: /sitemap_baidu_index.xml
User-Agent: Googlebot
Allow: /sitemap_google_index.xml
User-Agent: *
Allow: /sitemap.xml
Disallow: /*.htm
Disallow: /*.asp
Allow: /.html$
Disallow: /img
Disallow: /images
Disallow: /inc
传到跟目录即可!
这里详细解释一下每行代码的意思:
User-Agent: Baiduspider
Allow: /sitemap_baidu_index.xml
这2行是允许百度蜘蛛(爬虫)访问sitemap_baidu_index.xml这个站点地图文件
User-Agent: Googlebot
Allow: /sitemap_google_index.xml
这2行是允许谷歌蜘蛛(爬虫)访问sitemap_google_index.xml这个站点地图文件
User-Agent: *
Allow: /sitemap.xml
这2行是允许所有蜘蛛(爬虫)访问sitemap.xml这个站点地图文件
Disallow: /*.htm
Disallow: /*.asp
Allow: /.html$
这里要说明下,旧版网站使用的是.htm结尾的文件,新站是使用.html结尾的文件,改版后首先要屏蔽搜索引擎抓取.htm文件,这里就有了第1行代码
Disallow: /*.htm
ASP文件为程序文件,一般不让访问,如果访问的话,会造成很多内容重复,所以这里要屏蔽掉所有.asp 类的文件,就有了第2行代码:
Disallow: /*.asp
第3行代码
Allow: /.html$
就是允许抓取最新站的.html文件
Disallow: /img
Disallow: /images
Disallow: /inc
这几行是让搜索引擎不让抓取的文件夹,如图片文件夹:img,images;共用文件夹inc等
文件传上去后,第3天百度抓取的记录就开始有新网站的数据了。
最新评论