在使用Google网站管理员工具时发现自己的z-blog没有设置robots.txt文件,感觉还是创建一个的好。创建 robots.txt 文件,可以指定你不想让哪些搜索引擎的蜘蛛抓取你的网站,或是规定某些文件或目录不让它们抓取。对于网站来说并非抓取的目录和文件越多越好,因为不是所有的文件都是需要被搜索引擎抓取的。
下面是z-blog1.8版本的写法和注释,Disallow代表禁止抓取
#Directories(目录)
Disallow:/ADMIN/ //后台管理文件
Disallow:/SCRIPT/ //调用的SCRIPT文件,即使搜索引擎抓到了,也不读取
Disallow:/PLUGIN/ //插件目录
Disallow:/FUNCTION/ //不需抓取
Disallow:/DATA/ //数据库目录
Disallow:/CACHE/ //Zblog生成静态页的缓存目录,和正常文章基本一致,高重复
Disallow:/TEMPLATE/ //模板目录
Disallow:/CSS/ //CSS的一些调用文件目录
Disallow:/LANGUAGE/ //语言目录,不必抓取
#Files(文件)
Disallow:/login.asp //登录后台文件
Disallow:/cmd.asp? //这个是供别人引用通知时产生的页面
Disallow:/search.asp //搜索页,无人使用的时候,就是一个空页
Disallow:/atom.xml //支持ATOM的FEED页,高重复。
Disallow:/rss.xml //支持RSS的FEED页,高重复。
Disallow:/view.asp? //后台预览文章时生成的页面
使用方法是代码复制到文本文档,去掉注释内容以及注释//前面的空格,另存为robots.txt,上传至博客根目录下就可以了。
下面这个是月光博客的robots.txt写法,也可以研究和参考一下。
# robots.txt for williamlong
# Version 4.0.0
#
User-agent: *
Disallow: /ads/
Disallow: /function/
Disallow: /FCKeditor/
Disallow: /CACHE/
Disallow: /SCRIPT/
Disallow: /ADMIN/
Disallow: /google/ADMIN/
Disallow: /google/CACHE/
Disallow: /google/function/
Disallow: /blog/function/
Disallow: /wap.asp
Disallow: /cmd.asp
Disallow: /google/wap.asp
Disallow: /google/cmd.asp
Sitemap: http://www.williamlong.info/sitemap.xml
关于sitemap其实我们也可以用Google的网站管理员工具提交一下。
看过之后相信你也后根据自己的情况,制作出自己的robots.txt了。