robots.txt是放置在网站根目录的文本文件,用于告诉搜索引擎爬虫哪些页面可以抓取,哪些不能抓取。正确配置robots.txt,能防止搜索引擎收录无价值的页面,集中网站权重到核心页面,是SEO基础优化的重要一环。

一、robots.txt的基本语法
1. User-agent:指定适用的爬虫名称
- User-agent: * 表示适用于所有爬虫
- User-agent: Baiduspider 表示仅适用于百度爬虫
2. Disallow:禁止抓取的路径
- Disallow: / 禁止抓取全站
- Disallow: /zb_users/ 禁止抓取zb_users目录
3. Allow:允许抓取的路径(优先级高于Disallow)
- Allow: /zb_users/theme/ 允许抓取主题文件夹
4. Sitemap:指定网站地图位置
- Sitemap: https://www.xishuzy.com/sitemap.xml
二、ZBlog需要屏蔽的目录和文件
ZBlog有如下目录和文件对SEO无价值,应当屏蔽:
1. /zb_users/ — 用户数据目录,包含插件、主题、上传文件,部分路径无需被抓取
2. /zb_system/ — 系统核心文件,完全无需被抓取
3. /zb_install/ — 安装目录,若存在应删除,至少屏蔽
4. /index.php?* — 动态参数链接,防止重复收录
5. /feed/ — RSS订阅,若无需收录可屏蔽
6. /comments/feed/ — 评论Feed,无意义
三、ZBlog标准robots.txt配置示例
User-agent: *
Disallow: /zb_users/
Disallow: /zb_system/
Disallow: /zb_install/
Disallow: /feed/
Disallow: /comments/
Disallow: /wp-admin/
Disallow: /*?*
Disallow: /*.php$
Allow: /zb_users/theme/
Allow: /zb_users/upload/
Sitemap: https://www.xishuzy.com/sitemap.xml
四、各搜索引擎爬虫名称
1. 百度:Baiduspider
2. 谷歌:Googlebot
3. 必应:Bingbot
4. 360搜索:360Spider
5. 搜狗:Sogou web spider
6. 神马:YisouSpider
可针对特定爬虫设置独立规则,例如仅屏蔽360搜索抓取某些目录。
五、通配符的使用
robots.txt支持有限的通配符:
- * 匹配任意长度的任意字符
- $ 匹配行尾
示例:
Disallow: /*.jpg$ — 禁止抓取所有JPG图片
Disallow: /tag/* — 禁止抓取所有标签页面
六、常见错误写法
错误1:Disallow和Allow顺序颠倒
正确写法:先写Allow,再写Disallow,Allow优先级更高。
错误2:路径末尾漏写斜杠
Disallow: /zb_users 和 Disallow: /zb_users/ 含义不同,建议统一以/结尾。
错误3:使用中文注释
robots.txt不支持中文注释,中文会导致规则失效。
七、验证robots.txt是否生效
方法1:使用百度搜索资源平台的robots检测工具
方法2:直接访问 /robots.txt,检查内容是否正确输出
方法3:使用Google Search Console的robots.txt测试工具
八、ZBlog后台设置robots.txt的方法
ZBlog本身不提供robots.txt编辑功能,需手动创建文件并上传至网站根目录。
步骤:
1. 在本地创建robots.txt文件,写入规则
2. 使用FTP或文件管理器上传至网站根目录
3. 访问 https://www.xishuzy.com/robots.txt 验证可访问
九、robots.txt与noindex的区别
robots.txt是爬虫层面的屏蔽,阻止爬虫抓取页面内容;noindex是页面层面的标签,告诉搜索引擎不要收录该页面。两者可配合使用,但robots.txt屏蔽的页面若被外部链接引用,仍可能出现在索引中。
十、移动适配与robots.txt
若网站有移动版(m.xxx.com),需确保robots.txt规则对移动版同样适用,或在移动版根目录放置独立的robots.txt。
正确配置robots.txt是ZBlog SEO的基础工作,建议在网站上线前完成配置,并定期检查规则是否生效。
西数资源网首发 www.xishuzy.com
发表评论
评论列表