robots_txt写法详解与ZBlog配置示例

0 27
robots.txt是放置在网站根目录的文本文件,用于告诉搜索引擎爬虫哪些页面可以抓取,哪些不能抓取。正确配置robots.txt,能防止搜索引擎收录无价值的页...

robots.txt是放置在网站根目录的文本文件,用于告诉搜索引擎爬虫哪些页面可以抓取,哪些不能抓取。正确配置robots.txt,能防止搜索引擎收录无价值的页面,集中网站权重到核心页面,是SEO基础优化的重要一环。


robots_txt写法详解与ZBlog配置示例-第1张图片-原创静态页面模板免费下载|防丢失页/跳转页/推广页模板大全

一、robots.txt的基本语法


1. User-agent:指定适用的爬虫名称

   - User-agent: * 表示适用于所有爬虫

   - User-agent: Baiduspider 表示仅适用于百度爬虫


2. Disallow:禁止抓取的路径

   - Disallow: / 禁止抓取全站

   - Disallow: /zb_users/ 禁止抓取zb_users目录


3. Allow:允许抓取的路径(优先级高于Disallow)

   - Allow: /zb_users/theme/ 允许抓取主题文件夹


4. Sitemap:指定网站地图位置

   - Sitemap: https://www.xishuzy.com/sitemap.xml


二、ZBlog需要屏蔽的目录和文件


ZBlog有如下目录和文件对SEO无价值,应当屏蔽:


1. /zb_users/ — 用户数据目录,包含插件、主题、上传文件,部分路径无需被抓取

2. /zb_system/ — 系统核心文件,完全无需被抓取

3. /zb_install/ — 安装目录,若存在应删除,至少屏蔽

4. /index.php?* — 动态参数链接,防止重复收录

5. /feed/ — RSS订阅,若无需收录可屏蔽

6. /comments/feed/ — 评论Feed,无意义


三、ZBlog标准robots.txt配置示例


User-agent: *

Disallow: /zb_users/

Disallow: /zb_system/

Disallow: /zb_install/

Disallow: /feed/

Disallow: /comments/

Disallow: /wp-admin/

Disallow: /*?*

Disallow: /*.php$

Allow: /zb_users/theme/

Allow: /zb_users/upload/

Sitemap: https://www.xishuzy.com/sitemap.xml


四、各搜索引擎爬虫名称


1. 百度:Baiduspider

2. 谷歌:Googlebot

3. 必应:Bingbot

4. 360搜索:360Spider

5. 搜狗:Sogou web spider

6. 神马:YisouSpider


可针对特定爬虫设置独立规则,例如仅屏蔽360搜索抓取某些目录。


五、通配符的使用


robots.txt支持有限的通配符:

- * 匹配任意长度的任意字符

- $ 匹配行尾


示例:

Disallow: /*.jpg$  — 禁止抓取所有JPG图片

Disallow: /tag/*  — 禁止抓取所有标签页面


六、常见错误写法


错误1:Disallow和Allow顺序颠倒

正确写法:先写Allow,再写Disallow,Allow优先级更高。


错误2:路径末尾漏写斜杠

Disallow: /zb_users 和 Disallow: /zb_users/ 含义不同,建议统一以/结尾。


错误3:使用中文注释

robots.txt不支持中文注释,中文会导致规则失效。


七、验证robots.txt是否生效


方法1:使用百度搜索资源平台的robots检测工具

方法2:直接访问 /robots.txt,检查内容是否正确输出

方法3:使用Google Search Console的robots.txt测试工具


八、ZBlog后台设置robots.txt的方法


ZBlog本身不提供robots.txt编辑功能,需手动创建文件并上传至网站根目录。


步骤:

1. 在本地创建robots.txt文件,写入规则

2. 使用FTP或文件管理器上传至网站根目录

3. 访问 https://www.xishuzy.com/robots.txt 验证可访问


九、robots.txt与noindex的区别


robots.txt是爬虫层面的屏蔽,阻止爬虫抓取页面内容;noindex是页面层面的标签,告诉搜索引擎不要收录该页面。两者可配合使用,但robots.txt屏蔽的页面若被外部链接引用,仍可能出现在索引中。


十、移动适配与robots.txt


若网站有移动版(m.xxx.com),需确保robots.txt规则对移动版同样适用,或在移动版根目录放置独立的robots.txt。


正确配置robots.txt是ZBlog SEO的基础工作,建议在网站上线前完成配置,并定期检查规则是否生效。


西数资源网首发 www.xishuzy.com


免责声明
免责声明

本网站提供的静态网页模板,可供学习交流及合法商业使用参考,使用前请务必结合当地法律法规及具体场景做好合规审查,确保使用行为合法合规。

模板相关知识产权归本站及原创权利人所有(含第三方授权素材,将另行标注),本站为模板原创方,拥有对模板的修改、分发等专有权利,未经许可不得篡改版权信息、擅自二次分发或用于违法场景。

用户使用模板需自行承担责任:不得用于侵权、违法违规用途;二次修改需保持合规,因使用不当引发的法律纠纷、损失等,均由用户自行承担,本网站不担责。

若模板涉嫌侵权,请联系我们并提供有效证明,我们将在24小时内核查处理,确认侵权后立即下架。

本网站仅核验模板基础可用性与完整性,不对其商业价值、适配性、安全性作保证,用户使用前需自行检测评估风险。

本站官网:www.xishuzy.com
最后修改时间:
admin
上一篇 2026年05月11日 13:52
随机下篇 2025年08月22日 07:23

发表评论

  • 验证码

评论列表

暂无评论