• 欢迎访问奇跡の海网站,本站不上传任何资源,所有资源均来自于网络,欢迎加入奇跡の海~! QQ群
  • 本站下载资源为网络上收集整理而来,并且以计算机技术研究交流为目的,版权归原作者所有,仅供大家参考,学习,不存在任何商业目的与商业用途.
  • 本站系统镜像均来自于官方原版,ed2k可视为P2P下载链接。所有操作系统默认均为试用版,如有正版密钥可以有效激活,本站不提供任何激活和相关服务。

Robots协议为 WordPress 站点添加 robots.txt 文件

WP其他 奇跡の海 10个月前 (10-23) 188次浏览 已收录 0个评论 扫描二维码

Robots 协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过 Robots 协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
Robots 协议为 WordPress 站点添加 robots.txt 文件
如果你的网站根目录还没有 robots.txt,你可以创建一个,具体的写法请参考 百度百科。下面是一个基本的 WordPress robots协议:

User-agent: *
Disallow: /feed/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /wp-
Allow: /wp-content/uploads/
Sitemap: http://http://www.seaomc.com//sitemap.xml

下面主要介绍一下 WordPress 自动创建虚拟 robots.txt 功能。如果你的网站根目录不存在真实的 robots.txt,那么可以让 WordPress 自动创建一个虚拟的 robots.txt (该文件不会真实存在,但是访问 http://http://www.seaomc.com//robots.txt 时可以正常显示)

将下面的代码添加到主题的 functions.php 即可:

/**
 * 为你的 WordPress 站点添加 robots.txt
 * https://www.wpdaxue.com/add-robots-txt.html
 */
add_filter( 'robots_txt', 'robots_mod', 10, 2 );
function robots_mod( $output, $public ) {
	$output .= "Disallow: /user/"; // 禁止收录链接中包含 /user/ 的页面
	return $output;
}

注:如果你想添加更多的规则,请复制上面代码的第 7 行,然后修改一下即可。

访问 http://yoursite.com/robots.txt 我们可以看到如下内容:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /user/

也就是说,WordPress 默认已经添加了前 3 行规则了。

最后还是简单的解析一下其对应作用

1、User-agent: *

允许所有搜索引擎抓取网站,除非你网站有特别针对某个或多个搜索引擎,你可以适当的设置其抓取。如下只允许百度和谷歌抓取:

User-agent: Baiduspider
Disallow: /
User-agent: Googlebot
Disallow: /

这样设置的意思为只允许百度和谷歌的蜘蛛抓取所有,但是这里子凡用的是 Disallow 并设置的/根目录,所以这里其实是禁止了百度和谷歌抓取,如果要允许所有可以使用 Allow,大家可以举一反三的使用,仔细的体会感受一下。

2、Disallow: /wp-admin/、Disallow: /wp-content/和 Disallow: /wp-includes/
用于告诉搜索引擎不要抓取后台程序文件页面。

3、Disallow: /*/comment-page-*和 Disallow: /*?replytocom=*
禁止搜索引擎抓取评论分页等相关链接。

4、Disallow: /category/*/page/和 Disallow: /tag/*/page/
禁止搜索引擎抓取收录分类和标签的分页。(这一条子凡并未添加到上面演示,因为不同 WordPress 站点可能会有所不同,大家可以根据需要添加)

5、Disallow: /*/trackback 和 Disallow: /trackback/
禁止搜索引擎抓取收录 trackback 等垃圾信息

6、Disallow: /feed、Disallow: /*/feed 和 Disallow: /comments/feed
禁止搜索引擎抓取收录 feed 链接,feed 只用于订阅本站,与搜索引擎无关。

7、Disallow: /?s=*和 Disallow: /*/?s=*\
禁止搜索引擎抓取站内搜索结果

8、Disallow: /attachment/
禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。

9、Disallow: /wp-*.php
禁止搜索引擎抓取 WordPress 网站根目录的以 wp 开头的文件。

10、Sitemap: http://yourdomain.com/sitemap.html
这个就是为了方便搜索引擎利用的网站地图,具体的根据自己网站需要添加。


版权声明:本站所有文章和资源使用BY-NC-SA协议授权发布 , 转载应当以相同方式注明文章来自“SeaOMC.COM->Robots 协议为 WordPress 站点添加 robots.txt 文件!在下边可以分享本文哦!
喜欢 (0)
[]
分享 (0)
奇跡の海
关于作者:
一个WordPress菜鸟!
发表我的评论
取消评论

表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址