SEO配置中robots.txt文件如何设置

爱站昨天 1 0条评论

摘要： 在robots.txt文件中,需要明确允许主流移动搜索引擎(如谷歌Bot、百度移动抓取)访问移动页面。例如:User-agent:Googlebot-MobileAllow:/Us...

在robots.txt文件中,需要明确允许主流移动搜索引擎(如谷歌Bot、百度移动抓取)访问移动页面。例如:

User-agent: Googlebot-MobileAllow: /User-agent: BaiduMobaiderAllow: /

针对移动端独有的一些页面,如登录页面、购物车等,可以在robots.txt中进行屏蔽,以免被搜索引擎收录:

User-agent: *Disallow: /loginDisallow: /cart

移动端Sitemap可以帮助搜索引擎更好地发现和抓取网站页面。在robots.txt中添加Sitemap地址,引导搜索引擎抓取:

Sitemap:

网站内容和结构随时可能发生变化,需要定期检查和调整robots.txt文件,确保其始终与网站实际情况保持一致。也要定期测试robots.txt的有效性。

如何设置robots.txt文件，完全禁止某个搜索引擎。对于其它的搜索引擎，则限制某些文件夹或文件？

如何正确配置你的？新站上线，最希望能够尽快被搜索引擎收录。只有收录，才有后面的许许多多SEO。一般来说，Baidu对于新站是来者不拒，有很多都是滥竽充数，而Google相对较慢了，原因是Google对于新站都有一定的审核机制，防止一些新站利用黑帽SEO短时期内即取得较好排名，这是一个最重要的可能原因。当然，我们并不希望搜索引擎收录网站中的任何页面。其中某些页面——由于隐私、管理等等——并不希望被收录。当搜索引擎来网站抓取页面时，它们会先查看该站的文件，以了解你所允许它抓取的范围，包括哪些文件，哪些目录。正确的配置网站的非常重要，错误的配置会导致搜索引擎不能很好的收录甚至无法收录，这种案例现在仍有发生，有的博客建立以后长达几个月没有被收录。各个搜索引擎都有自己的搜索机器人（Robots）在为他们工作，这些Robots在网络上沿着网页上的链接（一般是http和src链接）不断抓取资料建立自己的数据库，正是得益于这些机器人的勤劳工作，才有如此海量的数据供我们检索。下面是一些搜索引擎的机器人名称：机器人名称搜索引擎 BaiduspiderGooglebotMSNBOTFAST-WebCrawleria_archiverScooterSlurp为了防止自己的网页被搜索到，Robots开发界提出了两个方法：一个是，另一个是The Robots META标签。简单的说，就是一个纯文本文档，里面包含一些命令，当Robots来网站时，就会首先检查该网站上是否有，若有，则一般会根据这些命令来执行；若无，则会自动抓取网页或网站。文件应放于网站根目录下，并且该文件是可以通过互联网进行访问的。如Google的：下面看一个具体的实例（#后面的内容是为方便阅读而设）：# file start# Exclude Files From All Robots:User-agent: *Disallow: /security/Disallow: /admin/Disallow: /admin# End fileUser-agent：用于描述搜索引擎蜘蛛的名字，在文件中，如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则该协议对任何搜索引擎蜘蛛均有效，在” 文件中，“User-agent:*”这样的记录只能有一条。 Disallow：就表示不允许蜘蛛访问，你可以根据自己的需要设立后面的目录或者是文件，比如管理员后台登陆的页面或者目录等。 Disallow: /admin/：是指允许搜索引擎蜘蛛抓取/，而不能抓取/admin/。 Disallow: /admin：是指/ 和/admin/都不允许搜索引擎蜘蛛抓取。下面有四个举例：例一：通过”/”禁止所有搜索引擎蜘蛛抓取”/bin/cgi/”目录，以及 “/tmp/”目录和 / 文件，设置方法如下：User-agent: *Disallow: /bin/cgi/Disallow: /tmp/Disallow: /例二：通过”/”只允许某个搜索引擎抓取，而禁止其他的搜索引擎抓取。如：只允许名为”slurp”的搜索引擎蜘蛛抓取，而拒绝其他的搜索引擎蜘蛛抓取 “/cgi/” 目录下的内容，设置方法如下：User-agent: *Disallow: /cgi/User-agent: slurpDisallow:例三：禁止任何搜索引擎抓取我的网站，设置方法如下：User-agent: *Disallow: /例四：只禁止某个搜索引擎抓取我的网站如：只禁止名为“slurp”的搜索引擎蜘蛛抓取，设置方法如下：User-agent: slurpDisallow: /Robots Meta标签主要是针对整个网站而言，相比之下，Robots Meta标签则是针对某个具体的网页不希望被搜索到。需要注意的是：上述的和Robots META标签限制搜索引擎机器人（Robots）抓取站点内容的办法只是一种规则，需要搜索引擎机器人的配合才行，并不是每个Robots都遵守的，这方面网络似乎做得不是很好。

Disallowrobots.txt

是一个纯文本文件，专为搜索引擎爬虫设计，特别是网络蜘蛛。它并不直接影响用户，而是爬虫在访问网站时的首要参考。这个文件告诉网络爬虫哪些页面可以被访问，哪些应该被收录，以及哪些应被排除在收录范围之外。对SEO优化来说，合理设置文件有助于给搜索引擎留下良好的印象。它应放置在网站根目录下，文件名应全小写。

的主要功能在于维护网站安全和隐私，允许网站自主控制搜索引擎的访问权限。通过在根目录创建，站点可以明确标识哪些页面不希望被网络爬虫抓取和收录。每个网站都有权利决定网络蜘蛛是否可以访问，或者指定特定内容的收录。当爬虫访问网站时，首先会查找根目录下的，如果没有，它会继续沿着链接抓取；若存在，会依据文件内容调整抓取策略。

文件的格式如下：

如何为wordpress创建有利于seo的robots.txt文件

如果您不想让 Google 或其他搜索引擎访问您网站中的某些内容,请用文件指定搜索引擎抓取您的网站内容的方式。这是google管理员工具对功能的一个描述。文件说白了就是告诉爬虫哪些网址是可以被收录那些是禁止收录的。对于大多数wordpress博主来说很少注意,认为他无关紧要,其实不然,在wordpress优化,网站seo方面有着很重要的作用。不光可以保护网站隐私链接不被搜索到,而且可以控制网站内容的重复和抓取错误。下面我就写几种wordpress常用的规则。最简单的规则:User-agent: *Disallow:这是开放式的写法,Disallow:留空,是让搜索引擎收录所有链接。安全性的书写规则:User-agent: *Disallow: /cgi-bin/Disallow: /wp-Allow: /wp-content/uploads/Disallow: /*$Disallow: /*$Disallow: /*$Disallow: /*$Disallow: /*$Disallow: /?s=有利于seo的书写规则:(以本站为例)User-agent: *Disallow: /cgi-bin/Disallow: /wp-Disallow: */: /author/Disallow: /page/Disallow: /tag/Disallow: */trackback/Disallow: */feed/Disallow: /*$Disallow: /*$Disallow: /*$Disallow: /*$Disallow: /*$Disallow: /*?*Disallow: /?s=Sitemap:先说所我为什么这么设置。 google管理员工具在分析我网站抓取错误信息的时候,发现大量链接是的形式,为了减少抓取错误,我就让搜索不爬这些链接,Disallow: */,如果你没遇到和我一样的问题这一条你可以不用加。同样,如果你的网站有大量抓取错误的无效链接,你可以在这里指定不抓取。再有就是网站元重复太严重(标题重复,描述重复,关键词重复),这严重影响搜索引擎排名,我看中的是文章页排名,所以像标签页,作者文章归档,月份存档页,分页这些我选择Disallow。因为我的文章页面在google中的权重很高,流量几乎都是文章页面的,所以才这么设置。这个根据自己网站实际情况选择性的设置。 feed和trackback的条款是一定要的,可以说wordpress 80%以上的补充材料都是和它们有关。 wordpress官方书写规则(国外)User-agent: *Disallow: /cgi-binDisallow: /wp-adminDisallow: /wp-includesDisallow: /wp-content/pluginsDisallow: /wp-content/cacheDisallow: /wp-content/themesDisallow: /trackbackDisallow: /feedDisallow: /commentsDisallow: /author/*Disallow: */trackbackDisallow: */feedDisallow: */commentsDisallow: /*?*Disallow: /*?Allow: /wp-content/uploads# Google ImageUser-agent: Googlebot-ImageDisallow:Allow: /*# Google AdSenseUser-agent: Mediapartners-Google*Disallow:Allow: /*# digg mirrorUser-agent: duggmirrorDisallow: /Sitemap:对于自己网站情况还不太清楚的博主,我推荐用这种,没有风险,安全,有利于seo。具体内容请参考:wordpress codex在你修改文件时,可以用Google网站管理员工具检测一下是否符合规范。必须放置在一个站点的根目录下,而且文件名必须全部小写。

文章版权及转载声明：

作者:爱站本文地址：https://www.awz.cc/post/2951.html发布于昨天
文章转载或复制请以超链接形式并注明出处爱网站

标签： SEO配置中robots.txt文件如何设置

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

如何设置robots.txt文件，完全禁止某个搜索引擎。对于其它的搜索引擎，则限制某些文件夹或文件？

Disallowrobots.txt

如何为wordpress创建有利于seo的robots.txt文件

相关文章