robots.txt文件是一个用于网站管理员与搜索引擎爬虫之间沟通的标准。它位于网站的根目录,用来告诉搜索引擎爬虫哪些页面可以抓取,哪些页面不允许抓取。这是一种"规则建议",搜索引擎爬虫通常会遵循这些建议,但也不是百分之百。
robots.txt文件由若干行组成,每行包含一条规则,规则由"User-agent:"和"Disallow:"两个关键词组成。"User-agent:"指定规则适用的搜索引擎爬虫,而"Disallow:"指定不允许抓取的目录或文件。例如,以下规则表示不允许所有搜索引擎爬虫访问/admin/和/private/目录:
User-agent: *Disallow: /admin/Disallow: /private/
除使用"Disallow:"禁止抓取外,还可以使用"Allow:"来专门允许某些目录或文件被抓取。robots.txt文件还支持注释语法,使用"#"开头的行为注释。
robots.txt文件是一个简单但非常有用的工具,有助于网站管理员控制搜索引擎爬虫的访问行为,保护网站的隐私和安全。合理配置robots.txt不仅可以提高网站的搜索引擎优化效果,也能更好地管理网站的内容。
4.5 什么是Robots.txt
是一个文件,这个文件告诉搜索引擎蜘蛛不要抓取网站的某些页面或某些部分。 大多数主流的搜索引擎(包括Google,Bing和Yahoo)都认可并接受的请求。 大多数网站不需要文件,因为Google通常可以找到网站上所有重要的页面,并为它们编制索引。 它们能够自动忽略不重要的页面和重复的页面。 然而,您要使用文件的主要原因有三个。 阻止非公开页面被爬取:有时候在网站上,有些页面不想被索引。 比如,您可能有一个临时的、还没有完成的页面,或许是登录页面。 这些页面必须存在,但是,你不希望其他人访问这些页面。 在这种情况下,您可以使用文件,阻止爬虫或机器人爬取页面。 最大限度地提高抓取配额:如果遇到了抓取配额问题,就无法为所有的页面都建立索引。 可以通过屏蔽不重要的页面,这样就让Google机器人将抓取配额花费在实际需要的地方。 阻止对资源建立索引:元指令(meta directives)与一样,可以阻止页面被建立索引。 但是,元指令不适用于多媒体资源,例如PDF和图像。 此时,就需要上场。 划重点将告诉搜索引擎爬虫,不要爬取特定的页面。 您可以检查您在Google Search Console中已建立索引的页面数。 如果数量与您想要建立索引的页面数量一致,那就无需使用文件。 但是,如果这个数量比预期的要多(并且你注意到有一部分URL不应该被索引),这就要为您的网站创建文件。 第一步是创建文件。 这是一个文本文件,您实际上可以使用Windows记事本创建一个文件。 无论最终如何制作文件,它的格式都是完全相同的:User-agent: X Disallow: Y用户代理(User-agent)是正在与您交谈的特定机器人。 “Disallow(不允许)”后面的所有部分,都是您不想让建立索引的页面或者部分页面。 这是一个例子:User-agent: googlebot Disallow: /images它将告诉Googlebot不要索引您网站的图片文件。 您还可以使用星号(*),和所有光顾您网站的爬虫进行对话。 看这个例子:User-agent: * Disallow: /images星号“*”,它将告诉所有蜘蛛不要爬取您的图像文件夹。 这只是使用文件的场景之一。 这篇Google的官方指南详细介绍了阻止/允许漫游器抓取您网站不同页面的不同规则。 当您创建了之后,接下来就该使用它了。 从技术上讲,您可以将文件放置在网站的任何主目录中。 但是,为了增加发现文件的几率,建议将其放置在:(请注意,您的文件区分大小写。 因此请确保在文件名中使用小写的“r”)正确设置文件非常重要。 一个错误,可能会让您的整个网站取消索引。 幸运的是,有一款工具,可以检查是否设置错误。 它就是:Google机器人测试工具。 机器人测试工具/webmasters/t...它显示了您的文件…以及发现的错误和警告:如图所示,我们阻止了Spider爬取我们的WordPress管理页面。 我们还使用阻止WordPress自动生成的标记页被抓取(以限制重复内容)。 当我们可以使用“noindex”元标签来阻止页面被索引,为何还要使用?之前我们提到过:noindex标签很难禁止多媒体资源(例如视频和PDF)被建立索引。 还有,如果您有几千个页面要禁止被索引。 使用要比在每个页面上手动添加noindex标签容易得多。 在某些极端情况下,Google机器人着陆到您使用noindex标签的网页上,会浪费抓取配额。 除了这三种情况之外,我建议使用元指令代替。 它更容易实现。 而且发生灾难的可能性也较小(例如禁止整个站点被索引)。 作者:光头强(Brian Dean)翻译:叶赛文原贴(英文)/hub/seo/r...
Robots.txt写法的详细介绍
文件是网站与搜索引擎之间沟通的关键桥梁,对于SEO优化至关重要。 正确设置可以防止搜索引擎抓取不希望收录的页面,合理管理网站流量。 本文详细解析的作用、基本语法及其各种写法,帮助网站管理员和SEO从业者掌握正确设置方法。
文件的主要作用是允许或禁止搜索引擎抓取网站的某些部分。 默认情况下,搜索引擎可以抓取网站所有内容,但为了限制访问特定页面或目录,网站可以使用文件来实现。
每个搜索引擎都有一个名为“蜘蛛”(spider)或“机器人”(bot)的程序,用于爬取网站内容。 这些蜘蛛在访问网站时会首先检查是否存在文件。 如果存在,则会根据文件内容判断哪些页面和内容允许或禁止抓取。 文件中使用User-agent指定搜索引擎名称,Disallow或Allow关键字来控制访问权限。
基本语法示例如下:
User-agent: *
Disallow: /
上述代码表示禁止所有搜索引擎抓取网站任何内容。 若要允许所有页面被抓取,只需删除或保留一个空的文件。 允许特定搜索引擎抓取时,需要在User-agent后指定搜索引擎名称。
以下是文件的不同写法及其用途:
1. 禁止所有搜索引擎抓取任何页面:
User-agent: *
Disallow: /
2. 允许所有搜索引擎抓取所有页面:
User-agent: *
3. 仅允许特定搜索引擎抓取:
User-agent: baiduspider
User-agent: googlebot
User-agent: *
Disallow: /
4. 禁止特定搜索引擎抓取:
User-agent: baiduspider
Disallow: /
User-agent: googlebot
Disallow: /
User-agent: *
5. 禁止特定目录及文件被抓取:
User-agent: *
Disallow: /asf/
Disallow: /2020/
6. 允许特定目录下的特定URL被抓取:
User-agent: *
Allow: /df/
Allow: /df/*
Disallow: /df/
7. 使用通配符匹配特定类型URL:
User-agent: *
Disallow: /abc/
Disallow: /*?*
Disallow: /rt/jc*
Disallow: /*
Disallow: /*ps*
8. 使用结束符匹配特定类型结尾的URL:
User-agent: *
Disallow: /abc/*$
Disallow: /*$
Disallow: /*$
通过以上方法,网站管理员可以根据需要灵活控制搜索引擎的抓取行为,优化网站在搜索引擎的展示效果。 正确设置文件有助于提升网站SEO表现和用户体验。
robots文件详细介绍
文件是网站根目录下的文本文件,控制搜索引擎爬虫的访问。 通过不同规则和指令,站点管理员可指导爬虫允许或忽略特定页面。 典型示例包括:允许或禁止特定目录或页面的访问,如阻止爬虫访问私有与管理区域,允许访问图片目录。 指定网站地图位置,帮助搜索引擎获取网站结构与内容信息,提高索引效率。 请注意,文件仅提供给爬虫的指导建议,而非强制规则。 一些爬虫可能无视规则。 确保将其命名为并放置于根目录中。 使用文本编辑器创建,通过FTP或文件管理器上传至网站服务器。 创建文件的步骤包括确保文件名正确,放置于根目录,并通过适当工具上传至服务器。 正确创建文件对于保护敏感信息和优化SEO至关重要。