如何在robots.txt中允许特定页面被搜索引擎收录

爱站昨天 2 0条评论

摘要： robots.txt文件用于告知搜索引擎哪些页面可以访问和收录。通常,我们会在robots.txt中禁止一些不需要被收录的页面,如后台管理页面、购物车等。但有时我们希望某些页面被收...

robots.txt文件用于告知搜索引擎哪些页面可以访问和收录。通常,我们会在robots.txt中禁止一些不需要被收录的页面,如后台管理页面、购物车等。但有时我们希望某些页面被收录,这时可以使用以下方式:

这样就允许/about/和/products/这两个页面被搜索引擎收录。

Google Search Console是一个强大的工具,可以帮助我们监控和管理网站的收录情况。我们可以在Search Console中查看robots.txt文件是否正确,以及sitemap的提交状态。发现问题,还可以立即修复并重新提交。Search Console还提供网站收录报告,可以帮助我们了解网站的收录情况,并针对性地优化。

如何使用robots.txt管理搜索引擎蜘蛛？

网络蜘蛛进入一个网站，一般会访问一个特殊的文本文件，这个文件一般放在网站服务器的根目录下。网站管理员可以通过来定义哪些目录网络蜘蛛不能访问，或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的可执行文件目录和临时文件目录不希望被搜索引擎搜索到，那么网站管理员就可以把这些目录定义为拒绝访问目录。语法很简单，例如如果对目录没有任何限制，可以用以下两行来描述：

User-agent:*

当然，只是一个协议，如果网络蜘蛛的设计者不遵循这个协议，网站管理员也无法阻止网络蜘蛛对于某些页面的访问，但一般的网络蜘蛛都会遵循这些协议，而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。

由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面

1、修改robots文件，取消该页面的屏蔽，robots的标准写法网络百科里有详细介绍：网页链接

2、在网络站长平台（已更名为网络资源平台）更新网站robots，过一段时间，您的这个网站就会被正常抓取收录了。

robots文件怎么设置Robots文件

代码设置什么以及如何设置它

必须放在一个站点的根目录下，文件名必须全部小写。文件的格式

用户代理:定义搜索引擎的类型。

不允许:定义禁止被搜索引擎包括的地址。

允许:定义允许被搜索引擎包含的地址。

常用的搜索引擎类型有:(用户代理区分大小写)

谷歌:谷歌机器人

网络:Baiduspider

蜘蛛:雅虎！大声地吃

Alexaspider:ia_archiver

冰蜘蛛:MSNbot

Altavista蜘蛛:滑板车

Lycosspider:lycos_spider_(霸王龙)

所有网络蜘蛛:快速网络爬虫

墨克托米蜘蛛:咕嘟

搜搜蜘蛛

谷歌Adsense蜘蛛:媒体伙伴-谷歌

蜘蛛:有道机器人

文件的写入

用户代理:*这里*代表各种搜索引擎，*是通配符。

Disallow:/admin/这里的定义是禁止对admin目录下的目录进行爬网。

Disallow:/require/这里的定义是禁止对require目录下的目录进行爬网。

Disallow:/ABC/这里的定义是禁止抓取ABC目录下的目录。

不允许:/cgi-bin/*。禁止访问/cgi-bin/目录中所有以“.”开头的文件。 htm

follow指令表示搜索机器人可以继续沿着页面上的链接爬行；

Robots元标记的默认值是index和follow，但inktomi除外，它的默认值是index和nofollow。

请注意:

上述和RobotsMeta标签限制搜索引擎机器人抓取站点内容。只是需要搜索引擎机器人配合的规则，并不是每个机器人都遵守。

目前看来，绝大多数的搜索引擎机器人都遵守的规则然而，目前对RobotsMETA标签的支持并不多，但正在逐渐增加。比如著名搜索引擎GOOGLE就完全支持，GOOGLE还增加了指令“存档”，可以限制GOOGLE是否保留网页快照。

有谁知道如何让自己的网站快速被收索引擎收录呢？

1、提交链接

要想让你新上线的网站能快速被搜索引擎收录，向搜索引擎提交你网站的链接，只有向搜索引擎提交了链接才相当于告诉搜索引擎的新做了一个网站，你过来抓取我吧。一般就是在网络、360、网络、等这些搜索引擎提交你网站的链接

2、网站模板

至于网站模板这方面其实也没什么特别的方法，其实很多站长的网站都是直接套用其它网站的模板得来的，这里我说的是你要是套用其它网站的膜拜最好把网站简单的修改一下，不和之前的网站完全一样，至少在搜索引擎看来你的网站跟其它网站不太一样。可能一些企业网站就不会担心这个问题，上面讲的只针对套用模板的网站。

3、网站内容

网站内容这方面是我特别重视的一点，也是搜索引擎最注重的一点就是内容的原创，原创内容是搜索引擎非常喜欢的东西，这点相信你都知道，原创文章的收录速度是远远大于非原创文章的。所以在网站上线的时候一定要先添加一点原创的东西，这样搜索引擎蜘蛛来了就会喜欢你的网站，从而对你的网站产生一个良好的“印象”，这对你以后网站的发展是十分有利的，也同样能加快网络对你的收录。

4、外部链接

新上线的网站，想要网络快速收录你的网站，做外部链接是必不可少的工作。

5、其它因素

其它方面的话比如：设置robots文件，网站地图，每天坚持更新网站和发布外链

burpsuitev1.5.18怎么用？

1)Proxy(代理)

代理功能使我们能够截获并修改请求.为了拦截请求,并对其进行操作，我们必须通过BurpSuite配置我们的浏览器.

一旦在浏览器上设置好之后，就打开BurpSuite，去Proxy项进行Intercept(截断),需要确保interceptison.

打开alerts标签,可以看到代理正运行在8080端口.我们可以在Proxy_>options下来修改这个配置.

打开Proxy下的options标签

在这里我们可以编辑代理正在监听的端口,甚至添加一个新的代理监听也有向SSL保护网站提交证书的选项.默认情况下，Burp创建一个自签名的证书之后立即安装-signedper-hostcertificates选项选中之后Burp的证书功能将生成一个我们能够链接的证书签署的特定主机.在这里我们关心的唯一事情是，当一个用户链接到一个SSL保护的网站时，能后减少网站警告提示的次数.

如果我们不选中listenonloopbackinterfaceonly选项，意味着BurpProxy可以作为一个网络上其它系统的代理。这意味着在同一网络中的任何计算机都可以使用BurpProxy功能成为代理,并中继通过它的流量.

supportinvisibleproxyingfornon-proxy-awareclient选项是用于客户端不知道他们使用的是代理的情况下.这意味着代理设置不是设置在浏览器，有时候设置在hosts文件中.在这种情况下，和将代理选项设置在浏览器本身所不同的是Burp需要知道它是从一个非代理客户端接收流量的和redirecttoport选项将客户端重定向到我们在该选项后设置的主机和端口。

同样,我们可以拦截请求，并根据我们指定的规则返回响应.

这里有个选项用来修改从响应中接收到的html网页。我们可以取消隐藏的表单字段,删除javascript等。还有一个选项用自定义字符串替换掉寻找到的特定的模式.我们需要用指定正则表达式。 Burp将解析请求或者响应以期望能够寻找到这种模式,将会用自定义的字符串来替换它.

2)Spider(抓取)

BurpSpider用来映射Web应用程序.它会自动抓去Web应用程序的链接,提交它发现的所有登陆表单,从而详细的分析整个应用程序.这些链接会传递给BurpScanner,进行详细的扫描.在这种情况下,我们将使用上DVWA(DamnVulnerableWebApplication).只是需要DVMA使用你的浏览器，确保BurpSuite上的inerrceptison,并且得到Brup截取的请求,右键单击拦截的请求，选择SendtoSpider发送给蜘蛛.

接下来会弹出一个警告弹窗让我们additemtoscope(添加项目到作用域).点击Yes.一个范围将在我们运行的测试目标上定义好.

我们能够在sitemap_>target标签看到一个url已经添加进作用域.我们也能看到一些其它的目标已经在目标列表中添加好了会自动使用代理浏览我们定义好的目标网页.我们可以使用单击右键_>additemtoscope(添加项目到作用域)添加任何项目到我们的作用域.

进入Scope标签,我们能够看到DVWA应用已经添加到作用域.

接下来我们进入Spider标签,点击options(选项),我们可以设置各种选项当运行Burp检测应用程序的时候.我没有可以让Burp检查文件()，它会尝试抓去网站管理员不允许搜索引擎索引的目录.另外一个重要的选项是passivelyspiderasyoubrowse(被动蜘蛛浏览)。基本上BurpSpider可以以被动和主动模式运行,选择这个就要求BurpSpider保持新的内容和链接进行扫描,因为我们浏览应用程序的时候使用了Burpproxy。

另外一个重要的选项是applicationlogin(应用程序登陆).一旦BurpSpider提交一个登陆表单的时候就开始爬行(抓取).它可以自动提交我们提供给它的证书.我们同样可以设置admin/password凭证,设置好之后,他们会做为DVWA中的凭证.因此BurpSpider可以自动提交那些信息凭证,并且保持爬行抓取的状态希望能够获得更多的新的信息.你也可以在thread(线程)项来修改线程数.

BurpSuite使用教程

需要开始爬行抓去Web应用程序,只需要右键点击目标展开目标.然后在展开的dvwa项上单击鼠标右键选择Spiderthisbrach

这样就会启动BurpSpider，在Spidercontrol标签下我们会看到正在做出的请求,我们也可以为BurpSpider自定义一个范围.

网站里的“robots”文件是什么意思？

搜索引擎爬去我们页面的工具叫做搜索引擎机器人，也生动的叫做“蜘蛛”

蜘蛛在爬去网站页面之前，会先去访问网站根目录下面的一个文件，就是。这个文件其实就是给“蜘蛛”的规则，如果没有这个文件，蜘蛛会认为你的网站同意全部抓取网页。

文件是一个纯文本文件，可以告诉蜘蛛哪些页面可以爬取（收录），哪些页面不能爬取。

举个例子：建立一个名为的文本文件，然后输入User-agent:*星号说明允许所有搜索引擎收录?表示不允许收录以?前缀的链接，比如?=865Disallow:/tmp/表示不允许收录根目录下的tmp目录，包括目录下的文件，比如tmp/

文章版权及转载声明：

作者:爱站本文地址：https://www.awz.cc/post/11644.html发布于昨天
文章转载或复制请以超链接形式并注明出处爱网站

标签：如何在robots.txt中允许特定页面被搜索引擎收录

一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

如何使用robots.txt管理搜索引擎蜘蛛？

由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面

robots文件怎么设置Robots文件

相关文章