网站所有者使用/robots.txt文件向网络机器人提供有关其网站的说明;这被称为机器人消除协议。它的工作原理如下:机器人想要
访问网站URL,比如http://www.xus
seo.com/。在此之前,它第一检查http://www.xusseo.com/robots.txt,并找到:User-agent:*Disallow:/ “User-agent:*”表示此部分适用于所有机器人。“Disallow:/”告诉机器人它不应该访问网站上的任何页面。使用/robots.txt时有两个重要的注意事项:机器人可以忽略你的/robots.txt。特殊是扫描网络以查找安全漏洞的恶意软件机器人以及垃圾邮件发送者使用的电子邮件地址收集器将不予理会。/robots.txt文件是一个公开可用的文件。任何人都可以看到您不渴望机器人使用的服务器部分。所以不要试图使用/robots.txt来隐蔽信息。本页的其余部分概述了如何在服务器上使用/robots.txt,以及一些简陋的配方。要了解更多信息。“/robots.txt”文件是一个文本文件,包含一个或多个记录。通常包含一个看起来像这样的记录:User-agent:*Disallow:/cgi-bin/Disallow:/tmp/Disallow:/~joe/在此示例中,消除了三个目录。请注意,您需要为要消除的每个URL前缀单独添加“Disallow”行–您不能在一行中说“Disallow:/cgi-bin//tmp/”。此外,您可能没有记录中的空行,因为它们用于分隔多个记录。另请注意,User-agent或Disallow行不支持globbing和正则表达式。User-agent字段中的’*’是一个特别值,意思是“任何机器人”。具体来说,你不能拥有像“User-agent:*bot*”,“Disallow:/tmp/*”或“Disallow:*.gif”这样的行。您要消除的内容取决于您的服务器。未明确制止的所有内容都被视为可以检索的公平
游戏。以下是一些例子:从整个服务器中消除所有机器人User-agent:*Disallow:/答应所有机器人完全访问User-agent:*Disallow:(或者只是创建一个空的“/robots.txt”文件,或者根本不使用它)从服务器的一部分中消除所有机器人User-agent:*Disallow:/cgi-bin/Disallow:/tmp/Disallow:/junk/消除单个机器人User-agent:BadBotDisallow:/答应单个机器人User-agent:GoogleDisallow:User-agent:*Disallow:/消除除一个以外的所有文件这当前有点尴尬,因为没有“答应”字段。简陋的方法是将所有文件制止放入一个单独的目录,比如“stuff”,并将一个文件保留在该目录上方的级别中:User-agent:*Disallow:/~joe/stuff/或者,您可以明确制止所有不答应的页面:User-agent:*Disallow:/~joe/junk.htmlDisallow:/~joe/foo.htmlDisallow:/~joe/bar.html robots.txt放在哪里简短的回答:在您的Web服务器的根目录中。当机器人查找URL的“/robots.txt”文件时,它会从URL中剥离路径组件(来自首先个单斜杠的所有内容),并将“/robots.txt”放在其位置。因此,作为网站所有者,您需要将其放在Web服务器上的正确位置,以便生成此URL。通常,这是您放置网站主要“index.html”欢迎页面的位置。究竟是什么,以及如何将文件放在那里,取决于您的Web服务器软件。请记住使用全文小写的文件名:“robots.txt”,而不是“Robots.TXT。
标签: 海南 写法 放在 文件 robots 学习网 哪里 seo