使用robots.txt限制搜寻引擎对无需检索的部分进行检索

“robots.txt”档案可告知搜寻引擎是否可以存取您网站的某些部分，进而对这些部分进行检索(1)。

图(1)：所有符合条件的搜寻引擎漫游器(标有万用字符符号*)都不会存取和检索/images/下的内容，或者任何以/search作为路径开头的网址。

这个档案必须命名为“robots.txt”，并放置在您网站的根目录中(2)。

图(2)：robots.txt档案的位址。

您可能不希望搜寻引擎检索网站中的某些网页，因为这些出现在搜寻结果中的网页，对使用者而言并无益处。如果您确实想阻止搜寻引擎检索您的网页，“Google网站管理员工具”中有一个很好用的robots.txt产生器，可协助您建立这个档案。请注意，如果您的网站使用了子网域，且您不希望搜寻引擎检索特定子网域中的某些网页，则您必须为该子网域建立一个单独的robots.txt档案。如需更多有关robots.txt的资讯，我们建议您参阅有关使用robots.txt档案的“网站管理员说明中心”指南。
另有几种方法可以避免您的内容出现在搜寻结果中，例如为您的robots中继标记新增“NOINDEX”、使用.htaccess对目录进行密码保护，以及使用“Google网站管理员工具”移除已检索的内容。
Google工程师Matt Cutts在一部实用影片中详细解说了每种网址封锁方法的注意事项。

最佳作法

1对敏感的内容使用更为安全的方法

您或许对使用robots.txt来封锁敏感或机密资料感觉不是特别放心。其中一个原因是，如果互联网上碰巧存在连至您封锁网址的连结(例如参照记录)，则搜寻引擎仍然可以参照该网址(只是显示网址，而不显示标题或摘要)。此外，一些不符合条件的搜寻引擎或恶意搜寻引擎并不遵守“漫游器排除标准”，可能会违背您的robots.txt指示。最后，好奇的使用者可能会查看您robots.txt档案中的目录或子目录，并猜中您不想曝光的内容网址。对内容加密或使用.htaccess对内容进行密码保护是更安全的选择。

请避免 :

允许检索类似搜寻结果的网页(使用者不喜欢从一个搜寻结果网页进入另一个搜寻结果网页，这对他们而言没有多大价值)
允许检索大量自动产生的且内容相同或稍有不同的网页:“难道这 100,000 个近乎相同的网页真的应该在搜寻引擎的索引中出现吗？”
允许检索因Proxy服务而建立的网址

词汇解释

万用字符
替代任何其他字符或字符串的字符(*)。

.htaccess
超文字存取档案，可让您管理网络服务器设定。

参照记录
写入存取记录的参照资讯。加以追踪即可了解访客的来源网站。

漫游器排除标准
避免让网络自动寻检程式/检索器(例如Googlebot)存取网站全部内容或部分内容的惯例，允许
的话则会让内容公开曝光。

Proxy服务
内部网络和外部网络都在连线中的行况下，取代连线功能的电脑或软件。

有效利用robots.txt

使用robots.txt限制搜寻引擎对无需检索的部分进行检索

最佳作法

1对敏感的内容使用更为安全的方法

词汇解释