使用robots.txt限制搜寻引擎对无需检索的部分进行检索
“robots.txt”档案可告知搜寻引擎是否可以存取您网站的某些部分,进而对这些部分进行检索(1)。
图(1):所有符合条件的搜寻引擎漫游器(标有万用字符符号*)都不会存取和检索/images/下的内容,或者任何以/search作为路径开头的网址。
这个档案必须命名为“robots.txt”,并放置在您网站的根目录中(2)。
图(2):robots.txt档案的位址。
您可能不希望搜寻引擎检索网站中的某些网页,因为这些出现在搜寻结果中的网页,对使用者而言并无益处。如果您确实想阻止搜寻引擎检索您的网页,“Google网站管理员工具”中有一个很好用的robots.txt产生器,可协助您建立这个档案。请注意,如果您的网站使用了子网域,且您不希望搜寻引擎检索特定子网域中的某些网页,则您必须为该子网域建立一个单独的robots.txt档案。如需更多有关robots.txt的资讯,我们建议您参阅有关使用robots.txt档案的“网站管理员说明中心”指南。
另有几种方法可以避免您的内容出现在搜寻结果中,例如为您的robots中继标记新增“NOINDEX”、使用.htaccess对目录进行密码保护,以及使用“Google网站管理员工具”移除已检索的内容。
Google工程师Matt Cutts在一部实用影片中详细解说了每种网址封锁方法的注意事项。
最佳作法
1对敏感的内容使用更为安全的方法
您或许对使用robots.txt来封锁敏感或机密资料感觉不是特别放心。其中一个原因是,如果互联网上碰巧存在连至您封锁网址的连结(例如参照记录),则搜寻引擎仍然可以参照该网址(只是显示网址,而不显示标题或摘要)。此外,一些不符合条件的搜寻引擎或恶意搜寻引擎并不遵守“漫游器排除标准”,可能会违背您的robots.txt指示。最后,好奇的使用者可能会查看您robots.txt档案中的目录或子目录,并猜中您不想曝光的内容网址。对内容加密或使用.htaccess对内容进行密码保护是更安全的选择。
请避免 :- 允许检索类似搜寻结果的网页(使用者不喜欢从一个搜寻结果网页进入另一个搜寻结果网页,这对他们而言没有多大价值)
- 允许检索大量自动产生的且内容相同或稍有不同的网页:“难道这 100,000 个近乎相同的网页真的应该在搜寻引擎的索引中出现吗?”
- 允许检索因Proxy服务而建立的网址
词汇解释
万用字符
替代任何其他字符或字符串的字符(*)。
.htaccess
超文字存取档案,可让您管理网络服务器设定。
参照记录
写入存取记录的参照资讯。加以追踪即可了解访客的来源网站。
漫游器排除标准 避免让网络自动寻检程式/检索器(例如Googlebot)存取网站全部内容或部分内容的惯例,允许 的话则会让内容公开曝光。 Proxy服务 内部网络和外部网络都在连线中的行况下,取代连线功能的电脑或软件。