使用robots.txt限制搜尋引擎對無需檢索的部分進行檢索

「robots.txt」檔案可告知搜尋引擎是否可以存取您網站的某些部分，進而對這些部分進行檢索(1)。

圖(1)：所有符合條件的搜尋引擎漫遊器(標有萬用字元符號*)都不會存取和檢索/images/下的內容，或者任何以/search作為路徑開頭的網址。

這個檔案必須命名為「robots.txt」，並放置在您網站的根目錄中(2)。

圖(2)：robots.txt檔案的位址。

您可能不希望搜尋引擎檢索網站中的某些網頁，因為這些出現在搜尋結果中的網頁，對使用者而言並無益處。如果您確實想阻止搜尋引擎檢索您的網頁，「Google網站管理員工具」中有一個很好用的robots.txt產生器，可協助您建立這個檔案。請注意，如果您的網站使用了子網域，且您不希望搜尋引擎檢索特定子網域中的某些網頁，則您必須為該子網域建立一個單獨的robots.txt檔案。如需更多有關robots.txt的資訊，我們建議您參閱有關使用robots.txt檔案的「網站管理員說明中心」指南。
另有幾種方法可以避免您的內容出現在搜尋結果中，例如為您的robots中繼標記新增「NOINDEX」、使用.htaccess對目錄進行密碼保護，以及使用「Google網站管理員工具」移除已檢索的內容。
Google工程師Matt Cutts在一部實用影片中詳細解說了每種網址封鎖方法的注意事項。

最佳作法

1對敏感的內容使用更為安全的方法

您或許對使用robots.txt來封鎖敏感或機密資料感覺不是特別放心。其中一個原因是，如果網際網路上碰巧存在連至您封鎖網址的連結(例如參照記錄)，則搜尋引擎仍然可以參照該網址(只是顯示網址，而不顯示標題或摘要)。此外，一些不符合條件的搜尋引擎或惡意搜尋引擎並不遵守「漫遊器排除標準」，可能會違背您的robots.txt指示。最後，好奇的使用者可能會查看您robots.txt檔案中的目錄或子目錄，並猜中您不想曝光的內容網址。對內容加密或使用.htaccess對內容進行密碼保護是更安全的選擇。

請避免 :

允許檢索類似搜尋結果的網頁(使用者不喜歡從一個搜尋結果網頁進入另一個搜尋結果網頁，這對他們而言沒有多大價值)
允許檢索大量自動產生的且內容相同或稍有不同的網頁:「難道這 100,000 個近乎相同的網頁真的應該在搜尋引擎的索引中出現嗎？」
允許檢索因Proxy服務而建立的網址

詞彙解釋

萬用字元
替代任何其他字元或字元串的字元(*)。

.htaccess
超文字存取檔案，可讓您管理網路伺服器設定。

參照記錄
寫入存取記錄的參照資訊。加以追蹤即可瞭解訪客的來源網站。

漫遊器排除標準
避免讓網路自動尋檢程式/檢索器(例如Googlebot)存取網站全部內容或部分內容的慣例，允許
的話則會讓內容公開曝光。

Proxy服務
內部網路和外部網路都在連線中的行況下，取代連線功能的電腦或軟體。

有效利用robots.txt

使用robots.txt限制搜尋引擎對無需檢索的部分進行檢索

最佳作法

1對敏感的內容使用更為安全的方法

詞彙解釋