使用robots.txt限制搜尋引擎對無需檢索的部分進行檢索
「robots.txt」檔案可告知搜尋引擎是否可以存取您網站的某些部分,進而對這些部分進行檢索(1)。
圖(1):所有符合條件的搜尋引擎漫遊器(標有萬用字元符號*)都不會存取和檢索/images/下的內容,或者任何以/search作為路徑開頭的網址。
這個檔案必須命名為「robots.txt」,並放置在您網站的根目錄中(2)。
圖(2):robots.txt檔案的位址。
您可能不希望搜尋引擎檢索網站中的某些網頁,因為這些出現在搜尋結果中的網頁,對使用者而言並無益處。如果您確實想阻止搜尋引擎檢索您的網頁,「Google網站管理員工具」中有一個很好用的robots.txt產生器,可協助您建立這個檔案。請注意,如果您的網站使用了子網域,且您不希望搜尋引擎檢索特定子網域中的某些網頁,則您必須為該子網域建立一個單獨的robots.txt檔案。如需更多有關robots.txt的資訊,我們建議您參閱有關使用robots.txt檔案的「網站管理員說明中心」指南。
另有幾種方法可以避免您的內容出現在搜尋結果中,例如為您的robots中繼標記新增「NOINDEX」、使用.htaccess對目錄進行密碼保護,以及使用「Google網站管理員工具」移除已檢索的內容。
Google工程師Matt Cutts在一部實用影片中詳細解說了每種網址封鎖方法的注意事項。
最佳作法
1對敏感的內容使用更為安全的方法
您或許對使用robots.txt來封鎖敏感或機密資料感覺不是特別放心。其中一個原因是,如果網際網路上碰巧存在連至您封鎖網址的連結(例如參照記錄),則搜尋引擎仍然可以參照該網址(只是顯示網址,而不顯示標題或摘要)。此外,一些不符合條件的搜尋引擎或惡意搜尋引擎並不遵守「漫遊器排除標準」,可能會違背您的robots.txt指示。最後,好奇的使用者可能會查看您robots.txt檔案中的目錄或子目錄,並猜中您不想曝光的內容網址。對內容加密或使用.htaccess對內容進行密碼保護是更安全的選擇。
請避免 :- 允許檢索類似搜尋結果的網頁(使用者不喜歡從一個搜尋結果網頁進入另一個搜尋結果網頁,這對他們而言沒有多大價值)
- 允許檢索大量自動產生的且內容相同或稍有不同的網頁:「難道這 100,000 個近乎相同的網頁真的應該在搜尋引擎的索引中出現嗎?」
- 允許檢索因Proxy服務而建立的網址
詞彙解釋
萬用字元
替代任何其他字元或字元串的字元(*)。
.htaccess
超文字存取檔案,可讓您管理網路伺服器設定。
參照記錄
寫入存取記錄的參照資訊。加以追蹤即可瞭解訪客的來源網站。
漫遊器排除標準 避免讓網路自動尋檢程式/檢索器(例如Googlebot)存取網站全部內容或部分內容的慣例,允許 的話則會讓內容公開曝光。 Proxy服務 內部網路和外部網路都在連線中的行況下,取代連線功能的電腦或軟體。