文章專區

SEO與搜尋行銷相關

Robots.txt 實際應用與設定

淺談 Robots.txt 是什麼?能瞭解,Robots.txt 主要是應用在提交給搜尋引擎不需要檢索的頁面名單,先前我們說明過,大部分不需要的檢索的頁面可能是:管理員的登入介面、重複的諮詢頁面、尚未完成或修改調整中的頁面等。這些頁面都包含在網站頁面資訊當中,擁有很重要的使用操作功能,但站在使用者搜詢需求上,卻相較無查閱內容,因此減少相關的頁面檢索能夠提升搜尋引擎對網站內容的精確性。
 
瞭解了Robots.txt的應用時機後,我們便能著手開始設定提交內容。
 
在網站中建立一個名稱為:Robots 的 .txt 檔案,在檔案內容中設定需要排除檢索檢索的頁面檔案與路徑。
 
 
以下為常見的設定規則:
 
1.User-agent:宣告設定規則對那些搜尋引擎爬蟲有效,可能是:Google、Yahoo、Bing、Baidu等...另外*號代表全部搜尋引擎適用。(必要宣告規則)
 
2.Disallow:用來指定不需要被檢索的目錄或檔案,需注意檔案路徑的完整明確性。(與 Allow 為選擇性宣告規則)
 
3.Allow:用來指定可以被檢索的目錄或檔案,需注意檔案路徑的完整明確性。(與 Disallow 為選擇性宣告規則,且 Allow 可以與 Disallow 同時應用,但 Allow 的優先權大於 Disallow)
 
4.Sitemap:指定網站內的 sitemap 檔案存放位置,需使用絕對路徑。(非必要宣告規則)
 
 
使用範例一:整個網站不要被所有收尋引擎爬蟲檢索
 
User-agent: *  (適用所有搜尋引擎爬蟲)
Disallow: /    (Disallow用來指定不需要被檢索的資訊,/代表全站根目錄)
 
 
使用範例二:只允許特定搜尋引擎爬蟲檢索特定內容 (Allow 可以與 Disallow 同時應用,但 Allow 的優先權大於 Disallow)
 
User-agent: Googlebot          (適用 Goole 搜尋引擎爬蟲)
Allow:/classA/pageA.html    (Allow用來指定需要被檢索的資訊)
 
 
User-agent: *        (因為先宣告了 Google 可以檢索,因此除了 Google 以外的皆不檢索)
Disallo:/classA/pageA.html    ( Disallow 用來指定不需要被檢索的資訊,)
 
 
使用範例三:針對特定搜尋引擎爬蟲不需要檢索特定檔案類型
 
User-agent: Bingbot  (適用 Bingbot 搜尋引擎爬蟲)
Disallow: /*.htm$    (不論檔案名稱與參數值,只要是.htm皆不檢索)