robots.txt文件寫法大全,掌握每個細節
robots介紹
robots是翻譯過來是機器人的意思,但在網頁中是網站跟搜索引擎爬蟲(搜索蜘蛛)的協議,用robots.txt文件來告訴爬蟲允許爬取的范圍。爬蟲訪問網站時會第一時間檢測網站是否含有robots.txt文件,如有則訪問,并以該文件的說明爬取指定范圍的文件。因此robots.txt是爬蟲來到網站后第一個要爬取的文件。
正因為robots.txt對搜索蜘蛛的作用,如此我們可以使用robots.txt對蜘蛛進行限制和規范,讓搜索引擎蜘蛛爬取更有價值的頁面,提高蜘蛛的爬取效率,節約蜘蛛資源。
要知道搜索引擎不會隨便浪費程序到處爬行,對于每個網站所派出的蜘蛛數量是有限的,特別是新站蜘蛛會更少,同時蜘蛛的數量是根據網站的頁面量級來進行匹配的,網站頁面量級越高,搜索引擎匹配的蜘蛛數量越多。因此我們更加不能浪費蜘蛛,讓其爬取一些無意義的頁面純屬浪費,使用robots.txt文件進行限制則變得非常有必要了。
說這么多就是表示robots.txt文件的重要性,我們應該做好robots.txt的編寫,這對seo非常有意義,那么robots.txt該怎么寫呢?具體的規則怎么操作,下面seo手冊為大家進行詳細說明。
前提條件
百度聲明:robots工具目前支持48k的文件內容檢測,請保證您的robots.txt文件不要過大,目錄最長不超過250個字符。所以url不能太長,文件不能太大,48kb綽綽有余了。
放置位置:robots.txt通常位于網站根目錄,可以直接訪問,如:http://www.seoshouce.com/robots.txt
會使用到的幾個格式:
User-agent: 這里放搜索蜘蛛名稱
Disallow:這里放不允許蜘蛛爬取的文件或目錄
Allow:這里放允許蜘蛛爬取的文件或目錄(一般都是默認允許所以不寫,特殊情況下才使用)
“*”,星號通配符,便是泛指,進行模糊匹配
“$”,這個符號是結束符
“/”,開頭斜杠一般指的首頁或是網站根目錄
下面進行robots.txt寫法實例說明
1、禁止所有蜘蛛爬行
user-agent:*
Disallow: /
如圖淘寶禁止蜘蛛訪問后,蜘蛛啥也抓不到。
2、禁止某個搜索蜘蛛/僅禁止某個蜘蛛訪問
user-agent:googlebot
Disallow: /
說明:表示不允許谷歌蜘蛛進行爬行,其它蜘蛛默認允許。
3、僅允許某個蜘蛛訪問
user-agent:baiduspider
Allow: /
user-agent:*
Disallow: /
說明:表示僅允許百度蜘蛛訪問,先允許后禁止所有蜘蛛,上下順序可以交換。
4、禁止蜘蛛訪問某個特定目錄
user-agent:*
Disallow: /123/
Disallow: /456/
說明:表示不允許所有蜘蛛訪問123,456這兩個目錄,包括目錄文件下的文件,每個目錄都需要分開寫。
5、禁止蜘蛛訪問以某個形式形成的文件
user-agent:*
Disallow: /123
說明:表示禁止所有蜘蛛訪問以123形式存在的文件,包括目錄,一般多指目錄,這種寫法還是很少,存在歧義。
6、禁止蜘蛛訪問某個特定頁面
user-agent:*
Disallow: /789.html
說明:表示禁止所有蜘蛛訪問789.html這個頁面。
7、放出某個被禁止訪問文件下的部分文件
user-agent:*
Disallow: /123/
Allow: /123/img/
說明:上述寫法本身已經禁止所有蜘蛛訪問123目錄,但是對于123目錄下的img目錄(包括此目錄下的文件)單獨允許蜘蛛訪問。
8、允許蜘蛛訪問某個文件下的特定文件
user-agent:*
Disallow: /123/
Allow: /123/*.html
說明:表示禁止所有蜘蛛訪問123目錄,但對于123目錄下的所有html文件允許訪問。
9、禁止蜘蛛訪問某個文件下的特定文件
user-agent:*
Disallow: /123/*.html
說明:僅禁止所有蜘蛛訪問123目錄下的所有html文件,其它文件照常訪問。
10、禁止蜘蛛訪問動態頁面
user-agent:*
Disallow:/*?*
說明:用通配符表達不管問號前后是什么,只要帶了問號參數的都直接禁止所有蜘蛛訪問。有的時候有些人會專門刷你的問號主域頁面,來做泛目錄或寄生蟲或搜索留痕,可以使用這個方法進行屏蔽,則蜘蛛不會在抓取也不會再收錄,避免屏蔽漏掉應該再加一個,如下:
user-agent:*
Disallow:/*?*
Disallow:/?*
說明:不管問號前后是什么,或是單獨問號后面是什么,都禁止所有蜘蛛抓取。
11、禁止抓取某種特定文件
user-agent:*
Disallow:/*.jpg$
Disallow:/*.css$
Disallow:/*.js$
說明:禁止所有蜘蛛訪問jpg格式的圖片、css樣式表以及js文件,如要屏蔽所有圖片,則將所有圖片格式一個個列出即可。
12、加入蜘蛛地圖或頁面地圖文件
user-agent:*
Sitemap:http://www.ekklesiya.com/sitemap.xml
Sitemap:http://www.ekklesiya.com/sitemap.html
說明:允許所有蜘蛛訪問蜘蛛地圖以及網站頁面地圖,加入地圖有利于蜘蛛快速進行抓取,提高發現頁面url的抓取途徑。
提示:
一般來說網站程序文件,模板文件,數據文件可以進行屏蔽,如/bin/,/php/,/include/,/template/,/data/。
網站后臺文件也可以進行屏蔽,但要用通配符,以免被有心人利用,如:/houtai/,寫成/h*i/,只要網站沒有以這種開頭和結尾的目錄就可以使用這種,如存在歧義,則修改,如/ho*i/。
robots.txt不是絕對,在多數情況下,文件里禁止爬行的文件都不會被訪問,也不會被收錄,但也存在被收錄的情況,所以不要太絕對化。
來源:http://www.seoshouce.com/seo/17.html
本文由摸索網(http://www.ekklesiya.com)發布,不代表摸索網立場,轉載聯系作者并注明出處: