新聞中心
無憂主機講解關于WordPress的robots.txt文件
在此之前小編講解過關于dedecms的robots.txt文件設置,今天小編給大家講解一下關于WordPress的robots.txt文件的一些設置書寫等。由于WordPress的特殊性,很多站長朋友在安裝完程序后,最頭痛的就是robots.txt文件的書寫,當網(wǎng)站有一些內(nèi)容不想被搜索引擎收錄時,可以通過設置robots.txt文件告知搜索引擎機器人這個文件不要爬取。如果網(wǎng)站上沒有禁止搜索引擎收錄的內(nèi)容,則不用設置robots.txt文件,或設置為空,設置robots.txt文件可以有效的保護用戶的隱私,同時也有利于節(jié)省蜘蛛的帶寬,從而讓蜘蛛爬取更加容易,更加有利于網(wǎng)站的收錄。 首先小編先簡單的介紹一下robots.txt文件中的一些規(guī)則: 1、允許爬?。? User-agent:* Disallow: 這兩行的意思就是允許所有的蜘蛛爬取網(wǎng)站所有的頁面,第二行雖然“Disallow”是不允許的意思,但是Disallow后面是空的,所以第二行的意思就是“不允許爬取的內(nèi)容為空”。 2、以百度蜘蛛為例,禁止爬取: User-agent:Baiduspider Disallow:/ User-agent:* Disallow: 第一行和第二行的意思就是是不允許百度蜘蛛爬取任何頁面,后面兩行的解釋同上。如果想要屏蔽百度蜘蛛和360蜘蛛的爬取,那么就在前面繼續(xù)復制,把Baiduspider改成360spider。如下: User-agent:Baiduspider Disallow:/ User-agent:360spider Disallow:/ User-agent:* Disallow: 所以如果想要繼續(xù)添加其他屏蔽的蜘蛛,同樣繼續(xù)往上添加就行。 3、以禁止爬取wordpress后臺頁面為例,不允許任何蜘蛛爬取其中的某個或者某些頁面: User-agent:* Disallow:/wp-admin/ 大家都知道,wordpress后臺在根目錄下的wp-admin文件夾里面,在Disallow后面加上/wp-admin的意思就是不允許所有的蜘蛛爬取這個目錄。 4、以禁止baidu蜘蛛為例,禁止爬取wordpress后臺: User-agent:Baiduspider Disallow:?/ User-agent:?* Disallow:?/wp-admin/ 這四行代碼的意思就是不允許百度爬取wordpress后臺,允許其他搜索引擎爬取后臺,如果想要設置多個蜘蛛不允許爬取wordpress程序后臺,同第2條一樣,把不允許的蜘蛛添加上去,小編以360和baidu蜘蛛不允許爬取wordpress后臺為例,代碼如下: User-agent:360spider Disallow:?/ User-agent:Baiduspider Disallow:?/ User-agent:?* Disallow:?/wp-admin/ 接下來小編為大家講解一下wordpress的robots.txt文件書寫。 其實wordpress的robots文件很簡單,主要看3個要點: 不允許蜘蛛爬取網(wǎng)站后臺地址 首先設置不讓搜索引擎抓取wordpress后臺頁面,這幾乎是每位站長設置robots.txt文件的首要目的,這也不僅限于wordpress程序,不同類型的網(wǎng)站后臺頁面所在頁面的文件夾名稱不一樣。 靜態(tài)化后,不允許蜘蛛爬取動態(tài)url wordpress的url最好還是設置為靜態(tài)化,因為過多的動態(tài)參數(shù)不利于SEO。但是許多站長朋友在設置靜態(tài)化后,每次發(fā)布文章時,搜索引擎收錄,總會同時收錄靜態(tài)和動態(tài)的url,這樣做的缺點就是會導致文章頁面權(quán)重分散,而且會導致重復頁面過多最終受到搜索引擎的懲罰。要避免這種情況的出現(xiàn)方法很簡單,就是在robots.txt文件里面設置,讓蜘蛛不爬取動態(tài)url,這樣動態(tài)url就不會被收錄。 結(jié)尾加上xml格式的網(wǎng)站地圖 在robots.txt文件的結(jié)尾加上網(wǎng)站地圖,可以讓網(wǎng)站地圖在蜘蛛爬取時第一時間被抓取,更加利于頁面的收錄。代碼如下: User-agent:* Disallow:/wp-admin/ Disallow:/*?* Sitemap:http://www.網(wǎng)站域名.com/sitemap.xml 前三行的意思就是在禁止所有蜘蛛爬取wordpress后臺的前提下,禁止爬取包含?的url。(動態(tài)url特征是有“?”) robots.txt文件的書寫還有一下三點需要注意的地方: 斜杠“/” 首先開頭的斜杠是一定要有的,結(jié)尾有斜杠的意思是這個目錄下的所有頁面,如果沒有斜杠,那就是屏蔽的既有包括斜杠的,也有不包括斜杠的,例如/wp-admin.html,/wp-admin.php等等頁面。這是兩個不同的概念,必須根據(jù)需要考慮后面是否加上斜杠。 字母大小寫 除了每行的首字母之外,其他都必須小寫。 Disallow和Allow 對于很多新手站長朋友來說,掌握其中一種的寫法就夠了,如果同時被灌輸這兩種寫法很容易混淆,所以如果是新手朋友,那么robots.txt文件最好只使用一種寫法就好了,防止混淆,造成錯誤。 希望可以幫助到各位站長朋友! 無憂主機相關文章推薦閱讀: WORDPRESS刪除自動保存草稿 WORDPRESS數(shù)據(jù)庫優(yōu)化插件的介紹與安裝方法 WORDPRESS4.0.1版本新發(fā)布,修復8個漏洞23個BUG WORDPRESS卸載WP-SUPER-CACHE插件導致無法顯示最新發(fā)布的文章
本文地址:http://www.gle-technology.com/wordpress/17835.html