新聞中心
無憂主機(jī)講解關(guān)于WordPress的robots.txt文件
在此之前小編講解過關(guān)于dedecms的robots.txt文件設(shè)置,今天小編給大家講解一下關(guān)于WordPress的robots.txt文件的一些設(shè)置書寫等。由于WordPress的特殊性,很多站長(zhǎng)朋友在安裝完程序后,最頭痛的就是robots.txt文件的書寫,當(dāng)網(wǎng)站有一些內(nèi)容不想被搜索引擎收錄時(shí),可以通過設(shè)置robots.txt文件告知搜索引擎機(jī)器人這個(gè)文件不要爬取。如果網(wǎng)站上沒有禁止搜索引擎收錄的內(nèi)容,則不用設(shè)置robots.txt文件,或設(shè)置為空,設(shè)置robots.txt文件可以有效的保護(hù)用戶的隱私,同時(shí)也有利于節(jié)省蜘蛛的帶寬,從而讓蜘蛛爬取更加容易,更加有利于網(wǎng)站的收錄。 首先小編先簡(jiǎn)單的介紹一下robots.txt文件中的一些規(guī)則: 1、允許爬?。? User-agent:* Disallow: 這兩行的意思就是允許所有的蜘蛛爬取網(wǎng)站所有的頁面,第二行雖然“Disallow”是不允許的意思,但是Disallow后面是空的,所以第二行的意思就是“不允許爬取的內(nèi)容為空”。 2、以百度蜘蛛為例,禁止爬?。? User-agent:Baiduspider Disallow:/ User-agent:* Disallow: 第一行和第二行的意思就是是不允許百度蜘蛛爬取任何頁面,后面兩行的解釋同上。如果想要屏蔽百度蜘蛛和360蜘蛛的爬取,那么就在前面繼續(xù)復(fù)制,把Baiduspider改成360spider。如下: User-agent:Baiduspider Disallow:/ User-agent:360spider Disallow:/ User-agent:* Disallow: 所以如果想要繼續(xù)添加其他屏蔽的蜘蛛,同樣繼續(xù)往上添加就行。 3、以禁止爬取wordpress后臺(tái)頁面為例,不允許任何蜘蛛爬取其中的某個(gè)或者某些頁面: User-agent:* Disallow:/wp-admin/ 大家都知道,wordpress后臺(tái)在根目錄下的wp-admin文件夾里面,在Disallow后面加上/wp-admin的意思就是不允許所有的蜘蛛爬取這個(gè)目錄。 4、以禁止baidu蜘蛛為例,禁止爬取wordpress后臺(tái): User-agent:Baiduspider Disallow:?/ User-agent:?* Disallow:?/wp-admin/ 這四行代碼的意思就是不允許百度爬取wordpress后臺(tái),允許其他搜索引擎爬取后臺(tái),如果想要設(shè)置多個(gè)蜘蛛不允許爬取wordpress程序后臺(tái),同第2條一樣,把不允許的蜘蛛添加上去,小編以360和baidu蜘蛛不允許爬取wordpress后臺(tái)為例,代碼如下: User-agent:360spider Disallow:?/ User-agent:Baiduspider Disallow:?/ User-agent:?* Disallow:?/wp-admin/ 接下來小編為大家講解一下wordpress的robots.txt文件書寫。 其實(shí)wordpress的robots文件很簡(jiǎn)單,主要看3個(gè)要點(diǎn): 不允許蜘蛛爬取網(wǎng)站后臺(tái)地址 首先設(shè)置不讓搜索引擎抓取wordpress后臺(tái)頁面,這幾乎是每位站長(zhǎng)設(shè)置robots.txt文件的首要目的,這也不僅限于wordpress程序,不同類型的網(wǎng)站后臺(tái)頁面所在頁面的文件夾名稱不一樣。 靜態(tài)化后,不允許蜘蛛爬取動(dòng)態(tài)url wordpress的url最好還是設(shè)置為靜態(tài)化,因?yàn)檫^多的動(dòng)態(tài)參數(shù)不利于SEO。但是許多站長(zhǎng)朋友在設(shè)置靜態(tài)化后,每次發(fā)布文章時(shí),搜索引擎收錄,總會(huì)同時(shí)收錄靜態(tài)和動(dòng)態(tài)的url,這樣做的缺點(diǎn)就是會(huì)導(dǎo)致文章頁面權(quán)重分散,而且會(huì)導(dǎo)致重復(fù)頁面過多最終受到搜索引擎的懲罰。要避免這種情況的出現(xiàn)方法很簡(jiǎn)單,就是在robots.txt文件里面設(shè)置,讓蜘蛛不爬取動(dòng)態(tài)url,這樣動(dòng)態(tài)url就不會(huì)被收錄。 結(jié)尾加上xml格式的網(wǎng)站地圖 在robots.txt文件的結(jié)尾加上網(wǎng)站地圖,可以讓網(wǎng)站地圖在蜘蛛爬取時(shí)第一時(shí)間被抓取,更加利于頁面的收錄。代碼如下: User-agent:* Disallow:/wp-admin/ Disallow:/*?* Sitemap:http://www.網(wǎng)站域名.com/sitemap.xml 前三行的意思就是在禁止所有蜘蛛爬取wordpress后臺(tái)的前提下,禁止爬取包含?的url。(動(dòng)態(tài)url特征是有“?”) robots.txt文件的書寫還有一下三點(diǎn)需要注意的地方: 斜杠“/” 首先開頭的斜杠是一定要有的,結(jié)尾有斜杠的意思是這個(gè)目錄下的所有頁面,如果沒有斜杠,那就是屏蔽的既有包括斜杠的,也有不包括斜杠的,例如/wp-admin.html,/wp-admin.php等等頁面。這是兩個(gè)不同的概念,必須根據(jù)需要考慮后面是否加上斜杠。 字母大小寫 除了每行的首字母之外,其他都必須小寫。 Disallow和Allow 對(duì)于很多新手站長(zhǎng)朋友來說,掌握其中一種的寫法就夠了,如果同時(shí)被灌輸這兩種寫法很容易混淆,所以如果是新手朋友,那么robots.txt文件最好只使用一種寫法就好了,防止混淆,造成錯(cuò)誤。 希望可以幫助到各位站長(zhǎng)朋友! 無憂主機(jī)相關(guān)文章推薦閱讀: WORDPRESS刪除自動(dòng)保存草稿 WORDPRESS數(shù)據(jù)庫(kù)優(yōu)化插件的介紹與安裝方法 WORDPRESS4.0.1版本新發(fā)布,修復(fù)8個(gè)漏洞23個(gè)BUG WORDPRESS卸載WP-SUPER-CACHE插件導(dǎo)致無法顯示最新發(fā)布的文章
本文地址:http://www.gle-technology.com/wordpress/17835.html