新聞中心

無憂主機(jī)講解關(guān)于WordPress的robots.txt文件

作者 / 無憂主機(jī) 時(shí)間 2014-12-09 19:50:11

在此之前小編講解過關(guān)于dedecms的robots.txt文件設(shè)置，今天小編給大家講解一下關(guān)于WordPress的robots.txt文件的一些設(shè)置書寫等。由于WordPress的特殊性，很多站長(zhǎng)朋友在安裝完程序后，最頭痛的就是robots.txt文件的書寫，當(dāng)網(wǎng)站有一些內(nèi)容不想被搜索引擎收錄時(shí)，可以通過設(shè)置robots.txt文件告知搜索引擎機(jī)器人這個(gè)文件不要爬取。如果網(wǎng)站上沒有禁止搜索引擎收錄的內(nèi)容，則不用設(shè)置robots.txt文件，或設(shè)置為空，設(shè)置robots.txt文件可以有效的保護(hù)用戶的隱私，同時(shí)也有利于節(jié)省蜘蛛的帶寬，從而讓蜘蛛爬取更加容易，更加有利于網(wǎng)站的收錄。首先小編先簡(jiǎn)單的介紹一下robots.txt文件中的一些規(guī)則： 1、允許爬?。? User-agent:* Disallow: 這兩行的意思就是允許所有的蜘蛛爬取網(wǎng)站所有的頁面，第二行雖然“Disallow”是不允許的意思，但是Disallow后面是空的，所以第二行的意思就是“不允許爬取的內(nèi)容為空”。 2、以百度蜘蛛為例，禁止爬?。? User-agent:Baiduspider Disallow:/ User-agent:* Disallow: 第一行和第二行的意思就是是不允許百度蜘蛛爬取任何頁面，后面兩行的解釋同上。如果想要屏蔽百度蜘蛛和360蜘蛛的爬取，那么就在前面繼續(xù)復(fù)制，把Baiduspider改成360spider。如下： User-agent:Baiduspider Disallow:/ User-agent:360spider Disallow:/ User-agent:* Disallow: 所以如果想要繼續(xù)添加其他屏蔽的蜘蛛，同樣繼續(xù)往上添加就行。 3、以禁止爬取wordpress后臺(tái)頁面為例，不允許任何蜘蛛爬取其中的某個(gè)或者某些頁面： User-agent:* Disallow:/wp-admin/ 大家都知道，wordpress后臺(tái)在根目錄下的wp-admin文件夾里面，在Disallow后面加上/wp-admin的意思就是不允許所有的蜘蛛爬取這個(gè)目錄。 4、以禁止baidu蜘蛛為例，禁止爬取wordpress后臺(tái)： User-agent:Baiduspider Disallow:?/ User-agent:?* Disallow:?/wp-admin/ 這四行代碼的意思就是不允許百度爬取wordpress后臺(tái)，允許其他搜索引擎爬取后臺(tái)，如果想要設(shè)置多個(gè)蜘蛛不允許爬取wordpress程序后臺(tái)，同第2條一樣，把不允許的蜘蛛添加上去，小編以360和baidu蜘蛛不允許爬取wordpress后臺(tái)為例，代碼如下： User-agent:360spider Disallow:?/ User-agent:Baiduspider Disallow:?/ User-agent:?* Disallow:?/wp-admin/ 接下來小編為大家講解一下wordpress的robots.txt文件書寫。其實(shí)wordpress的robots文件很簡(jiǎn)單，主要看3個(gè)要點(diǎn)：不允許蜘蛛爬取網(wǎng)站后臺(tái)地址首先設(shè)置不讓搜索引擎抓取wordpress后臺(tái)頁面，這幾乎是每位站長(zhǎng)設(shè)置robots.txt文件的首要目的，這也不僅限于wordpress程序，不同類型的網(wǎng)站后臺(tái)頁面所在頁面的文件夾名稱不一樣。靜態(tài)化后，不允許蜘蛛爬取動(dòng)態(tài)url wordpress的url最好還是設(shè)置為靜態(tài)化，因?yàn)檫^多的動(dòng)態(tài)參數(shù)不利于SEO。但是許多站長(zhǎng)朋友在設(shè)置靜態(tài)化后，每次發(fā)布文章時(shí)，搜索引擎收錄，總會(huì)同時(shí)收錄靜態(tài)和動(dòng)態(tài)的url，這樣做的缺點(diǎn)就是會(huì)導(dǎo)致文章頁面權(quán)重分散，而且會(huì)導(dǎo)致重復(fù)頁面過多最終受到搜索引擎的懲罰。要避免這種情況的出現(xiàn)方法很簡(jiǎn)單，就是在robots.txt文件里面設(shè)置，讓蜘蛛不爬取動(dòng)態(tài)url，這樣動(dòng)態(tài)url就不會(huì)被收錄。結(jié)尾加上xml格式的網(wǎng)站地圖在robots.txt文件的結(jié)尾加上網(wǎng)站地圖，可以讓網(wǎng)站地圖在蜘蛛爬取時(shí)第一時(shí)間被抓取，更加利于頁面的收錄。代碼如下： User-agent:* Disallow:/wp-admin/ Disallow:/*?* Sitemap：http://www.網(wǎng)站域名.com/sitemap.xml 前三行的意思就是在禁止所有蜘蛛爬取wordpress后臺(tái)的前提下，禁止爬取包含?的url。（動(dòng)態(tài)url特征是有“?”） robots.txt文件的書寫還有一下三點(diǎn)需要注意的地方：斜杠“/” 首先開頭的斜杠是一定要有的，結(jié)尾有斜杠的意思是這個(gè)目錄下的所有頁面，如果沒有斜杠，那就是屏蔽的既有包括斜杠的，也有不包括斜杠的，例如/wp-admin.html，/wp-admin.php等等頁面。這是兩個(gè)不同的概念，必須根據(jù)需要考慮后面是否加上斜杠。字母大小寫除了每行的首字母之外，其他都必須小寫。 Disallow和Allow 對(duì)于很多新手站長(zhǎng)朋友來說，掌握其中一種的寫法就夠了，如果同時(shí)被灌輸這兩種寫法很容易混淆，所以如果是新手朋友，那么robots.txt文件最好只使用一種寫法就好了，防止混淆，造成錯(cuò)誤。希望可以幫助到各位站長(zhǎng)朋友！無憂主機(jī)相關(guān)文章推薦閱讀： WORDPRESS刪除自動(dòng)保存草稿 WORDPRESS數(shù)據(jù)庫(kù)優(yōu)化插件的介紹與安裝方法 WORDPRESS4.0.1版本新發(fā)布，修復(fù)8個(gè)漏洞23個(gè)BUG WORDPRESS卸載WP-SUPER-CACHE插件導(dǎo)致無法顯示最新發(fā)布的文章

本文地址：http://www.gle-technology.com/wordpress/17835.html

上一篇: WordPress 的6種偽靜態(tài)設(shè)置優(yōu)缺點(diǎn)對(duì)比
下一篇: 修復(fù)Discuz! X2.5刪除短消息等兩處Bug