新聞中心
robots經(jīng)驗總結(jié)-是否真可以完全屏蔽蜘蛛
之前認(rèn)為robots是肯定有作用的站長注意了,今天無憂主機小編要提一件事情就是關(guān)于robots.txt協(xié)議的問題。很多站長都知道robots.txt是一種存放在網(wǎng)站空間根目錄下的文本文件,是一種協(xié)議,用來告訴搜索蜘蛛網(wǎng)站中哪些可被爬行抓取,哪些不可被爬行抓取。 但是今天無憂主機小編遇到一個客戶,他在robots.txt屏蔽了wordpress中的目錄文件呀,為什么蜘蛛每日仍然照常爬行呢?”而后,葉劍輝自然便查網(wǎng)站robots.txt文檔,以下便是對wordpress目錄屏蔽設(shè)置: Disallow: /wp-admin Disallow: /wp-content Disallow: /wp-includes 但是確無法屏蔽,是什么問題造成的呢? 經(jīng)過研究,無憂主機小編發(fā)現(xiàn),只需要在這三段代碼后面都加上”/”就可以;原來在后邊加上與未加上/,對于蜘蛛而言是兩種概念,加上了是告訴蜘蛛,這是一個文件夾,而未加上即告訴蜘蛛這是一個文件,也因此導(dǎo)致明明在robots.txt上做好了設(shè)置,卻沒能有效的屏蔽。 還有一個問題,那么就是這樣屏蔽之后,真的就是蜘蛛就完全被屏蔽了么? 這里小編要提出的是:robots.txt協(xié)議并非是一個標(biāo)準(zhǔn),一個規(guī)范,只是約定俗成而已罷了,就像法律里面道德的定義,并不是一定執(zhí)行的。通常搜索引擎會識別這個文件,但也有一些特殊情況。(如之前的360事件:強制爬行所有的頁面。) 在百度還有谷歌的算法里,某個頁面只要有其他網(wǎng)站鏈接到該頁面的話,同樣有可能會被索引和收錄。想要徹底屏蔽頁面文件被谷歌索引的話,則需要在頁面head中插入以下代碼: <meta name="googlebot" content="noindex"> 這個標(biāo)簽的作用是,當(dāng)谷歌蜘蛛爬行遇到這個代碼時候,就會將此頁從谷歌搜索結(jié)果中完全丟棄,無視是否還有其他頁鏈接到此頁。 那百度呢?對于百度而言,百度跟谷歌又不一樣,具體語句如下: <meta name="Baiduspider" content="noarchive"> 但是上面這個標(biāo)記只是禁止百度顯示該頁面快照,百度仍會為其建索引,并在搜索結(jié)果中顯示網(wǎng)頁摘要。 因此看來,網(wǎng)站只能禁止百度快照的顯示,卻無法做到禁止百度為網(wǎng)頁建索引。 無憂主機相關(guān)文章推薦閱讀: WORDPRESS博客怎么推廣 SEO教程之百度判斷文章的標(biāo)準(zhǔn) 無憂主機SEO教程之:如何寫出讓百度喜歡的文章 SEO教程之為什么關(guān)鍵字在不同的省份的排名不一樣
本文地址:http://www.gle-technology.com/seo/16616.html