新聞中心

robots經(jīng)驗總結(jié)-是否真可以完全屏蔽蜘蛛

作者 / 無憂主機時間 2014-09-19 21:12:00

之前認(rèn)為robots是肯定有作用的站長注意了，今天無憂主機小編要提一件事情就是關(guān)于robots.txt協(xié)議的問題。很多站長都知道robots.txt是一種存放在網(wǎng)站空間根目錄下的文本文件，是一種協(xié)議，用來告訴搜索蜘蛛網(wǎng)站中哪些可被爬行抓取，哪些不可被爬行抓取。但是今天無憂主機小編遇到一個客戶，他在robots.txt屏蔽了wordpress中的目錄文件呀，為什么蜘蛛每日仍然照常爬行呢？”而后，葉劍輝自然便查網(wǎng)站robots.txt文檔，以下便是對wordpress目錄屏蔽設(shè)置： Disallow: /wp-admin Disallow: /wp-content Disallow: /wp-includes 但是確無法屏蔽，是什么問題造成的呢？經(jīng)過研究，無憂主機小編發(fā)現(xiàn)，只需要在這三段代碼后面都加上”/”就可以；原來在后邊加上與未加上/,對于蜘蛛而言是兩種概念，加上了是告訴蜘蛛，這是一個文件夾，而未加上即告訴蜘蛛這是一個文件，也因此導(dǎo)致明明在robots.txt上做好了設(shè)置，卻沒能有效的屏蔽。還有一個問題，那么就是這樣屏蔽之后，真的就是蜘蛛就完全被屏蔽了么？這里小編要提出的是：robots.txt協(xié)議并非是一個標(biāo)準(zhǔn)，一個規(guī)范，只是約定俗成而已罷了，就像法律里面道德的定義，并不是一定執(zhí)行的。通常搜索引擎會識別這個文件，但也有一些特殊情況。（如之前的360事件：強制爬行所有的頁面。）在百度還有谷歌的算法里，某個頁面只要有其他網(wǎng)站鏈接到該頁面的話，同樣有可能會被索引和收錄。想要徹底屏蔽頁面文件被谷歌索引的話，則需要在頁面head中插入以下代碼： <meta name="googlebot" content="noindex"> 這個標(biāo)簽的作用是，當(dāng)谷歌蜘蛛爬行遇到這個代碼時候，就會將此頁從谷歌搜索結(jié)果中完全丟棄，無視是否還有其他頁鏈接到此頁。那百度呢？對于百度而言，百度跟谷歌又不一樣，具體語句如下： <meta name="Baiduspider" content="noarchive"> 但是上面這個標(biāo)記只是禁止百度顯示該頁面快照，百度仍會為其建索引，并在搜索結(jié)果中顯示網(wǎng)頁摘要。因此看來，網(wǎng)站只能禁止百度快照的顯示，卻無法做到禁止百度為網(wǎng)頁建索引。無憂主機相關(guān)文章推薦閱讀： WORDPRESS博客怎么推廣 SEO教程之百度判斷文章的標(biāo)準(zhǔn) 無憂主機SEO教程之：如何寫出讓百度喜歡的文章 SEO教程之為什么關(guān)鍵字在不同的省份的排名不一樣

本文地址：http://www.gle-technology.com/seo/16616.html

上一篇: Destoon新注冊會員出現(xiàn)“請不要使用代理訪問本站”的解決方法
下一篇: Discuz如何讓百度分享顯示在所有帖子底部