新聞中心
SEO基礎教程:索引文字和中文分詞
作者 / 無憂主機 時間 2011-11-24 07:08:46
搜索引擎抓取了大量的原始頁面后并不能直接用來排名,用戶搜索的時候開程序來計算排名無法在1秒2秒內算出結果,是以抓取了之后必須先預處理這樣來為存庫之后的查詢做準備。首先進行的第一步就是提取文字,搜索引擎發(fā)展至今還是主要以文字為主,當一大串代碼的時候,搜索引擎一般會抓取Mete標簽中的文字,圖片ALT文字,錨文字,網頁中的文字等。中文分詞是針對中文特有的一種分詞方式,英文來說一般都有分隔符,搜索引擎可以直接根據分隔符來判斷詞。而中文一般一句話都是連接在一起的是以需要分詞。比如SEO基礎服務這個詞,就有可能被分為SEO、基礎、服務這三個詞。分詞有兩種基于詞典的方式講一段漢字吧按照事先準備好的詞典按照掃描長度混合匹配最后出來最大的匹配度,而統(tǒng)計的方法則是在于根據幾個相鄰次在這個互聯(lián)網上出現的次數比例來分詞。通過谷歌搜索搜索引擎優(yōu)化查看快照會發(fā)現谷歌會把詞分成 搜索 殷勤 優(yōu)化 三個詞,而百度則會顯示為搜索引擎優(yōu)化顯然百度的出現更為合理。 純Linux環(huán)境下高端免備案[香港獨立IP地址]?php空間,僅僅只需199元一年起。商務中國域名核心代理直銷50元注冊國際頂級域名
本文地址:http://www.gle-technology.com/seo/4621.html
上一篇: SEO基礎教程:地址庫于文件存儲和爬行檢測
下一篇: SEO基礎教程:如何利用中文分詞獲得排名