網(wǎng)絡(luò)蜘蛛在更新網(wǎng)站建設(shè)內(nèi)容的時候,一般來說。不用把網(wǎng)站網(wǎng)頁重新抓取一遍,對于大部分的網(wǎng)頁,只需要判斷網(wǎng)頁的屬性(主要是日期)把得到屬性和上次抓取的屬性相比較,如果一樣則不用更新。
但搜索引擎為互聯(lián)網(wǎng)所作出的巨大貢獻卻顯而易見,搜索引擎的歷史并不長。搜索引擎改變了世界,改變了用戶的使用習(xí)慣,讓我對互聯(lián)網(wǎng)的未來充溢信心。
第一個搜索引擎甚至沒有分析網(wǎng)頁的副本,搜索引擎起步的時候做的并不好。而且沒有排名的規(guī)范,為了深度挖掘商業(yè)潛力,這才推動搜索引擎漸漸發(fā)展,研發(fā)更先進的系統(tǒng)。
2001年花65億美元購買了@主頁。開始推廣的時候,第一個比較大的商業(yè)搜索引擎是美國的斯坦福大學(xué)。最大的競爭對手是網(wǎng)址站,主要是因為那時候搜索結(jié)果中很多都是垃圾郵件,而且人們還不習(xí)慣用搜索引擎。
通常叫做關(guān)鍵詞堆砌。一旦搜索關(guān)鍵詞,元標(biāo)記是協(xié)助搜索引擎排序的一個工具。那關(guān)鍵字和元標(biāo)志就會告訴搜索引擎內(nèi)容是哪一頁,很短的時間做好中繼標(biāo)記工作,提供相關(guān)搜索結(jié)果,但隨著一些企業(yè)的市場營銷經(jīng)驗增加,很容易提高關(guān)鍵詞的排名,那時候比較流行“貸款、貸款、貸款”之類的關(guān)鍵詞堆砌,所以當(dāng)時搜索引擎的垃圾信息泛濫成災(zāi),造成許多用戶的不信任感。
那時候一些重要的搜索引擎包括:EINet銀河、WebCrawl萊科斯、InfoseekInktomiAskAllTheWeb等。
每一個搜索引擎都有三個主要局部組成:
1蜘蛛
然后分析該網(wǎng)頁。蜘蛛的工作職責(zé)是發(fā)現(xiàn)新的網(wǎng)頁并收集這些網(wǎng)頁的快照。
比如掃描網(wǎng)頁,蜘蛛以抓取頁面為主。所有的搜索引擎都能夠?qū)崿F(xiàn)深層檢索和快速檢索。深層檢索中,蜘蛛可以查找和掃描網(wǎng)頁內(nèi)的所有內(nèi)容;快速檢索中,蜘蛛不遵循深層檢索的規(guī)則,只搜索重要的關(guān)鍵詞局部,而不檢查和掃描網(wǎng)頁里的所有內(nèi)容。
也就是說蜘蛛爬行和收錄的網(wǎng)頁速度越快,大家都知道網(wǎng)站最重要的快照時間。就說明這個網(wǎng)站在搜索引擎心中越重要,比如新華網(wǎng)和人民網(wǎng),蜘蛛每小時爬4次以上,有的網(wǎng)站一個月也不見得能被蜘蛛爬一次??煺盏淖ト∷饺Q于網(wǎng)站內(nèi)容的流行度、更新速度與網(wǎng)站域名的新舊。
如果有許多外部鏈接指向這個SEO網(wǎng)站,蜘蛛的爬行規(guī)則中。那就說明這個網(wǎng)站比較重要,所以抓取這個網(wǎng)站的頻率很高。當(dāng)然,搜索引擎這樣做也是為了省錢,如果都以同樣的頻率爬行所有網(wǎng)站,這樣需要更多的時間和成本,才干得到更全面的搜索結(jié)果。
2指數(shù)
可能會重復(fù)檢查網(wǎng)頁的內(nèi)容,蜘蛛在爬行的過程中。然后檢查網(wǎng)站內(nèi)容是否是復(fù)制其他網(wǎng)站的以保證網(wǎng)站原創(chuàng)內(nèi)容的指數(shù),該指數(shù)的結(jié)果一般都是基本堅持復(fù)制內(nèi)容的排序搜索結(jié)果。當(dāng)你進行搜索時,搜索引擎不會從網(wǎng)絡(luò)上搜索,會從指數(shù)中選擇搜索結(jié)果,所以搜索得到網(wǎng)頁數(shù)量并不能代表整個網(wǎng)站,但蜘蛛會在后臺掃描和保存網(wǎng)站的網(wǎng)頁數(shù)量。
谷歌1-10個搜索結(jié)果約為16.05萬,搜索結(jié)果數(shù)量中。還有每個區(qū)域的搜索結(jié)果排名,這些都可以用搜索引擎的算法指數(shù)來控制,或者說是控制一部分。
當(dāng)你輸入需要搜索的關(guān)鍵詞的時候,每個搜索引擎在全國或全世界各地都建立數(shù)據(jù)中心。會由于數(shù)據(jù)更新的時間不同而致搜索結(jié)果同步,所以在不同的地區(qū)就會出現(xiàn)不同的搜索結(jié)果。
3Web界面
算法都是從指數(shù)內(nèi)調(diào)用結(jié)果,當(dāng)你使用搜索引擎所看到界面(比方google.combaidu.com搜索結(jié)果取決于復(fù)雜的算法。通過查詢并分析才能在前臺顯示,所以算法的制作時間比較長,谷歌在這個技術(shù)領(lǐng)域上領(lǐng)先。
這類特性在英文搜索上比較常見,還有一些搜索引擎的一站式”特性。一般來說,搜索引擎忽略“一站式”話,這樣的搜索結(jié)果將更加正確,比如搜索“貓,狗”時候,搜索引擎會排除“貓和狗”只搜索“貓”狗”
一般搜索引擎看到某網(wǎng)頁上的關(guān)鍵詞逾越密度范圍,關(guān)鍵詞密度衡量一個關(guān)鍵詞呈現(xiàn)在網(wǎng)頁上的頻率。那它就會分析該網(wǎng)頁是否作弊,現(xiàn)在搜索引擎可以做到任何地域的字詞相關(guān)度處置。所以在一般情況下,關(guān)鍵詞應(yīng)該在整個網(wǎng)頁中分散,但一定要有某個標(biāo)題或段落臨時不變。
除了網(wǎng)頁排名和一般的鏈接,搜索引擎還有個核心分析技術(shù)就是鏈接的相關(guān)性分析。谷歌還看重錨文本鏈接,錨文本鏈接主要在于鏈接的年齡和位置,還有該鏈接的網(wǎng)頁是否屬于權(quán)威網(wǎng)站等。
搜索引擎都很關(guān)注著,鏈接是最大的網(wǎng)站質(zhì)量指標(biāo)。因為現(xiàn)在友情鏈接比較難找,而你又很需要友情鏈接,所以鏈接中很少有垃圾信息。比如大學(xué)的網(wǎng)站在谷歌的權(quán)重很高,那是由于大學(xué)有很多高質(zhì)量的外部鏈接。隨著大家都了解到外部鏈接的重要性后,很多網(wǎng)站開始買賣鏈接,這也是現(xiàn)在搜索引擎比較頭疼的問題,不過ask現(xiàn)在判定網(wǎng)站排名更多在于網(wǎng)站的質(zhì)量。
期待在查詢之前、搜索查詢、時間間隔、和語義關(guān)系等方面,所有的搜索引擎都希望得到用戶反饋的信息。能更加了解到用戶的意圖,還會跟蹤用戶的點擊,如果用戶點擊一個物品,然后又馬上回到搜索頁面,那搜索引擎就會認(rèn)為這個購買不成功,會刪除跟蹤清單,其實這種做法已經(jīng)在向電子商務(wù)靠近了
搜索引擎已經(jīng)開始注重用戶體驗,由此可以看出。為了做讓用戶肯定自己的勞動效果,并成為搜索引擎行業(yè)的一個標(biāo)準(zhǔn),或許未來的發(fā)展就在個性化搜索。
搜索引擎的工作原理大致可以分為:
就象日常生活中所說的一傳十,搜集信息:搜索引擎的信息搜集基本都是自動的搜索引擎利用稱為網(wǎng)絡(luò)蜘蛛(spider自動搜索機器人順序來連上每一個網(wǎng)頁上的超連結(jié)。機器人順序根據(jù)網(wǎng)頁鏈到其他中的超鏈接。十傳百…一樣,從少數(shù)幾個網(wǎng)頁開始,連到數(shù)據(jù)庫上所有到其他網(wǎng)頁的鏈接。理論上,若網(wǎng)頁上有適當(dāng)?shù)某B結(jié),機器人便可以遍歷絕大部分網(wǎng)頁。
還要將它依照一定的規(guī)則進行編排。這樣,整理信息:搜索引擎整理信息的過程稱為“建立索引”搜索引擎不只要保管搜集起來的信息。搜索引擎根本不用重新翻查它所有保管的信息而迅速找到所要的資料。想象一下,如果信息是不按任何規(guī)則地隨意堆放在搜索引擎的數(shù)據(jù)庫中,那么它每次找資料都得把整個資料庫完全翻查一遍,如此一來再快的計算機系統(tǒng)也沒有用。
搜索引擎接受查詢并向用戶返回資料。搜索引擎每時每刻都要接到來自大量用戶的幾乎是同時發(fā)出的查詢,接受查詢:用戶向搜索引擎發(fā)出查詢。依照每個用戶的要求檢查自己的索引,極短時間內(nèi)找到用戶需要的資料,并返回給用戶。目前,搜索引擎返回主要是以網(wǎng)頁鏈接的形式提供的這些通過這些鏈接,用戶便能到達含有自己所需資料的網(wǎng)頁。通常搜索引擎會在這些鏈接下提供一小段來自這些網(wǎng)頁的摘要信息以協(xié)助用戶判斷此網(wǎng)頁是否含有自己需要的內(nèi)容。
網(wǎng)絡(luò)蜘蛛原理
那么Spider就是網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,網(wǎng)絡(luò)蜘蛛即WebSpider一個很形象的名字。把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng)。從網(wǎng)站某一個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。如果把整個互聯(lián)網(wǎng)當(dāng)成一個網(wǎng)站,那么網(wǎng)絡(luò)蜘蛛就可以用這個原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。
要抓取互聯(lián)網(wǎng)上所有的網(wǎng)頁幾乎是不可能的從目前公布的數(shù)據(jù)來看,對于搜索引擎來說。容量最大的搜索引擎也不過是抓取了整個網(wǎng)頁數(shù)量的百分之四十左右。這其中的原因一方面是抓取技術(shù)的瓶頸,無法遍歷所有的網(wǎng)頁,有許多網(wǎng)頁無法從其它網(wǎng)頁的鏈接中找到另一個原因是存儲技術(shù)和處理技術(shù)的問題,如果依照每個頁面的平均大小為20K計算(包括圖片)100億網(wǎng)頁的容量是1002000G字節(jié),即使能夠存儲,下載也存在問題(依照一臺機器每秒下載20K計算,需要340臺機器不停的下載一年時間,才干把所有網(wǎng)頁下載完畢)同時,由于數(shù)據(jù)量太大,提供搜索時也會有效率方面的影響。因此,許多搜索引擎的網(wǎng)絡(luò)蜘蛛只是抓取那些重要的網(wǎng)頁,而在抓取的時候評價重要性主要的依據(jù)是某個網(wǎng)頁的鏈接深度。
網(wǎng)絡(luò)蜘蛛一般有兩種策略:廣度優(yōu)先和深度優(yōu)先(如下圖所示)廣度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,抓取網(wǎng)頁的時候。然后再選擇其中的一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。這是最常用的方式,因為這個方法可以讓網(wǎng)絡(luò)蜘蛛并行處理,提高其抓取速度。深度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處置完這條線路之后再轉(zhuǎn)入下一個起始頁,繼續(xù)跟蹤鏈接。這個方法有個優(yōu)點是網(wǎng)絡(luò)蜘蛛在設(shè)計的時候比較容易。兩種策略的區(qū)別,下圖的說明會更加明確。
有些網(wǎng)絡(luò)蜘蛛對一些不太重要的網(wǎng)站,由于不可能抓取所有的網(wǎng)頁。設(shè)置了訪問的層數(shù)。例如,上圖中,A為起始網(wǎng)頁,屬于0層,BCDEF屬于第1層,GH屬于第2層,I屬于第3層。如果網(wǎng)絡(luò)蜘蛛設(shè)置的訪問層數(shù)為2話,網(wǎng)頁I不會被訪問到這也讓有些網(wǎng)站上一局部網(wǎng)頁能夠在搜索引擎上搜索到另外一局部不能被搜索到對于網(wǎng)站設(shè)計者來說,扁平化的網(wǎng)站結(jié)構(gòu)設(shè)計有助于搜索引擎抓取其更多的網(wǎng)頁。
經(jīng)常會遇到加密數(shù)據(jù)和網(wǎng)頁權(quán)限的問題,網(wǎng)絡(luò)蜘蛛在訪問網(wǎng)站網(wǎng)頁的時候。有些網(wǎng)頁是需要會員權(quán)限才干訪問。當(dāng)然,網(wǎng)站的所有者可以通過協(xié)議讓網(wǎng)絡(luò)蜘蛛不去抓?。ㄏ滦」?jié)會介紹)但對于一些**演講的網(wǎng)站,希望搜索引擎能搜索到演講,但又不能完全**讓搜索者查看,這樣就需要給網(wǎng)絡(luò)蜘蛛提供相應(yīng)的用戶名和密碼。網(wǎng)絡(luò)蜘蛛可以通過所給的權(quán)限對這些網(wǎng)頁進行網(wǎng)頁抓取,從而提供搜索。而當(dāng)搜索者點擊檢查該網(wǎng)頁的時候,同樣需要搜索者提供相應(yīng)的權(quán)限驗證。
網(wǎng)站與網(wǎng)絡(luò)蜘蛛
不同于一般的訪問,網(wǎng)絡(luò)蜘蛛需要抓取網(wǎng)頁。如果控制不好,則會引起網(wǎng)站服務(wù)器負(fù)擔(dān)過重。今年4月,淘寶網(wǎng)就因為雅虎搜索引擎的網(wǎng)絡(luò)蜘蛛抓取其數(shù)據(jù)引起淘寶網(wǎng)服務(wù)器的不穩(wěn)定。網(wǎng)站是否就無法和網(wǎng)絡(luò)蜘蛛交流呢?其實不然,有多種方法可以讓網(wǎng)站和網(wǎng)絡(luò)蜘蛛進行交流。一方面讓網(wǎng)站管理員了解網(wǎng)絡(luò)蜘蛛都來自哪兒,做了些什么,另一方面也告訴網(wǎng)絡(luò)蜘蛛哪些網(wǎng)頁不應(yīng)該抓取,哪些網(wǎng)頁應(yīng)該更新。
抓取網(wǎng)頁的時候,每個網(wǎng)絡(luò)蜘蛛都有自己的名字。都會向網(wǎng)站標(biāo)明自己的身份。網(wǎng)絡(luò)蜘蛛在抓取網(wǎng)頁的時候會發(fā)送一個請求,這個請求中就有一個字段為Useragent用于標(biāo)識此網(wǎng)絡(luò)蜘蛛的身份。例如Googl網(wǎng)絡(luò)蜘蛛的標(biāo)識為GoogleBotBaidu網(wǎng)絡(luò)蜘蛛的標(biāo)識為BaiDuSpidYahoo網(wǎng)絡(luò)蜘蛛的標(biāo)識為InktomiSlurp如果在網(wǎng)站上有訪問日志記錄,網(wǎng)站管理員就能知道,哪些搜索引擎的網(wǎng)絡(luò)蜘蛛過來過,什么時候過來的以及讀了多少數(shù)據(jù)等等。如果網(wǎng)站管理員發(fā)現(xiàn)某個蜘蛛有問題,就通過其標(biāo)識來和其所有者聯(lián)系。
一般會訪問一個特殊的文本文件Robots.txt這個文件一般放在網(wǎng)站服務(wù)器的根目錄下,網(wǎng)絡(luò)蜘蛛進入一個網(wǎng)站。網(wǎng)站管理員可以通過robots.txt來定義哪些目錄網(wǎng)絡(luò)蜘蛛不能訪問,或者哪些目錄對于某些特定的網(wǎng)絡(luò)蜘蛛不能訪問。例如有些網(wǎng)站的可執(zhí)行文件目錄和臨時文件目錄不希望被搜索引擎搜索到那么網(wǎng)站管理員就可以把這些目錄定義為拒絕訪問目錄。Robots.txt語法很簡單,例如如果對目錄沒有任何限制,可以用以下兩行來描述:
User-agent:*
Disallow:
Robots.txt只是一個協(xié)議,當(dāng)然。如果網(wǎng)絡(luò)蜘蛛的設(shè)計者不遵循這個協(xié)議,網(wǎng)站管理員也無法阻止網(wǎng)絡(luò)蜘蛛對于某些頁面的訪問,但一般的網(wǎng)絡(luò)蜘蛛都會遵循這些協(xié)議,而且網(wǎng)站管理員還可以通過其它方式來拒絕網(wǎng)絡(luò)蜘蛛對某些網(wǎng)頁的抓取。
會去識別網(wǎng)頁的HTML代碼,網(wǎng)絡(luò)蜘蛛在下載網(wǎng)頁的時候。其代碼的局部,會有META 標(biāo)識。通過這些標(biāo)識,可以告訴網(wǎng)絡(luò)蜘蛛本網(wǎng)頁是否需要被抓取,還可以告訴網(wǎng)絡(luò)蜘蛛本網(wǎng)頁中的鏈接是否需要被繼續(xù)跟蹤。例如:表示本網(wǎng)頁不需要被抓取,但是網(wǎng)頁內(nèi)的鏈接需要被跟蹤。
有興趣的讀者檢查文獻[4關(guān)于Robots.txt語法和META Tag語法。]
因為這樣可以讓更多的訪問者能通過搜索引擎找到此網(wǎng)站。為了讓本網(wǎng)站的網(wǎng)頁更全面被抓取到網(wǎng)站管理員可以建立一個網(wǎng)站地圖,現(xiàn)在一般的網(wǎng)站都希望搜索引擎能更全面的抓取自己網(wǎng)站的網(wǎng)頁。即SiteMap許多網(wǎng)絡(luò)蜘蛛會把sitemap.htm文件作為一個網(wǎng)站網(wǎng)頁爬取的入口,網(wǎng)站管理員可以把網(wǎng)站內(nèi)部所有網(wǎng)頁的鏈接放在這個文件里面,那么網(wǎng)絡(luò)蜘蛛可以很方便的把整個網(wǎng)站抓取下來,防止遺漏某些網(wǎng)頁,也會減小對網(wǎng)站服務(wù)器的負(fù)擔(dān)。
內(nèi)容提取
處置的對象是文本文件。對于網(wǎng)絡(luò)蜘蛛來說,搜索引擎建立網(wǎng)頁索引。抓取下來網(wǎng)頁包括各種格式,包括html圖片、docpdf多媒體、動態(tài)網(wǎng)頁及其它格式等。這些文件抓取下來后,需要把這些文件中的文本信息提取進去。準(zhǔn)確提取這些文檔的信息,一方面對搜索引擎的搜索準(zhǔn)確性有重要作用,另一方面對于網(wǎng)絡(luò)蜘蛛正確跟蹤其它鏈接有一定影響。
這種由專業(yè)廠商提供的軟件生成的文檔,對于docpdf等文檔。廠商都會提供相應(yīng)的文本提取接口。網(wǎng)絡(luò)蜘蛛只需要調(diào)用這些插件的接口,就可以輕松的提取文檔中的文本信息和文件其它相關(guān)的信息。
HTML有一套自己的語法,HTML等文檔不一樣。通過不同的命令標(biāo)識符來表示不同的字體、顏色、位置等版式,如:等,提取文本信息時需要把這些標(biāo)識符都過濾掉。過濾標(biāo)識符并非難事,因為這些標(biāo)識符都有一定的規(guī)則,只要依照不同的標(biāo)識符取得相應(yīng)的信息即可。但在識別這些信息的時候,需要同步記錄許多版式信息,例如文字的字體大小、否是標(biāo)題、否是加粗顯示、否是頁面的關(guān)鍵詞等,這些信息有助于計算單詞在網(wǎng)頁中的重要水平。同時,對于HTML網(wǎng)頁來說,除了標(biāo)題和正文以外,會有許多廣告鏈接以及公共的頻道鏈接,這些鏈接和文本正文一點關(guān)系也沒有,提取網(wǎng)頁內(nèi)容的時候,也需要過濾這些無用的鏈接。例如某個網(wǎng)站有“產(chǎn)品介紹”頻道,因為導(dǎo)航條在網(wǎng)站內(nèi)每個網(wǎng)頁都有,若不過濾導(dǎo)航條鏈接,搜索“產(chǎn)品介紹”時候,則網(wǎng)站內(nèi)每個網(wǎng)頁都會搜索到無疑會帶來大量垃圾信息。過濾這些無效鏈接需要統(tǒng)計大量的網(wǎng)頁結(jié)構(gòu)規(guī)律,抽取一些共性,統(tǒng)一過濾;對于一些重要而結(jié)果特殊的網(wǎng)站,還需要個別處置。這就需要網(wǎng)絡(luò)蜘蛛的設(shè)計有一定的擴展性。
一般是通過鏈接的錨文本(即,對于多媒體、圖片等文件。鏈接文本)和相關(guān)的文件注釋來判斷這些文件的內(nèi)容。例如有一個鏈接文字為“張曼玉照片”其鏈接指向一張bmp格式的圖片,那么網(wǎng)絡(luò)蜘蛛就知道這張圖片的內(nèi)容是張曼玉的照片”這樣,搜索“張曼玉”和“照片”時候都能讓搜索引擎找到這張圖片。另外,許多多媒體文件中有文件屬性,考慮這些屬性也可以更好的解文件的內(nèi)容。
相對于靜態(tài)網(wǎng)頁而言,動態(tài)網(wǎng)頁一直是網(wǎng)絡(luò)蜘蛛面臨的難題。所謂動態(tài)網(wǎng)頁。由順序自動生成的頁面,這樣的好處是可以快速統(tǒng)一更改網(wǎng)頁風(fēng)格,也可以減少網(wǎng)頁所占服務(wù)器的空間,但同樣給網(wǎng)絡(luò)蜘蛛的抓取帶來一些麻煩。由于開發(fā)語言不時的增多,動態(tài)網(wǎng)頁的類型也越來越多,如:aspjspphp等。這些類型的網(wǎng)頁對于網(wǎng)絡(luò)蜘蛛來說,可能還稍微容易一些。網(wǎng)絡(luò)蜘蛛比較難于處置的一些腳本語言(如VBScript和javascript生成的網(wǎng)頁,如果要完善的處置好這些網(wǎng)頁,網(wǎng)絡(luò)蜘蛛需要有自己的腳本解釋順序。對于許多數(shù)據(jù)是放在數(shù)據(jù)庫的網(wǎng)站,需要通過本網(wǎng)站的數(shù)據(jù)庫搜索才干獲得信息,這些給網(wǎng)絡(luò)蜘蛛的抓取帶來很大的困難。對于這類網(wǎng)站,如果網(wǎng)站設(shè)計者希望這些數(shù)據(jù)能被搜索引擎搜索,則需要提供一種可以遍歷整個數(shù)據(jù)庫內(nèi)容的方法。
一直是網(wǎng)絡(luò)蜘蛛中重要的技術(shù)。整個系統(tǒng)一般采用插件的形式,對于網(wǎng)頁內(nèi)容的提取。通過一個插件管理服務(wù)順序,遇到不同格式的網(wǎng)頁采用不同的插件處理。這種方式的好處在于擴充性好,以后每發(fā)現(xiàn)一種新的類型,就可以把其處置方式做成一個插件補充到插件管理服務(wù)順序之中。
更新周期
因此網(wǎng)絡(luò)蜘蛛也需不斷的更新其抓取網(wǎng)頁的內(nèi)容,由于網(wǎng)站的內(nèi)容經(jīng)常在變化。這就需要網(wǎng)絡(luò)蜘蛛按照一定的周期去掃描網(wǎng)站,檢查哪些頁面是需要更新的頁面,哪些頁面是新增頁面,哪些頁面是已經(jīng)過期的死鏈接。
則總會有一局部新生成的網(wǎng)頁搜索不到周期過短,搜索引擎的更新周期對搜索引擎搜索的查全率有很大影響。如果更新周期太長。技術(shù)實現(xiàn)會有一定難度,而且會對帶寬、服務(wù)器的資源都有浪費。搜索引擎的網(wǎng)絡(luò)蜘蛛并不是所有的網(wǎng)站都采用同一個周期進行更新,對于一些重要的更新量大的網(wǎng)站,更新的周期短,如有些新聞網(wǎng)站,幾個小時就更新一次;相反對于一些不重要的網(wǎng)站,更新的周期就長,可能一兩個月才更新一次。
轉(zhuǎn)發(fā)請注明:丁丁貓