網(wǎng)絡(luò)蜘蛛在更新網(wǎng)站建設(shè)內(nèi)容的時(shí)候,一般來(lái)說(shuō)。不用把網(wǎng)站網(wǎng)頁(yè)重新抓取一遍,對(duì)于大部分的網(wǎng)頁(yè),只需要判斷網(wǎng)頁(yè)的屬性(主要是日期)把得到屬性和上次抓取的屬性相比較,如果一樣則不用更新。但搜索引擎為互聯(lián)網(wǎng)所作出的巨大貢獻(xiàn)卻顯而易見,搜索引擎的歷史并不長(zhǎng)。搜索引擎改變了世界,改變了用戶的使用習(xí)慣,讓我對(duì)互聯(lián)網(wǎng)的未來(lái)充溢信心。第一個(gè)搜索引擎甚至沒(méi)有分析網(wǎng)頁(yè)的副本,搜索引擎起步的時(shí)候做的并不好。而且沒(méi)有排名的規(guī)范,為了深度挖掘商業(yè)潛力,這才推動(dòng)搜索引擎漸漸發(fā)展,研發(fā)更先進(jìn)的系統(tǒng)。2001年花65億美元購(gòu)買了@主頁(yè)。開始推廣的時(shí)候,第一個(gè)比較大的商業(yè)搜索引擎是美國(guó)的斯坦福大學(xué)。最大的競(jìng)爭(zhēng)對(duì)手是網(wǎng)址站,主要是因?yàn)槟菚r(shí)候搜索結(jié)果中很多都是垃圾郵件,而且人們還不習(xí)慣用搜索引擎。通常叫做關(guān)鍵詞堆砌。一旦搜索關(guān)鍵詞,元標(biāo)記是協(xié)助搜索引擎排序的一個(gè)工具。那關(guān)鍵字和元標(biāo)志就會(huì)告訴搜索引擎內(nèi)容是哪一頁(yè),很短的時(shí)間做好中繼標(biāo)記工作,提供相關(guān)搜索結(jié)果,但隨著一些企業(yè)的市場(chǎng)營(yíng)銷經(jīng)驗(yàn)增加,很容易提高關(guān)鍵詞的排名,那時(shí)候比較流行“貸款、貸款、貸款”之類的關(guān)鍵詞堆砌,所以當(dāng)時(shí)搜索引擎的垃圾信息泛濫成災(zāi),造成許多用戶的不信任感。那時(shí)候一些重要的搜索引擎包括:EINet銀河、WebCrawl萊科斯、InfoseekInktomiAskAllTheWeb等。每一個(gè)搜索引擎都有三個(gè)主要局部組成:1蜘蛛然后分析該網(wǎng)頁(yè)。蜘蛛的工作職責(zé)是發(fā)現(xiàn)新的網(wǎng)頁(yè)并收集這些網(wǎng)頁(yè)的快照。比如掃描網(wǎng)頁(yè),蜘蛛以抓取頁(yè)面為主。所有的搜索引擎都能夠?qū)崿F(xiàn)深層檢索和快速檢索。深層檢索中,蜘蛛可以查找和掃描網(wǎng)頁(yè)內(nèi)的所有內(nèi)容;快速檢索中,蜘蛛不遵循深層檢索的規(guī)則,只搜索重要的關(guān)鍵詞局部,而不檢查和掃描網(wǎng)頁(yè)里的所有內(nèi)容。也就是說(shuō)蜘蛛爬行和收錄的網(wǎng)頁(yè)速度越快,大家都知道網(wǎng)站最重要的快照時(shí)間。就說(shuō)明這個(gè)網(wǎng)站在搜索引擎心中越重要,比如新華網(wǎng)和人民網(wǎng),蜘蛛每小時(shí)爬4次以上,有的網(wǎng)站一個(gè)月也不見得能被蜘蛛爬一次。快照的抓取水平取決于網(wǎng)站內(nèi)容的流行度、更新速度與網(wǎng)站域名的新舊。如果有許多外部鏈接指向這個(gè)SEO網(wǎng)站,蜘蛛的爬行規(guī)則中。那就說(shuō)明這個(gè)網(wǎng)站比較重要,所以抓取這個(gè)網(wǎng)站的頻率很高。當(dāng)然,搜索引擎這樣做也是為了省錢,如果都以同樣的頻率爬行所有網(wǎng)站,這樣需要更多的時(shí)間和成本,才干得到更全面的搜索結(jié)果。2指數(shù)可能會(huì)重復(fù)檢查網(wǎng)頁(yè)的內(nèi)容,蜘蛛在爬行的過(guò)程中。然后檢查網(wǎng)站內(nèi)容是否是復(fù)制其他網(wǎng)站的以保證網(wǎng)站原創(chuàng)內(nèi)容的指數(shù),該指數(shù)的結(jié)果一般都是基本堅(jiān)持復(fù)制內(nèi)容的排序搜索結(jié)果。當(dāng)你進(jìn)行搜索時(shí),搜索引擎不會(huì)從網(wǎng)絡(luò)上搜索,會(huì)從指數(shù)中選擇搜索結(jié)果,所以搜索得到網(wǎng)頁(yè)數(shù)量并不能代表整個(gè)網(wǎng)站,但蜘蛛會(huì)在后臺(tái)掃描和保存網(wǎng)站的網(wǎng)頁(yè)數(shù)量。谷歌1-10個(gè)搜索結(jié)果約為16.05萬(wàn),搜索結(jié)果數(shù)量中。還有每個(gè)區(qū)域的搜索結(jié)果排名,這些都可以用搜索引擎的算法指數(shù)來(lái)控制,或者說(shuō)是控制一部分。當(dāng)你輸入需要搜索的關(guān)鍵詞的時(shí)候,每個(gè)搜索引擎在全國(guó)或全世界各地都建立數(shù)據(jù)中心。會(huì)由于數(shù)據(jù)更新的時(shí)間不同而致搜索結(jié)果同步,所以在不同的地區(qū)就會(huì)出現(xiàn)不同的搜索結(jié)果。3Web界面算法都是從指數(shù)內(nèi)調(diào)用結(jié)果,當(dāng)你使用搜索引擎所看到界面(比方google.combaidu.com搜索結(jié)果取決于復(fù)雜的算法。通過(guò)查詢并分析才能在前臺(tái)顯示,所以算法的制作時(shí)間比較長(zhǎng),谷歌在這個(gè)技術(shù)領(lǐng)域上領(lǐng)先。這類特性在英文搜索上比較常見,還有一些搜索引擎的一站式”特性。一般來(lái)說(shuō),搜索引擎忽略“一站式”話,這樣的搜索結(jié)果將更加正確,比如搜索“貓,狗”時(shí)候,搜索引擎會(huì)排除“貓和狗”只搜索“貓”狗”一般搜索引擎看到某網(wǎng)頁(yè)上的關(guān)鍵詞逾越密度范圍,關(guān)鍵詞密度衡量一個(gè)關(guān)鍵詞呈現(xiàn)在網(wǎng)頁(yè)上的頻率。那它就會(huì)分析該網(wǎng)頁(yè)是否作弊,現(xiàn)在搜索引擎可以做到任何地域的字詞相關(guān)度處置。所以在一般情況下,關(guān)鍵詞應(yīng)該在整個(gè)網(wǎng)頁(yè)中分散,但一定要有某個(gè)標(biāo)題或段落臨時(shí)不變。除了網(wǎng)頁(yè)排名和一般的鏈接,搜索引擎還有個(gè)核心分析技術(shù)就是鏈接的相關(guān)性分析。谷歌還看重錨文本鏈接,錨文本鏈接主要在于鏈接的年齡和位置,還有該鏈接的網(wǎng)頁(yè)是否屬于權(quán)威網(wǎng)站等。搜索引擎都很關(guān)注著,鏈接是最大的網(wǎng)站質(zhì)量指標(biāo)。因?yàn)楝F(xiàn)在友情鏈接比較難找,而你又很需要友情鏈接,所以鏈接中很少有垃圾信息。比如大學(xué)的網(wǎng)站在谷歌的權(quán)重很高,那是由于大學(xué)有很多高質(zhì)量的外部鏈接。隨著大家都了解到外部鏈接的重要性后,很多網(wǎng)站開始買賣鏈接,這也是現(xiàn)在搜索引擎比較頭疼的問(wèn)題,不過(guò)ask現(xiàn)在判定網(wǎng)站排名更多在于網(wǎng)站的質(zhì)量。期待在查詢之前、搜索查詢、時(shí)間間隔、和語(yǔ)義關(guān)系等方面,所有的搜索引擎都希望得到用戶反饋的信息。能更加了解到用戶的意圖,還會(huì)跟蹤用戶的點(diǎn)擊,如果用戶點(diǎn)擊一個(gè)物品,然后又馬上回到搜索頁(yè)面,那搜索引擎就會(huì)認(rèn)為這個(gè)購(gòu)買不成功,會(huì)刪除跟蹤清單,其實(shí)這種做法已經(jīng)在向電子商務(wù)靠近了搜索引擎已經(jīng)開始注重用戶體驗(yàn),由此可以看出。為了做讓用戶肯定自己的勞動(dòng)效果,并成為搜索引擎行業(yè)的一個(gè)標(biāo)準(zhǔn),或許未來(lái)的發(fā)展就在個(gè)性化搜索。搜索引擎的工作原理大致可以分為:就象日常生活中所說(shuō)的一傳十,搜集信息:搜索引擎的信息搜集基本都是自動(dòng)的搜索引擎利用稱為網(wǎng)絡(luò)蜘蛛(spider自動(dòng)搜索機(jī)器人順序來(lái)連上每一個(gè)網(wǎng)頁(yè)上的超連結(jié)。機(jī)器人順序根據(jù)網(wǎng)頁(yè)鏈到其他中的超鏈接。十傳百…一樣,從少數(shù)幾個(gè)網(wǎng)頁(yè)開始,連到數(shù)據(jù)庫(kù)上所有到其他網(wǎng)頁(yè)的鏈接。理論上,若網(wǎng)頁(yè)上有適當(dāng)?shù)某B結(jié),機(jī)器人便可以遍歷絕大部分網(wǎng)頁(yè)。還要將它依照一定的規(guī)則進(jìn)行編排。這樣,整理信息:搜索引擎整理信息的過(guò)程稱為“建立索引”搜索引擎不只要保管搜集起來(lái)的信息。搜索引擎根本不用重新翻查它所有保管的信息而迅速找到所要的資料。想象一下,如果信息是不按任何規(guī)則地隨意堆放在搜索引擎的數(shù)據(jù)庫(kù)中,那么它每次找資料都得把整個(gè)資料庫(kù)完全翻查一遍,如此一來(lái)再快的計(jì)算機(jī)系統(tǒng)也沒(méi)有用。搜索引擎接受查詢并向用戶返回資料。搜索引擎每時(shí)每刻都要接到來(lái)自大量用戶的幾乎是同時(shí)發(fā)出的查詢,接受查詢:用戶向搜索引擎發(fā)出查詢。依照每個(gè)用戶的要求檢查自己的索引,極短時(shí)間內(nèi)找到用戶需要的資料,并返回給用戶。目前,搜索引擎返回主要是以網(wǎng)頁(yè)鏈接的形式提供的這些通過(guò)這些鏈接,用戶便能到達(dá)含有自己所需資料的網(wǎng)頁(yè)。通常搜索引擎會(huì)在這些鏈接下提供一小段來(lái)自這些網(wǎng)頁(yè)的摘要信息以協(xié)助用戶判斷此網(wǎng)頁(yè)是否含有自己需要的內(nèi)容。網(wǎng)絡(luò)蜘蛛原理那么Spider就是網(wǎng)上爬來(lái)爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè),網(wǎng)絡(luò)蜘蛛即WebSpider一個(gè)很形象的名字。把互聯(lián)網(wǎng)比喻成一個(gè)蜘蛛網(wǎng)。從網(wǎng)站某一個(gè)頁(yè)面(通常是首頁(yè))開始,讀取網(wǎng)頁(yè)的內(nèi)容,找到網(wǎng)頁(yè)中的其它鏈接地址,然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。如果把整個(gè)互聯(lián)網(wǎng)當(dāng)成一個(gè)網(wǎng)站,那么網(wǎng)絡(luò)蜘蛛就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)都抓取下來(lái)。要抓取互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)幾乎是不可能的從目前公布的數(shù)據(jù)來(lái)看,對(duì)于搜索引擎來(lái)說(shuō)。容量最大的搜索引擎也不過(guò)是抓取了整個(gè)網(wǎng)頁(yè)數(shù)量的百分之四十左右。這其中的原因一方面是抓取技術(shù)的瓶頸,無(wú)法遍歷所有的網(wǎng)頁(yè),有許多網(wǎng)頁(yè)無(wú)法從其它網(wǎng)頁(yè)的鏈接中找到另一個(gè)原因是存儲(chǔ)技術(shù)和處理技術(shù)的問(wèn)題,如果依照每個(gè)頁(yè)面的平均大小為20K計(jì)算(包括圖片)100億網(wǎng)頁(yè)的容量是1002000G字節(jié),即使能夠存儲(chǔ),下載也存在問(wèn)題(依照一臺(tái)機(jī)器每秒下載20K計(jì)算,需要340臺(tái)機(jī)器不停的下載一年時(shí)間,才干把所有網(wǎng)頁(yè)下載完畢)同時(shí),由于數(shù)據(jù)量太大,提供搜索時(shí)也會(huì)有效率方面的影響。因此,許多搜索引擎的網(wǎng)絡(luò)蜘蛛只是抓取那些重要的網(wǎng)頁(yè),而在抓取的時(shí)候評(píng)價(jià)重要性主要的依據(jù)是某個(gè)網(wǎng)頁(yè)的鏈接深度。網(wǎng)絡(luò)蜘蛛一般有兩種策略:廣度優(yōu)先和深度優(yōu)先(如下圖所示)廣度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會(huì)先抓取起始網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè),抓取網(wǎng)頁(yè)的時(shí)候。然后再選擇其中的一個(gè)鏈接網(wǎng)頁(yè),繼續(xù)抓取在此網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)。這是最常用的方式,因?yàn)檫@個(gè)方法可以讓網(wǎng)絡(luò)蜘蛛并行處理,提高其抓取速度。深度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會(huì)從起始頁(yè)開始,一個(gè)鏈接一個(gè)鏈接跟蹤下去,處置完這條線路之后再轉(zhuǎn)入下一個(gè)起始頁(yè),繼續(xù)跟蹤鏈接。這個(gè)方法有個(gè)優(yōu)點(diǎn)是網(wǎng)絡(luò)蜘蛛在設(shè)計(jì)的時(shí)候比較容易。兩種策略的區(qū)別,下圖的說(shuō)明會(huì)更加明確。有些網(wǎng)絡(luò)蜘蛛對(duì)一些不太重要的網(wǎng)站,由于不可能抓取所有的網(wǎng)頁(yè)。設(shè)置了訪問(wèn)的層數(shù)。例如,上圖中,A為起始網(wǎng)頁(yè),屬于0層,BCDEF屬于第1層,GH屬于第2層,I屬于第3層。如果網(wǎng)絡(luò)蜘蛛設(shè)置的訪問(wèn)層數(shù)為2話,網(wǎng)頁(yè)I不會(huì)被訪問(wèn)到這也讓有些網(wǎng)站上一局部網(wǎng)頁(yè)能夠在搜索引擎上搜索到另外一局部不能被搜索到對(duì)于網(wǎng)站設(shè)計(jì)者來(lái)說(shuō),扁平化的網(wǎng)站結(jié)構(gòu)設(shè)計(jì)有助于搜索引擎抓取其更多的網(wǎng)頁(yè)。經(jīng)常會(huì)遇到加密數(shù)據(jù)和網(wǎng)頁(yè)權(quán)限的問(wèn)題,網(wǎng)絡(luò)蜘蛛在訪問(wèn)網(wǎng)站網(wǎng)頁(yè)的時(shí)候。有些網(wǎng)頁(yè)是需要會(huì)員權(quán)限才干訪問(wèn)。當(dāng)然,網(wǎng)站的所有者可以通過(guò)協(xié)議讓網(wǎng)絡(luò)蜘蛛不去抓取(下小節(jié)會(huì)介紹)但對(duì)于一些**演講的網(wǎng)站,希望搜索引擎能搜索到演講,但又不能完全**讓搜索者查看,這樣就需要給網(wǎng)絡(luò)蜘蛛提供相應(yīng)的用戶名和密碼。網(wǎng)絡(luò)蜘蛛可以通過(guò)所給的權(quán)限對(duì)這些網(wǎng)頁(yè)進(jìn)行網(wǎng)頁(yè)抓取,從而提供搜索。而當(dāng)搜索者點(diǎn)擊檢查該網(wǎng)頁(yè)的時(shí)候,同樣需要搜索者提供相應(yīng)的權(quán)限驗(yàn)證。網(wǎng)站與網(wǎng)絡(luò)蜘蛛不同于一般的訪問(wèn),網(wǎng)絡(luò)蜘蛛需要抓取網(wǎng)頁(yè)。如果控制不好,則會(huì)引起網(wǎng)站服務(wù)器負(fù)擔(dān)過(guò)重。今年4月,淘寶網(wǎng)就因?yàn)檠呕⑺阉饕娴木W(wǎng)絡(luò)蜘蛛抓取其數(shù)據(jù)引起淘寶網(wǎng)服務(wù)器的不穩(wěn)定。網(wǎng)站是否就無(wú)法和網(wǎng)絡(luò)蜘蛛交流呢?其實(shí)不然,有多種方法可以讓網(wǎng)站和網(wǎng)絡(luò)蜘蛛進(jìn)行交流。一方面讓網(wǎng)站管理員了解網(wǎng)絡(luò)蜘蛛都來(lái)自哪兒,做了些什么,另一方面也告訴
返回新聞列表