當前位置:編程學習大全網 - 編程語言 - 搜索引擎的發展史

搜索引擎的發展史

搜索引擎的發展史和應用

1990年以前,沒有任何人能搜索互聯網.

1990年,加拿大麥吉爾大學(University of McGill)計算機學院的師生開發出Archie.當時,萬維網(World Wide Web)還沒有出現,人們通過FTP來***享交流資源.Archie能定期搜集並分析FTP服務器上的文件名信息,提供查找分別在各個FTP主機中的文件. 用戶必須輸入精確的文件名進行搜索,Archie告訴用戶哪個FTP服務器能下載該文件.雖然Archie搜集的信息資源不是網頁(HTML文件),但和搜索引擎的基本工作方式是壹樣的:自動搜集信息資源,建立索引,提供檢索服務.所以,Archie被公認為現代搜索引擎的鼻祖.

Robot(機器人)壹詞對編程者有特殊的意義.Computer Robot是指某個能以人類無法達到的速度不斷重復執行某項任務的自動程序.由於專門用於檢索信息的Robot程序象蜘蛛(spider)壹樣在網絡間爬來爬去,因此,搜索引擎的Robot程序被稱為spider程序.

1993年Matthew Gray開發了 World Wide Web Wanderer,這是第壹個利用HTML網頁之間的鏈接關系來檢測萬維網規模的"機器人(Robot)"程序.開始,它僅僅用來統計互聯網上的服務器數量,後來也能夠捕獲網址(URL).

1994年4月,斯坦福大學(Stanford University)的兩名博士生,美籍華人Jerry Yang(楊致遠)和David Filo***同創辦了Yahoo.隨著訪問量和收錄鏈接數的增長,Yahoo目錄開始支持簡單的數據庫搜索.因為Yahoo!的數據是手工輸入的,所以不能真正被歸為搜索引擎,事實上只是壹個可搜索的目錄.雅虎於2002年12月23日收購inktomi,2003年7月14日收購包括Fast和 Altavista在內的Overture,2003年11月,Yahoo全資收購3721公司.

1994年初,華盛頓大學(University of Washington )的學生Brian Pinkerton開始了他的小項目WebCrawler.1994年4月20日,WebCrawler正式亮相時僅包含來自6000個服務器的內容.WebCrawler是互聯網上第壹個支持搜索文件全部文字的全文搜索引擎,在它之前,用戶只能通過URL和摘要搜索,摘要壹般來自人工評論或程序自動取正文的前100個字.

1994年7月,卡內基·梅隆大學(Carnegie Mellon University) 的Michael Mauldin將John Leavitt的spider程序接入到其索引程序中,創建了Lycos.除了相關性排序外,Lycos還提供了前綴匹配和字符相近限制,Lycos第壹個在搜索結果中使用了網頁自動摘要,而最大的優勢還是它遠勝過其它搜索引擎的數據量.

1994年底,Infoseek正式亮相.其友善的界面,大量的附加功能,使之和Lycos壹樣成為搜索引擎的重要代表.

1995年,壹種新的搜索引擎形式出現了——元搜索引擎(A Meta Search Engine Roundup).用戶只需提交壹次搜索請求,由元搜索引擎負責轉換處理,提交給多個預先選定的獨立搜索引擎,並將從各獨立搜索引擎返回的所有查詢結果, 集中起來處理後再返回給用戶.第壹個元搜索引擎,是Washington大學碩士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler.

1995年12月,DEC的正式發布AltaVista.AltaVista是第壹個支持自然語言搜索的搜索引擎,第壹個實現高級搜索語法的搜索引擎(如 AND, OR, NOT等).用戶可以用AltaVista搜索新聞組(Newsgroups)的內容並從互聯網上獲得文章,還可以搜索圖片名稱中的文字,搜索 Titles,搜索Java applets,搜索ActiveX objects.AltaVista也聲稱是第壹個支持用戶自己向網頁索引庫提交或刪除URL的搜索引擎,並能在24小時內上線.AltaVista最有趣的新功能之壹,是搜索有鏈接指向某個URL的所有網站.在面向用戶的界面上,AltaVista也作了大量革新.它在搜索框區域下放了"tips"以幫助用戶更好的表達搜索式,這些小tip經常更新,這樣,在搜索過幾次以後,用戶會看到很多他們可能從來不知道的的有趣功能.這系列功能,逐漸被其它搜索引擎廣泛采用.1997年,AltaVista發布了壹個圖形演示系統LiveTopics,幫助用戶從成千上萬的搜索結果中找到想要的.

1995年9月26日,加州伯克利分校助教Eric Brewer,博士生Paul Gauthier創立了Inktomi,1996年5月20日,Inktomi公司成立,強大的HotBot出現在世人面前.聲稱每天能抓取索引1千萬頁以上,所以有遠超過其它搜索引擎的新內容.HotBot也大量運用cookie儲存用戶的個人搜索喜好設置.

1997年8月,Northernlight搜索引擎正式現身.它曾是擁有最大數據庫的搜索引擎之壹,它沒有Stop Words,它有出色的Current News,7,100多出版物組成的Special Collection,良好的高級搜索語法,第壹個支持對搜索結果進行簡單的自動分類.

1998年10月之前,Google只是斯坦福大學(Stanford University)的壹個小項目BackRub.1995年博士生Larry Page開始學習搜索引擎設計,於1997年9月15日註冊了google.com的域名,1997年底,在Sergey Brin和Scott Hassan,Alan Steremberg的***同參與下,BachRub開始提供Demo.1999年2月,Google完成了從Alpha版到Beta版的蛻變.Google公司則把1998年9月27日認作自己的生日.Google以網頁級別(Pagerank)為基礎,判斷網頁的重要性,使得搜索結果的相關性大大增強.Google公司的奇客(Geek)文化氛圍,不作惡(Don't be evil)的理念,為Google贏得了極高的口碑和品牌美譽.2006年4月,Google宣布其中文名稱"谷歌",這是Google第壹個在非英語國家起的名字.

Fast(Alltheweb)公司創立於1997年,是挪威科技大學(NTNU)學術研究的副產品.1999年5月,發布了自己的搜索引擎 AllTheWebi.Fast創立的目標是做世界上最大和最快的搜索引擎,幾年來庶幾近之.Fast(Alltheweb)的網頁搜索可利用ODP自動分類,支持Flash和pdf搜索,支持多語言搜索,還提供新聞搜索,圖像搜索,視頻,MP3,和FTP搜索,擁有極其強大的高級搜索功能.(2003年 2月25日,Fast的互聯網搜索部門被Overture收購).

1996年8月,sohu公司成立,制作中文網站分類目錄,曾有"出門找地圖,上網找搜狐"的美譽.隨著互聯網網站的急劇增加,這種人工編輯的分類目錄已經不適應.sohu於2004年8月獨立域名的搜索網站"搜狗",自稱"第三代搜索引擎".

Openfind 創立於1998年1月,其技術源自臺灣中正大學吳升教授所領導的GAIS實驗室.Openfind起先只做中文搜索引擎,鼎盛時期同時為三大著名門戶新浪,奇摩,雅虎提供中文搜索引擎,但2000年後市場逐漸被Baidu和Google瓜分.2002年6月,Openfind重新發布基於GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序(PolyRankTM),宣布累計抓取網頁35億,開始進入英文搜索領域.

2000年1月,兩位北大校友,超鏈分析專利發明人,前Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士後)在北京中關村創立了百度 (Baidu)公司.2001年8月發布Baidu.com搜索引擎Beta版(此前Baidu只為其它門戶網站搜狐新浪Tom等提供搜索引擎),2001年10月22日正式發布Baidu搜索引擎,專註於中文搜索.Baidu搜索引擎的其它特色包括:百度快照,網頁預覽/預覽全部網頁,相關搜索詞,錯別字糾正提示,mp3搜索,Flash搜索.2002年3月閃電計劃(Blitzen Project)開始後,技術升級明顯加快.後推出貼吧,知道,地圖,國學,百科等壹系列產品,深受網民歡迎.2005年8月5日在納斯達克上市,發行價為USD 27.00,代號為BIDU.開盤價USD 66.00,以USD 122.54收盤,漲幅353.85%,創下了5年以來美國股市上市新股當日漲幅最高紀錄.

2003年12月23日,原慧聰搜索正式獨立運做,成立了中國搜索.2004年2月,中國搜索發布桌面搜索引擎網絡豬1.0,2006年3月中搜將網絡豬更名為IG(Internet Gateway) .

2005年6月,新浪正式推出自主研發的搜索引擎"愛問".

搜 索 引 擎 分 類

搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine),目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine).

全文搜索引擎

全文搜索引擎是名副其實的搜索引擎,國外具代表性的有 Google,Fast/AllTheWeb,AltaVista,Inktomi,Teoma,WiseNuti等,國內著名的有百度(Baidu). 它們都是通過從互聯網上提取的各個網站的信息(以網頁文字為主)而建立的數據庫中,檢索與用戶查詢條件匹配的相關記錄,然後按壹定的排列順序將結果返回給用戶,因此他們是真正的搜索引擎.

從搜索結果來源的角度,全文搜索引擎又可細分為兩種,壹種是擁有自己的檢索程序(Indexer),俗稱"蜘蛛"(Spider)程序或"機器人" (Robot)程序,並自建網頁數據庫,搜索結果直接從自身的數據庫中調用,如上面提到的7家引擎;另壹種則是租用其他引擎的數據庫,並按自定的格式排列搜索結果,如Lycos引擎.

目錄索引

目錄索引雖然有搜索功能,但在嚴格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網站鏈接列表而已.用戶完全可以不用進行關鍵詞(Keywords) 查詢,僅靠分類目錄也可找到需要的信息.目錄索引中最具代表性的莫過於大名鼎鼎的Yahoo雅虎.其他著名的還有Open Directory Project(DMOZ),LookSmart,About等.國內的搜狐,新浪,網易搜索也都屬於這壹類.

元搜索引擎

元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,並將結果返回給用戶.著名的元搜索引擎有 InfoSpace,Dogpile,Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎.在搜索結果排列方面,有的直接按來源引擎排列搜索結果,如Dogpile,有的則按自定的規則將結果重新排列組合,如Vivisimo.

除上述三大類引擎外,還有集合式搜索引擎,門戶搜索引擎,免費鏈接列表等幾種非主流形式:

由於上述網站都為用戶提供搜索查詢服務,為方便起見,我們通常將其統稱為搜索引擎.

幾種搜索引擎的特點

百度搜索引擎的特點

百度搜索引擎使用了高性能的"網絡蜘蛛"程序自動的在互聯網中搜索信息,可定制,高擴展性的調度算法使得搜索器能在極短的時間內收集到最大數量的互聯網信息.百度在中國各地和美國均設有服務器,搜索範圍涵蓋了中國大陸,香港,臺灣,澳門,新加坡等華語地區以及北美,歐洲的部分站點.百度搜索引擎擁有目前世界上最大的中文信息庫,總量達到6000萬頁以上,並且還在以每天幾十萬頁的速度快速增長.由於後臺應用了高效的信息索引算法,大大提高了檢索時的響應速度和承受大訪問量時的穩定性,百度搜索引擎對超過6000萬網頁檢索壹次的本地平均響應時間小於0.5秒.

它主要具有以下的特點和功能:

1)基於字詞結合的信息處理方式.

2)支持主流的中文編碼標準.

3)智能相關度算法.

4)檢索結果能標示豐富的網頁屬性(如標題,網址,時間,大小,編碼,摘要等),並突出用戶的查詢串,便於用戶判斷是否閱讀原文.

5)百度搜索支持二次檢索(又稱漸進檢索或逼進檢索).

6)相關檢索詞智能推薦技術.

7)運用多線程技術,高效的搜索算法,穩定的UNIX平臺,和本地化的服務器,保證了最快的響應速度.

8)可以提供壹周,二周,四周等多種服務方式.可以在7天之內完成網頁的更新,是目前更新時間最快,數據量最大的中文搜索引擎.

9)檢索結果輸出支持內容類聚,網站類聚,內容類聚+網站類聚等多種方式.

10)智能性,可擴展的搜索技術保證最快最多的收集互聯網信息.

11)分布式結構,精心設計的優化算法,容錯設計保證系統在大訪問量下的高可用性,高擴展性,高性能和高穩定性.

12)高可配置性使得搜索服務能夠滿足不同用戶的需求.

13)先進的網頁動態摘要顯示技術.

14)獨有百度快照.

15)支持多種高級檢索語法,使用戶查詢效率更高,結果更準.

Google搜索引擎特點

Google搜索引擎是壹個利用蜘蛛程序(Spider)以某種方法自動地在互聯網中搜集和發現信息,並由索引器為搜集到的信息建立索引,從而為用戶提供面向網頁的全文檢索服的互聯網信息查詢系統.

它主要具有以下的特點和功能:

1)采用了先進的網頁級別(PageRankTM)技術.

2)在同壹個界面下,用戶可以定制語言和到何種網站中進行搜索.

3)具有超鏈分析的功能.

4)遵從關鍵字的相對位置.

5)提升了中文搜索引擎的相關性,而且更好地實現了檢索字串與網頁中文字的語義上的匹配.

搜狐搜索引擎的特點

搜狐網站的內容豐富多彩,與我們的生活聯系十分緊密.搜狐分層目錄是專為中國用戶設計的高質量的分類目錄系統,把超過15萬個精選的中文站點鏈接歸為18個大類,如:娛樂,計算機與互聯網,工商經濟,科學,藝術,文學,生活服務,科學技術,政治法律等等.而有價值的用戶往往只關心自己需要的專門信息.所以我們在每個最初目錄下,都建立全面豐富的目錄樹系統,構成了四通八達的信息高速公路,方便迅速地把您帶到目的地.分層目錄系統不僅使用戶找到最需要的專門信息,也使廣告客戶更便捷地找到特定的用戶群,達到最佳的宣傳效果.在搜狐分層目錄之外,還同時設立了七項搜狐頻道:搜狐新聞,財經報道,搜狐體育,網猴, 多媒體,外國資源,搜狐社區.

它主要具有以下的特點和功能:

1)最先進的人工分類技術;2)友好的全中文界面;3)符合中文語言文化習慣;4)18個部類,近15萬條鏈接構成的樹杈型網頁結構;5)最直觀,最輕松為網上用戶提供所需要的內容.

北大天網搜索引擎的特點

北大天網收錄 135 萬網頁和 9 萬新聞組文章,更新較快;功能規範;反饋內容完整,包括網頁標題,日期,長度和代碼;可在反饋結果中進壹步檢索;支持電子郵件查詢.無分類查詢.另提供北京大學,中國科院等FTP站點的檢索.

它主要具有以下的特點和功能:

1)在語種上支持中英文搜索.國內大部分的搜索引擎都只收錄中文網站,用來查找國內的英文網站.

2)在文件格式上即支持www文件傳輸格式,也支持FTP文件傳輸格式.天網將FTP文件分成電影,動畫片,mp3音樂,程序下載,開發資源***四大類,用戶可以象目錄導航式搜索引擎那樣層層點擊下去查找自己需要的FTP文件.

如何使用搜索引擎

搜索引擎可以幫助您在Internet上找到特定的信息,但它們同時也會返回大量無關的信息.如果您多使用壹些下面介紹的技巧,將發現搜索引擎會花盡可能少的時間找到您需要的確切信息.

在類別中搜索

許多搜索引擎(如Yahoo!)都顯示類別,如計算機和Internet,商業和經濟.如果您單擊其中壹個類別,然後再使用搜索引擎,您將可以選擇搜索整個Internet還是搜索當前類別.顯然,在壹個特定類別下進行搜索所耗費的時間較少,而且能夠避免大量無關的Web站點.

當然,您或許還想搜索整個Internet,以搜索特定類別之外的信息.

使用具體的關鍵字

如果想要搜索以鳥為主題的Web站點,您可以在搜索引擎中輸入關鍵字"bird".但是,搜索引擎會因此返回大量無關信息,如談論羽毛球的"小鳥球 (birdie)"或烹飪game birds不同方法的Web站點.為了避免這種問題的出現,請使用更為具體的關鍵字,如"ornithology"(鳥類學,動物學的壹個分支).您所提供的關鍵字越具體,搜索引擎返回無關Web站點的可能性就越小.

使用多個關鍵字

您還可以通過使用多個關鍵字來縮小搜索範圍.例如,如果想要搜索有關佛羅裏達州邁阿密市的信息,則輸入兩個關鍵字"Miami"和"Florida".如果只輸入其中壹個關鍵字,搜索引擎就會返回諸如Miami Dolphins足球隊或Florida Marlins棒球隊的無關信息.壹般而言,您提供的關鍵字越多,搜索引擎返回的結果越精確.

使用布爾運算符

許多搜索引擎都允許在搜索中使用兩個不同的布爾運算符:AND和OR.如果您想搜索所有同時包含單詞"hot"和"dog"的Web站點,只需要在搜索引擎中輸入如下關鍵字:

hot AND dog

搜索將返回以熱狗(hot dog)為主題的Web站點,但還會返回壹些奇怪的結果,如談論如何在壹個熱天(hot day)讓壹只狗(dog)涼快下來的Web站點.

如果想要搜索所有包含單詞"hot"或單詞"dog"的Web站點,您只需要輸入下面的關鍵字:

hot OR dog

搜索會返回與這兩個單詞有關的Web站點,這些Web站點的主題可能是熱狗(hot dog),狗,也可能是不同的空調在熱天(hot day)使您涼爽,辣醬(hot chilli sauces)或狗糧等.

留意搜索引擎返回的結果

搜索引擎返回的Web站點順序可能會影響人們的訪問,所以,為了增加Web站點的點擊率,壹些Web站點會付費給搜索引擎,以在相關Web站點列表中顯示在靠前的位置.好的搜索引擎會鑒別Web站點的內容,並據此安排它們的順序,但其他搜索引擎大概不會這麽做.

此外,因為搜索引擎經常對最為常用的關鍵字進行搜索,所以許多Web站點在自己的網頁中隱藏了同壹關鍵字的多個副本.這使得搜索引擎不再去查找Internet,以返回與關鍵字有關的更多信息.

正如讀報紙,聽收音機或看電視新聞壹樣,請留意您所獲得的信息的來源.搜索引擎能夠幫您找到信息,但無法驗證信息的可靠性.因為任何人都可以在網上發布信息.

  • 上一篇:學習物聯網技術,我還需要學習哪些東西?
  • 下一篇:如何讓生活變得有趣
  • copyright 2024編程學習大全網