搜索引擎的發(fā)展情況和現(xiàn)狀 [聚類搜索引擎發(fā)展現(xiàn)狀研究]
發(fā)布時間:2020-03-07 來源: 感悟愛情 點擊:
[摘要]分析研究搜索引擎發(fā)展軌跡及國內(nèi)外聚類搜索引擎的發(fā)展現(xiàn)狀,通過對國內(nèi)外現(xiàn)有聚類搜索引擎的基本功能進行分析,并從聚類方式、聚類結(jié)果展示形式和聚類效果三個角度進行測評,提出“以用戶為中心”的聚類2.0搜索是未來聚類搜索引擎乃至搜索引擎的發(fā)展趨勢。
[關(guān)鍵詞]聚類搜索引擎 可視化搜索 社會化聚類搜索 聚類2.0搜索 發(fā)展趨勢
[分類號]G354.2
1 前言
網(wǎng)絡(luò)信息的迅猛增長,信息用戶行為的不斷變化,致使網(wǎng)絡(luò)檢索需求在原有的全面性和準確性的基礎(chǔ)上,朝著新穎化、個性化的趨勢發(fā)展,從而給搜索引擎的發(fā)展帶來了機遇與挑戰(zhàn)。聚類搜索引擎的突出特點是有利于提高檢索精度,根據(jù)某一屬性,對搜索引擎返回的結(jié)果進行聚類,從而使用戶迅速定位所需信息。在當前網(wǎng)絡(luò)環(huán)境下,現(xiàn)有的聚類搜索引擎能否滿足日益變化的檢索需求,其今后的發(fā)展態(tài)勢如何呢?本文將對上述問題進行探討。
2 聚類搜索引擎發(fā)展現(xiàn)狀分析
2.1搜索引擎發(fā)展軌跡
隨著搜索技術(shù)的不斷發(fā)展,新型異質(zhì)的搜索產(chǎn)品層出不窮。作者將搜索引擎近十多年的發(fā)展大致分為三個階段,即從目錄式搜索(第一代搜索引擎),發(fā)展到基于Robot的搜索(第二代搜索引擎),進而到智能化、個性化搜索(第三代搜索引擎)。智能化搜索采用中文自動分類、自動聚類等人工智能技術(shù),使用內(nèi)容分析及區(qū)域智能識別技術(shù),增強了搜索引擎的查詢能力,產(chǎn)生了元搜索引擎(如Dogpile、mamma等)、聚類搜索引擎(如Clusty、KartOO及比比貓等)、自然語言處理搜索引擎(如Lexxe)以及語義網(wǎng)搜索引擎(如Swogle)等。在滿足用戶個性化檢索需求方面,產(chǎn)生了如移動搜索引擎(如Ask Mobile、儒豹等)、桌面搜索引擎(如Coogle Desktop、百度硬盤搜索等)、可視化搜索引擎(如SearchMe、RedZee)、垂直搜索引擎(如ZabaSearch、沱沱網(wǎng))以及多內(nèi)容搜索引擎(博客、視頻、音頻、地圖等)。
搜索引擎的發(fā)展可從其緊密關(guān)聯(lián)的兩個對象――互聯(lián)網(wǎng)資源(搜索引擎的搜索對象)和用戶(搜索引擎的使用者)來分析。搜索引擎前兩個發(fā)展階段主要聚焦在資源,從第三代開始逐漸注重用戶的搜索體驗,搜索引擎發(fā)展的最終目的是“所得即所需”(What You Get is What You Want)。
2.2國內(nèi)外聚類搜索引擎發(fā)展現(xiàn)狀
作為第三代搜索引擎的代表――聚類搜索引擎正在蓬勃發(fā)展:2000年出現(xiàn)的Vivisimo可稱為國內(nèi)外最早的聚類搜索產(chǎn)品之一,2004年Clusty在其基礎(chǔ)上得到了進一步發(fā)展;2003年問世的Mooter被人們廣泛看好;近期出現(xiàn)的KartOO(Ujiko及KVisu)、Quintura、KoolTorch和WebBrain等多款可視化聚類搜索引擎帶給用戶全新的視覺感受;可視化音樂電影聚類搜索引擎Liveplasma的出現(xiàn)使聚類搜索向垂直化趨勢邁進。相對于國外來說國內(nèi)聚類搜索引擎的發(fā)展則滯后得多,其中最具競爭力和發(fā)展?jié)摿κ?005年創(chuàng)立的比比貓(Bbmao),它集聚類、去重、收藏等多重功能于一身,是社會化的聚類元搜索引擎;5iseek及SeekXun目前處于聚類的起始階段,只提供搜索結(jié)果聚類這一功能。
3 國內(nèi)外聚類搜索引擎功能分析
本文從聚類搜索引擎的基本功能和聚類功能兩個角度分析國內(nèi)外已有成熟聚類搜索引擎產(chǎn)品。
3.省略發(fā)起的“The Top 100Alternative Search Engines”評選結(jié)果為標準,并借助調(diào)研和實驗,選取了較具代表性的聚類搜索引擎作為分析對象,如表1所示:
通過以上分析可以看出,目前聚類搜索引擎得到了快速發(fā)展并取得了一定的成果:①聚類搜索引擎幾乎均為元搜索引擎,檢索對象已不單單為網(wǎng)頁,更觸及到圖像、視頻、博客、地圖、維基及工作等;②將社會性網(wǎng)絡(luò)(SNS)的相關(guān)概念和技術(shù)充分融合其中,如Tag、收藏及掘客等;③在提供個性化服務(wù)方面各具特色,其中iBoogie及國內(nèi)的比比貓?zhí)峁┑姆⻊?wù)形式使人眼前一亮,如iBoogie的用戶可根據(jù)自己的偏好,在博客、游戲、軍事及旅游等大類下選擇已提供的信息源,形成個性化的搜索對象,比比貓在頁面右側(cè)將相關(guān)圖片、新聞、購物及下載等與網(wǎng)頁檢索結(jié)果一并呈現(xiàn)給用戶。
3.2聚類搜索引擎的聚類功能測評
聚類功能的測評主要從聚類方式、聚類結(jié)果展示形式及聚類效果三個角度來分析。
3.2.1聚類方式 盡管所選取網(wǎng)站的聚類形式不盡相同,但大體上可歸納為三種:目錄結(jié)構(gòu)、層次聚類結(jié)構(gòu)和樹狀及網(wǎng)狀結(jié)構(gòu)。目錄結(jié)構(gòu)即將聚類類目簡單地羅列;層次聚類采用“自下而上”的方式將聚類結(jié)果再進行聚類,直到滿足“類內(nèi)最大相似,類間最大差異”的聚類目的;樹狀和網(wǎng)狀結(jié)構(gòu)是將聚類結(jié)果進行一系列的控制和優(yōu)化處理,將類目間的關(guān)系揭示出來。表2歸納了各聚類搜索引擎的聚類方式:
3.2.2聚類結(jié)果的展現(xiàn)形式 傳統(tǒng)聚類搜索引擎主要通過類目列表的形式來展示搜索結(jié)果,即將類目按照一定的組織形式(如類目大小)通過列表呈現(xiàn)給用戶,如Clusty、iBoogie、Carrot2以及比比貓;可視化技術(shù)在聚類結(jié)果展示方面發(fā)揮了巨大的作用,消除了傳統(tǒng)列表形式不夠“易用”的缺陷,使用戶能夠更方便地理解和使用聚類結(jié)果,如Mnemomap、Webbrain及Quintu-ra。筆者認為Quintura在聚類結(jié)果可視化方面較具特色且效果較好,其采用Quintura Cloud可視化地圖技術(shù)展現(xiàn)聚類結(jié)果(見圖1),類目名稱的大小及顏色的深淺代表該類目下搜索結(jié)果的多少,字體愈大、顏色愈深表示其結(jié)果越多,反之則越少。
在這里介紹一下KVisu引聚類搜索引擎及其Car-tographic Surfaces可視化技術(shù)。它使用聚類地圖更形象地展示聚類結(jié)果,一塊區(qū)域代表一個類目,區(qū)域面積的大小代表類目下結(jié)果的多少,面積愈大表明結(jié)果愈多,反之愈少。在地圖上類目的遠近代表類目間關(guān)系的緊密程度,愈近則表示類目間關(guān)系越密切,進而形成聚類組(Clustering Group),如圖2所示:
3.2.3聚類的效果 聚類搜索引擎的聚類效果至關(guān)重要,筆者選取兩個方向作為評價的內(nèi)容,即類目的邏輯關(guān)系和類目名稱的有效性,并選取Java作為關(guān)鍵詞展開實驗,Java有三種含義,即:爪哇島(印尼)、爪哇產(chǎn)的咖啡及面向?qū)ο蟮某绦蜷_發(fā)語言。類目的邏輯關(guān)系指的是類目之間以及類目與其下位類之間是否存在一定的邏輯關(guān)系;類目名稱的有效性是指類名是否能概括聚類的主題,并與其他聚類相區(qū)別,對用戶而言是可 識別并且有意義的。
類目劃分應(yīng)依據(jù)聚類的內(nèi)容而不僅依據(jù)字面的差異。通過實驗可看出,目前聚類搜索引擎仍舊依據(jù)網(wǎng)頁所包含的相應(yīng)關(guān)鍵詞作為類目名稱,尚未依據(jù)網(wǎng)頁內(nèi)容來聚類,導致無法體現(xiàn)類目間的邏輯關(guān)系,如老牌聚類搜索引擎Clusty,通過搜索Java得到包括Down-10ads、Tutorials、Language及Sun Microsystems等39個類目,類目之間并無關(guān)聯(lián);類目的名稱雖是高頻詞(組),但對于用戶來說并無實際意義,如類Additions、List ofJava及l(fā)inks等,用戶無法了解該聚類的明確主題,反而增加了用戶的負擔,類似的情況也出現(xiàn)在Carrot、iBoogie及比比貓等搜索引擎上。部分聚類搜索引擎在此問題上做了一些改進,如WebBrain按照父類、子類、兄弟類及相關(guān)類來組織類目;Mnemomap按照標簽、翻譯、鄰居和同義詞組織聚類;iseek依照主題、人、地點、組織、時間、縮寫、發(fā)布時間以及來源控制聚類。雖然它們還是依據(jù)關(guān)鍵詞來聚類,但通過對聚類的控制使類目間有了一定的關(guān)聯(lián)。
4.1目前聚類搜索引擎存在的問題
聚類搜索引擎雖取得了階段性的巨大進步,但在聚類方式、結(jié)果展現(xiàn)形式以及聚類效果等方面存在不足,如聚類所需時間長、聚類效果不佳、聚類結(jié)果展示形式單一等?梢哉f,目前聚類搜索引擎所關(guān)注的是互聯(lián)網(wǎng)資源,即如何更全面、更準確地處理互聯(lián)網(wǎng)信息,而針對用戶設(shè)計的產(chǎn)品功能目前只是試探性的,并未產(chǎn)生實質(zhì)性的革新與突破。
4.2未來聚類搜索引擎的發(fā)展趨勢――聚類2.0搜索
Web2.0的出現(xiàn)使網(wǎng)絡(luò)步入“全民織網(wǎng)”的時代,用戶已從被動信息接受者轉(zhuǎn)變?yōu)橹鲃犹峁┱。聚類搜索引擎的發(fā)展同樣應(yīng)在關(guān)注互聯(lián)網(wǎng)資源的基礎(chǔ)上,將用戶放在與其同等重要的地位。Vivisimo公司創(chuàng)始人兼CEO――Raul Valdes-Perez2008年1月提出了Clus-tering 2.0的概念,即通過“Remix Clustering”在原有搜索結(jié)果上再一次聚類來滿足用戶的個性化需求。由此可看出,聚類2.0搜索是通過用戶的參與將更智能化的聚類結(jié)果以更形象的展現(xiàn)形式來滿足用戶的個性化搜索需求。聚類2.0搜索將在繼承傳統(tǒng)聚類搜索引擎已有成果基礎(chǔ)上朝以下4個方向發(fā)展。
4.2.1聚類結(jié)果――智能化 這里的智能搜索有別于基于人工智能的智能搜索引擎,是指聚類的智能化。利用語義分析、智能化的文本挖掘技術(shù)及去重技術(shù),通過詞形、詞性以及詞義的處理去除重復網(wǎng)頁,進行真正的基于內(nèi)容的聚類,并使類目之間建立一定的邏輯關(guān)系而不是簡單的羅列,類目名稱能夠反映此類目下所含資源的主題。通過聚類,達到減輕用戶負擔,用戶快速定位所需搜索結(jié)果的目的。雖然目前尚未有智能化聚類搜索產(chǎn)品問世,但這是未來聚類搜索最重要的發(fā)展趨勢。
4.2.2結(jié)果呈現(xiàn)――可視化 時至今日,已有部分聚類搜索引擎在聚類結(jié)果可視化方面進行了有益的嘗試,如Mnemomap、Webbrain、KartOO、Quintura、Liveplas-ma及KVisu等等。可以說后三種可視化聚類搜索引擎在某種程度上代表了未來的發(fā)展方向。利用聚類地圖等形式使類目面積的大小、類目間距離的遠近以及類目的顏色等具有一定的意義,如類目的大小代表該類目下搜索結(jié)果的多少,類目間的距離代表類目間關(guān)系的遠近,類目的不同顏色代表該類目下搜索結(jié)果受關(guān)注程度的差異。通過這種更為形象的可視化方式,使用戶能夠方便地掌握聚類結(jié)果的整體情況。
4.2.3用戶參與――社會化 社會化搜索是聚類搜索引擎乃至搜索引擎按照自身邏輯發(fā)展的必然結(jié)果,社會化聚類搜索并不是“社區(qū)+聚類搜索”的簡單交叉。提供社會性書簽功能、網(wǎng)頁收藏功能并將具有相似檢索興趣的用戶組成社群網(wǎng)絡(luò),分享交流彼此的搜索結(jié)果及經(jīng)驗,這只是社區(qū)化搜索在網(wǎng)頁聚類搜索功能上的橫向補充與擴展。社會化聚類搜索則試圖以用戶參與的方式優(yōu)化搜索結(jié)果的聚類,讓用戶根據(jù)自身瀏覽體驗對搜索結(jié)果的聚類進行評價,在杜絕作弊的情況下,可以讓用戶判斷搜索結(jié)果所屬類目的精度,使聚類效果得到不斷優(yōu)化。
4.2.4服務(wù)提供――個性化 個性化搜索是發(fā)展社會化搜索的另一思路。滿足用戶個性化的檢索需求,提供個性化的檢索體驗是每個搜索引擎所追求的最大目標。用戶可以選擇和添加聚類信息源、設(shè)置搜索對象(如包含圖片、視頻及博客等)、設(shè)置聚類數(shù)量等,使搜索成為一種普遍性的服務(wù),根據(jù)用戶需求分化出許多異質(zhì)的搜索產(chǎn)品。不僅如此,用戶逐漸可以擁有自己的聚類搜索產(chǎn)品,隨心所欲地設(shè)計各種聚類屬性。每個人的聚類搜索引擎都不相同,反映出各自的興趣和習慣,最終每個人都可以經(jīng)營自己的垂直聚類搜索引擎,提高檢索精度,增強用戶體驗。
5 結(jié)語
通過對已有聚類搜索引擎功能的分析,可以看出聚類搜索得到了快速蓬勃的發(fā)展,無論是在聚類方式、結(jié)果展現(xiàn)形式等方面都取得了巨大的進步。在當今的網(wǎng)絡(luò)環(huán)境下,聚類搜索引擎的局限及不足也是顯而易見的。隨著Web2.0思想不斷滲透到聚類搜索引擎當中,聚類2.0搜索必將是未來的發(fā)展趨勢。聚類結(jié)果的智能化、結(jié)果呈現(xiàn)的可視化、用戶參與的社會化以及服務(wù)提供的個性化將是未來聚類搜索發(fā)展的方向。
相關(guān)熱詞搜索:發(fā)展現(xiàn)狀 搜索引擎 研究 聚類搜索引擎發(fā)展現(xiàn)狀研究 旅游發(fā)展現(xiàn)狀研究 脆弱性研究發(fā)展現(xiàn)狀
熱點文章閱讀