【基于熵權(quán)的搜索引擎評(píng)價(jià)指標(biāo)體系的構(gòu)建】熵權(quán)法求指標(biāo)權(quán)重案例
發(fā)布時(shí)間:2020-03-07 來(lái)源: 歷史回眸 點(diǎn)擊:
摘要 在回顧搜索引擎評(píng)價(jià)研究現(xiàn)狀的基礎(chǔ)上,分析搜索引擎評(píng)價(jià)指標(biāo)的基本構(gòu)成因素。創(chuàng)造性地將熵權(quán)理論引入搜索引擎評(píng)價(jià)領(lǐng)域,建立熵權(quán)值模型,并通過(guò)科學(xué)計(jì)算,構(gòu)建出基于熵權(quán)的搜索引擎評(píng)價(jià)指標(biāo)體系。
關(guān)鍵詞 搜索引擎 熵權(quán) 評(píng)價(jià)指標(biāo) 模型
分類號(hào) G250
1 引言
搜索引擎評(píng)價(jià)指標(biāo)體系的構(gòu)建,是科學(xué)評(píng)價(jià)搜索引擎質(zhì)量的重要基礎(chǔ)。對(duì)搜索引擎進(jìn)行全面、客觀、公正、系統(tǒng)的評(píng)價(jià),不僅可以為用戶選擇合適的搜索引擎提供科學(xué)的依據(jù),而且可以促進(jìn)搜索引擎的提供者改進(jìn)服務(wù)質(zhì)量,提高服務(wù)水平。本文擬將熵權(quán)理論引入搜索引擎評(píng)價(jià)領(lǐng)域,通過(guò)建立熵權(quán)值模型,構(gòu)建出合理的搜索引擎評(píng)價(jià)指標(biāo)體系。
2 搜索引擎評(píng)價(jià)指標(biāo)的確立
2,1搜索引擎評(píng)價(jià)指標(biāo)體系研究的現(xiàn)狀
搜索引擎評(píng)價(jià)指標(biāo)體系的研究,起始于1996年。短短十幾年的時(shí)間里,國(guó)內(nèi)外學(xué)者們?cè)谒阉饕嬖u(píng)價(jià)指標(biāo)體系研究方面取得了諸多的成果。如美國(guó)南加州大學(xué)教授Robert Harris提出了8條標(biāo)準(zhǔn);Da-vid Stoker和AlisonCooke也提出了與Harris完全不同的8條標(biāo)準(zhǔn);H.Vernon Leighton和J.deep Srivastava將查準(zhǔn)率和查全率引入,并提出了“相關(guān)性范疇”的概念;Bar-Ha提出應(yīng)從數(shù)據(jù)庫(kù)覆蓋范圍、查詢響應(yīng)時(shí)間、用戶所需努力和檢索效果來(lái)評(píng)估;Heting Chu和Marilyn Rosenthal則提出應(yīng)從標(biāo)引、檢索能力、檢索效果、輸出、用戶負(fù)擔(dān)5個(gè)方面來(lái)評(píng)價(jià);Bell提出用戶為中心的評(píng)價(jià)理念。
國(guó)內(nèi)學(xué)者張莉揚(yáng)提出了重復(fù)率、互鏈接率兩個(gè)新指標(biāo);曾民族在綜合國(guó)內(nèi)外搜索引擎評(píng)價(jià)研究成果的基礎(chǔ)上提出7項(xiàng)評(píng)價(jià)指標(biāo);南開(kāi)大學(xué)的李培和劉淑華將評(píng)價(jià)標(biāo)準(zhǔn)歸納為“10C”原則和“CARS”檢驗(yàn)體系兩種;陶躍華等根據(jù)系統(tǒng)工程的基本思想,提出了評(píng)價(jià)指標(biāo)體系并建立了評(píng)價(jià)模型;郭曉苗則引入了層次分析評(píng)價(jià)法;劉正春提出了量化評(píng)價(jià)模型;王靜江對(duì)現(xiàn)有的指標(biāo)體系做了比較研究;朱慶華提出了基于層次分析法的評(píng)價(jià)指標(biāo)體系。
2,2搜索引擎評(píng)價(jià)指標(biāo)的確立
2,2,1搜索引擎評(píng)價(jià)指標(biāo)的確立原則 要確立科學(xué)、合理、有效的搜索引擎評(píng)價(jià)指標(biāo),就必須建立相應(yīng)的指導(dǎo)原則,以保證我們確立的搜索引擎評(píng)價(jià)指標(biāo)有一個(gè)客觀、統(tǒng)一的基礎(chǔ)。由于搜索引擎終究是為用戶檢索服務(wù)的一種網(wǎng)絡(luò)工具,確立搜索引擎評(píng)價(jià)指標(biāo)最基本的出發(fā)點(diǎn)就是把用戶放在第一位,凸現(xiàn)“人性化”理念。因此搜索引擎評(píng)價(jià)指標(biāo)的確立應(yīng)該符合以下三原則:科學(xué)、合理、實(shí)用。
?科學(xué)原則。確立的搜索引擎評(píng)價(jià)指標(biāo)要能客觀、真實(shí)、全面地反映搜索引擎的主要性能以及各相關(guān)因素之間的內(nèi)在聯(lián)系。
?合理原則。確立的搜索引擎評(píng)價(jià)指標(biāo)是對(duì)傳統(tǒng)評(píng)價(jià)指標(biāo)體系的揚(yáng)棄。既要擯棄傳統(tǒng)評(píng)價(jià)指標(biāo)中存在的嚴(yán)重缺陷,又要適應(yīng)信息技術(shù)的發(fā)展,增加新性能指標(biāo)。使得其能夠充分體現(xiàn)現(xiàn)代網(wǎng)絡(luò)信息檢索技術(shù)發(fā)展的基本特點(diǎn)。
?實(shí)用原則。確立的搜索引擎評(píng)價(jià)指標(biāo)要具有實(shí)用性和高效性。既要簡(jiǎn)明扼要,便于識(shí)別,又要實(shí)用方便操作。
2,2,2搜索引擎評(píng)價(jià)指標(biāo)的確立基于2,2,1節(jié)提出的理念與原則,搜索引擎評(píng)價(jià)指標(biāo)應(yīng)該包括:
?用戶感覺(jué)。包括用戶舒適度與智能化程度。舒適度主要包括:搜索引擎網(wǎng)站界面的外觀設(shè)計(jì)是否符合美學(xué)原則;用戶操作是否方便,是否有幫助系統(tǒng)、是否提供特色服務(wù)等;智能化程度則表現(xiàn)為搜索引擎的人性化服務(wù)水平,主要包括是否提供網(wǎng)頁(yè)快照功能、在保證檢索精度的前提下,搜索引擎能否對(duì)網(wǎng)頁(yè)按重要性排序以及能否對(duì)信息進(jìn)行智能過(guò)濾等。
?數(shù)據(jù)庫(kù)。搜索引擎數(shù)據(jù)庫(kù)是搜索引擎工作的基礎(chǔ),也是搜索引擎評(píng)價(jià)的重要對(duì)象。搜索引擎數(shù)據(jù)庫(kù)包括數(shù)據(jù)資源庫(kù)與資源索引庫(kù)兩方面。數(shù)據(jù)資源庫(kù)的評(píng)價(jià)指標(biāo)主要有數(shù)據(jù)庫(kù)內(nèi)容性質(zhì)、規(guī)模、學(xué)科范圍、信息的權(quán)威性、時(shí)效性、更新周期,分類體系和信息抓取方式等;資源索引庫(kù)的評(píng)價(jià)指標(biāo)主要是索引的標(biāo)引數(shù)量、標(biāo)引深度和標(biāo)引方式與方法等。
?檢索功能。是搜索引擎技術(shù)能力的綜合體現(xiàn),直接影響著檢索結(jié)果質(zhì)量的高低。搜索引擎檢索功能的評(píng)價(jià)指標(biāo)主要包括:基本檢索、目錄式瀏覽檢索、高級(jí)檢索和多媒體檢索。
基本檢索通常是指布爾邏輯檢索、截詞檢索、鄰近詞檢索、字段檢索、通配符檢索和區(qū)分大小寫(xiě)(英語(yǔ))等功能;高級(jí)檢索主要是指加權(quán)檢索、模糊檢索、概念檢索、自然語(yǔ)言檢索、聚類檢索、跨語(yǔ)言檢索、不同格式文件檢索以及相關(guān)信息反饋檢索等。
?檢索結(jié)果。是用戶使用搜索引擎所產(chǎn)生的直接產(chǎn)品。其評(píng)價(jià)指標(biāo)主要包括輸出結(jié)果與檢索效率兩方面。前者包括查全率(漏檢率)、查準(zhǔn)率(誤檢率)、顯示內(nèi)容的完整率和顯示方式的標(biāo)準(zhǔn)化程度;后者則包括響應(yīng)時(shí)間、死鏈接率以及搜索系統(tǒng)的穩(wěn)定性等。
3構(gòu)建基于熵權(quán)的模糊綜合評(píng)價(jià)模型
3,1“熵”概念的引入
熵(shannon)是自信息的數(shù)學(xué)期望,系統(tǒng)的不確定性被定義為信息熵(簡(jiǎn)稱“熵”),其物理含義是指對(duì)信源整體的統(tǒng)計(jì)特征體的平均不確定性的量度(即平均自信息量)。對(duì)于某一特定的信息源,其信息熵只有一個(gè)。由于信息的獲得意味著不確定性的減少或消除,所以人們將接受某一信號(hào)所獲得的信息熵的減少值,稱為“負(fù)熵”。
4,2構(gòu)建基于熵權(quán)的搜索引擎評(píng)價(jià)指標(biāo)體系
依據(jù)本文2.2節(jié)設(shè)計(jì)出專家調(diào)查表,然后以電子郵件形式邀請(qǐng)“零點(diǎn)論壇”資深會(huì)員對(duì)調(diào)查表進(jìn)行評(píng)價(jià),依重要程度標(biāo)注出5、4、3、2、1之中的代碼。本次調(diào)查共發(fā)出調(diào)查表50份,收回有效調(diào)查結(jié)果35份。通過(guò)對(duì)收回的調(diào)查結(jié)果匯總整理,構(gòu)建出各級(jí)指標(biāo)的模糊評(píng)價(jià)矩陣,然后利用Matlab 7.0編程計(jì)算出各級(jí)指標(biāo)權(quán)重值。最后得出基于熵權(quán)的搜索引擎評(píng)價(jià)指標(biāo)體系,如表1所示:
5 結(jié)論
本文創(chuàng)新之處在于將熵權(quán)計(jì)算模型引入搜索引擎評(píng)價(jià)領(lǐng)域。由于熵值賦權(quán)可以綜合考慮多個(gè)專家信息和指標(biāo)蘊(yùn)含的信息量,因此該計(jì)算模型對(duì)傳統(tǒng)評(píng)價(jià)中的權(quán)重系數(shù)進(jìn)行了科學(xué)的修正,有效地避免了傳統(tǒng)方法中權(quán)重系數(shù)確定過(guò)程的主觀色彩,同時(shí)更加注重評(píng)價(jià)指標(biāo)體系中指標(biāo)自身的重要程度,而且充分利用了被評(píng)價(jià)指標(biāo)的信息量,因此有效地彌補(bǔ)了傳統(tǒng)評(píng)價(jià)方法的缺陷,因此使得其最終評(píng)價(jià)結(jié)果比其他傳統(tǒng)評(píng)價(jià)方式更客觀、更科學(xué)、更合理,達(dá)到了科學(xué)評(píng)價(jià)的目的。
相關(guān)熱詞搜索:指標(biāo)體系 構(gòu)建 評(píng)價(jià) 基于熵權(quán)的搜索引擎評(píng)價(jià)指標(biāo)體系的構(gòu)建 熵權(quán)系數(shù)法綜合評(píng)價(jià)模型 熵權(quán)系數(shù)評(píng)價(jià)模型
熱點(diǎn)文章閱讀