【協(xié)同過(guò)濾推薦研究綜述】協(xié)同過(guò)濾推薦算法
發(fā)布時(shí)間:2020-03-10 來(lái)源: 歷史回眸 點(diǎn)擊:
[摘要]針對(duì)傳統(tǒng)協(xié)同過(guò)濾算法的局限性,探討目前的各種改進(jìn)思路,主要結(jié)合聚類、關(guān)聯(lián)規(guī)則、貝葉斯、神經(jīng)網(wǎng)絡(luò)、云模型、維數(shù)簡(jiǎn)化、對(duì)等網(wǎng)等技術(shù)進(jìn)行改進(jìn),重點(diǎn)評(píng)述改進(jìn)現(xiàn)狀和存在的問(wèn)題,并歸納推薦系統(tǒng)的評(píng)估方法,最后對(duì)協(xié)同過(guò)濾推薦的未來(lái)進(jìn)行展望。
[關(guān)鍵詞]電子商務(wù)推薦系統(tǒng)個(gè)性化協(xié)同過(guò)濾
[分類號(hào)]c354
1 引言
推薦系統(tǒng)是為滿足電子商務(wù)發(fā)展和解決網(wǎng)絡(luò)信息超載而產(chǎn)生的,其關(guān)鍵和核心是采用的推薦技術(shù)和推薦算法。目前主要推薦技術(shù)有:基于內(nèi)容推薦、協(xié)同過(guò)濾推薦、基于關(guān)聯(lián)規(guī)則推薦、基于效用推薦、基于知識(shí)推薦和組合推薦。其中,協(xié)同過(guò)濾推薦技術(shù)在個(gè)性化推薦系統(tǒng)中應(yīng)用最廣,該推薦算法主要有兩類:基于用戶的協(xié)同過(guò)濾推薦算法…和基于項(xiàng)目的協(xié)同過(guò)濾推薦算法。前者基于這樣一個(gè)假設(shè),即如果用戶對(duì)一些項(xiàng)目的評(píng)分比較相似,則他們對(duì)其他項(xiàng)目的評(píng)分也比較相似,算法通常采用最近鄰技術(shù)尋找鄰居用戶,然后加權(quán)求目標(biāo)用戶對(duì)該項(xiàng)目的評(píng)分;后者從項(xiàng)目角度出發(fā),尋找與該項(xiàng)目相似的若干項(xiàng)目,然后加權(quán)求目標(biāo)用戶對(duì)該項(xiàng)目的評(píng)分。但隨著電子商務(wù)系統(tǒng)規(guī)模的不斷擴(kuò)大,它有三方面的限制,即準(zhǔn)確性、稀疏性和可擴(kuò)展性。
本文針對(duì)傳統(tǒng)協(xié)同過(guò)濾技術(shù)存在的局限性,總結(jié)協(xié)同過(guò)濾推薦的各種改進(jìn)思路,并歸納了推薦系統(tǒng)的評(píng)估方法,預(yù)測(cè)未來(lái)發(fā)展方向。
2 協(xié)同過(guò)濾推薦技術(shù)及改進(jìn)算法
各種改進(jìn)的協(xié)同過(guò)濾技術(shù)都是建立在傳統(tǒng)協(xié)同過(guò)濾技術(shù)基礎(chǔ)之上的,下面先探討傳統(tǒng)協(xié)同過(guò)濾技術(shù)及優(yōu)缺點(diǎn),再深入分析各種改進(jìn)算法。
2.1
傳統(tǒng)協(xié)同過(guò)濾算法
2.1.1協(xié)同過(guò)濾推薦算法原理 協(xié)同過(guò)濾推薦算法的原理是利用用戶的歷史喜好信息來(lái)計(jì)算用戶之間的距離,然后利用目標(biāo)用戶的“最近鄰居”對(duì)商品評(píng)價(jià)的加權(quán)評(píng)價(jià)值來(lái)預(yù)測(cè)目標(biāo)用戶對(duì)特定商品的喜好程度,系統(tǒng)根據(jù)此喜好程度來(lái)對(duì)目標(biāo)用戶進(jìn)行推薦。
2.1.2
算法優(yōu)點(diǎn)
協(xié)同過(guò)濾最大的優(yōu)點(diǎn)是對(duì)推薦對(duì)象沒有特殊的要求,能處理非結(jié)構(gòu)化的復(fù)雜對(duì)象,它具有如下一些優(yōu)點(diǎn):
?能夠過(guò)濾難以通過(guò)機(jī)器自動(dòng)進(jìn)行基于內(nèi)容分析的信息。
?共享其他人的經(jīng)驗(yàn),能夠過(guò)濾一些復(fù)雜的、難以表達(dá)的概念。
?有推薦新信息的能力。這也是協(xié)同過(guò)濾和基于內(nèi)容過(guò)濾的一個(gè)較大的差別,能夠跨類別推薦,重在發(fā)現(xiàn)而不是搜索。
?能夠有效地使用其他相似用戶的反饋信息,加快個(gè)性化學(xué)習(xí)的速度。
2.1.3算法缺點(diǎn) 基于用戶的協(xié)同過(guò)濾推薦系統(tǒng)有眾多優(yōu)點(diǎn),但隨著電子商務(wù)用戶、商品規(guī)模的劇增,該算法也存在以下缺點(diǎn):
?稀疏性。在一個(gè)大型電子商務(wù)系統(tǒng)中,用戶購(gòu)買商品的總量占網(wǎng)站總商品量的1%左右,而參與評(píng)價(jià)的用戶評(píng)價(jià)項(xiàng)目數(shù)少于總項(xiàng)目數(shù)的10%,造成了評(píng)分矩陣非常稀疏。這樣一方面導(dǎo)致難以尋找最近鄰,另一方面計(jì)算相似性非常耗時(shí)。
?冷開始。又稱第一評(píng)價(jià)問(wèn)題,或新項(xiàng)目問(wèn)題,從一定角度可以看成是稀疏問(wèn)題的極端情況。一方面,它很難向新用戶提供個(gè)性化推薦服務(wù);另一方面,在這種情況下,僅有少量評(píng)價(jià)數(shù)據(jù)不可能產(chǎn)生精確推薦。
?擴(kuò)展性。面對(duì)日益增多的用戶和項(xiàng)目,擴(kuò)展性將會(huì)成為制約推薦系統(tǒng)發(fā)展的一個(gè)瓶頸問(wèn)題。
2.2協(xié)同過(guò)濾推薦改進(jìn)算法
盡管協(xié)同過(guò)濾技術(shù)在電子商務(wù)推薦系統(tǒng)中的應(yīng)用獲得了很大的成功,但隨著商品數(shù)量和用戶人數(shù)的不斷增加,基于協(xié)同過(guò)濾的推薦系統(tǒng)的發(fā)展面臨著算法的可擴(kuò)展性和推薦質(zhì)量?jī)蓚(gè)主要挑戰(zhàn)。在這種情況下,眾多的研究人員提出了基于協(xié)同過(guò)濾的改進(jìn)算法,改進(jìn)算法主要體現(xiàn)在與聚類、關(guān)聯(lián)規(guī)則、貝葉斯、云模型、神經(jīng)網(wǎng)絡(luò)或免疫網(wǎng)絡(luò)、維數(shù)簡(jiǎn)化以及對(duì)等網(wǎng)等技術(shù)的結(jié)合。
2.2.1結(jié)合聚類技術(shù)
?基于項(xiàng)目的聚類。O’Connor等對(duì)項(xiàng)目進(jìn)行聚類,在對(duì)應(yīng)的聚類中搜索目標(biāo)用戶的最近鄰,算法雖然提高了可擴(kuò)展性但是推薦質(zhì)量并沒有提高,原因是每個(gè)聚類中的用戶數(shù)并不是隨著聚類中項(xiàng)目數(shù)的減少而減少,所以這種方法在用戶對(duì)多個(gè)聚類中的商品均有評(píng)分的情況下并不理想。鄧愛林等根據(jù)用戶對(duì)項(xiàng)目評(píng)分的相似性進(jìn)行聚類,從而只需要在與目標(biāo)項(xiàng)目最相似的若干個(gè)聚類中就能尋找到目標(biāo)項(xiàng)目的大部分最近鄰,結(jié)果表明該算法能夠保證在盡量小的項(xiàng)目空間上查詢到目標(biāo)項(xiàng)目盡量多的最近鄰,從而有效提高推薦系統(tǒng)的實(shí)時(shí)響應(yīng)速度。但實(shí)驗(yàn)是在計(jì)算目標(biāo)項(xiàng)目與聚類中心相似性的時(shí)間代價(jià)相對(duì)于最近鄰查詢可以忽略的條件下成立的,當(dāng)聚類數(shù)目很大的時(shí)候是不能忽略的。翁小蘭等基于項(xiàng)目特征聚類的協(xié)同過(guò)濾推薦算法,選取k個(gè)具有代表性項(xiàng)目屬性形成項(xiàng)目特征矩陣,并利用特征矩陣進(jìn)行未評(píng)分項(xiàng)的預(yù)評(píng)分,其關(guān)鍵是要選擇合適的特征屬性,該算法可解決數(shù)據(jù)稀疏性和新產(chǎn)品的冷啟動(dòng)問(wèn)題。
?基于用戶的聚類。Adomavicius等利用用戶評(píng)分的相似性對(duì)用戶進(jìn)行聚類,當(dāng)用戶離線時(shí)預(yù)處理用戶數(shù)據(jù),在線時(shí)利用已有的用戶聚類尋找目標(biāo)用戶的最近鄰并產(chǎn)生推薦。算法在一定程度上提高了推薦質(zhì)量,但當(dāng)用戶評(píng)價(jià)數(shù)據(jù)極端稀疏時(shí)該方法依靠用戶評(píng)價(jià)聚類的可靠性不高。Ranshid等用Bisecting K-means聚類生成每個(gè)聚類的代理用戶,基于目標(biāo)用戶的相似代理用戶進(jìn)行推薦。查文琴等¨¨將用戶對(duì)項(xiàng)目的關(guān)注相似性和用戶對(duì)項(xiàng)目的評(píng)分相似性進(jìn)行線性組合,利用組合后的相似性對(duì)用戶進(jìn)行聚類,更好地反映了用戶的興趣,在一定程度上提高了在線推薦的實(shí)時(shí)響應(yīng)速度和推薦的精度。其中要注意關(guān)注相似性和評(píng)分相似性之問(wèn)平衡因子的確定。
?基于用戶和項(xiàng)目的聚類。Kohrs等引入樹的概念,用戶或項(xiàng)目為其節(jié)點(diǎn),對(duì)用戶和項(xiàng)目分別進(jìn)行層次聚類,其相似性由其所處的層次決定,最后加權(quán)求和預(yù)測(cè)評(píng)分。George等采用co,clustering算法構(gòu)建了一個(gè)動(dòng)態(tài)框架,有效解決了實(shí)時(shí)性問(wèn)題,同時(shí)并行處理用戶和項(xiàng)目,提高了系統(tǒng)的可擴(kuò)展性。張娜等采用k劃分對(duì)項(xiàng)目進(jìn)行聚類,產(chǎn)生k個(gè)用戶一項(xiàng)目子矩陣,然后在項(xiàng)目聚類基礎(chǔ)上進(jìn)行k劃分客戶聚類,最后在目標(biāo)用戶所在的幾個(gè)矩陣中尋找最近鄰。但這種算法在樣本數(shù)比較大的時(shí)候,計(jì)算量及復(fù)雜度很大,難以保證系統(tǒng)的實(shí)時(shí)性。
聚類通常采用離線方式建立模型以保證其實(shí)時(shí)性,但由于時(shí)間滯后性可能導(dǎo)致推薦與用戶興趣不符,因此支持用戶動(dòng)態(tài)更新的增量機(jī)制將是改進(jìn)其推薦質(zhì)量的一個(gè)新思路。同時(shí)聚類最大的缺陷是無(wú)論用戶或項(xiàng)目分在一個(gè)類之后就不能出現(xiàn)在其他類中(而實(shí)際上用戶的興趣是廣泛的),從而導(dǎo)致推薦的質(zhì)量不高。
2.2.2結(jié)合關(guān)聯(lián)規(guī)則
基于關(guān)聯(lián)規(guī)則的推薦算法根據(jù)生成的關(guān)聯(lián)規(guī)則模型和用戶當(dāng)前的購(gòu)買行為向用戶產(chǎn)生推薦。Sandvig等認(rèn)為基于關(guān)聯(lián)規(guī)則的協(xié)同過(guò)濾推薦系統(tǒng)的魯棒性和擴(kuò)展性較之基于模型、基于最近鄰等系統(tǒng)具有更高推薦精度。其原因是基于關(guān)聯(lián)規(guī)則的推薦系統(tǒng)可以有效避免惡意評(píng)分的注入。曾艷等指出Apriori算法處理大量候選項(xiàng)集時(shí)開銷很大, 而FP-Growth算法在判斷節(jié)點(diǎn)加入FP-tree時(shí)開銷可能也會(huì)很大,在前兩種算法的基礎(chǔ)上構(gòu)造了AFP-樹,其便于存儲(chǔ)和查詢頻繁模式,而且能同時(shí)使用兩種約束來(lái)挖掘模式,但AFP-樹構(gòu)建復(fù)雜度高。哈進(jìn)兵等在關(guān)聯(lián)規(guī)則的基礎(chǔ)上引入了項(xiàng)目加權(quán)的概念,在計(jì)算頻繁集時(shí)裁剪掉權(quán)重較小的項(xiàng)目,不僅能夠減小運(yùn)算的復(fù)雜度,而且還能實(shí)現(xiàn)“跨類型”推薦。
通過(guò)離線生成關(guān)聯(lián)規(guī)則雖然解決了實(shí)時(shí)性問(wèn)題,但在一定程度上不能及時(shí)反映用戶的興趣變化,而關(guān)聯(lián)規(guī)則的頻繁生成會(huì)增加成本。所以,定期增量更新既可以適應(yīng)用戶變化,又可以節(jié)約成本。
2.2.3結(jié)合貝葉斯的協(xié)同過(guò)濾算法 Bayesian網(wǎng)絡(luò)技術(shù)利用訓(xùn)練集創(chuàng)建相應(yīng)的模型,但是由于用戶和項(xiàng)目的不斷增加導(dǎo)致需要定期重建模型,而訓(xùn)練模型的成本高,因此貝葉斯網(wǎng)絡(luò)適用于用戶興趣變化較慢的環(huán)境。孟憲福等根據(jù)用戶愛好對(duì)項(xiàng)目進(jìn)行分類,實(shí)驗(yàn)表明隨著評(píng)分?jǐn)?shù)據(jù)的增加,數(shù)據(jù)稀疏度在一定程度上增加,但推薦精度卻提高,這是因?yàn)橥挥脩舻脑u(píng)分?jǐn)?shù)量增加,可以更好地分析用戶對(duì)特征的愛好,查找到更好的最近鄰。趙永梅等采用動(dòng)態(tài)貝葉斯網(wǎng)絡(luò),不斷學(xué)習(xí)更新推薦模型,提高了模型的適應(yīng)性,使得推薦結(jié)果更加滿足客戶的需求。李大學(xué)等利用改進(jìn)的加權(quán)樸素貝葉斯方法統(tǒng)計(jì)、分析特征屬性集與評(píng)分之間的關(guān)系來(lái)預(yù)測(cè)缺失數(shù)據(jù),有效緩解了數(shù)據(jù)稀疏性問(wèn)題。
2.2.4結(jié)合神經(jīng)網(wǎng)絡(luò)或免疫網(wǎng)絡(luò)
?BP神經(jīng)網(wǎng)絡(luò)。張鋒等利用BP神經(jīng)網(wǎng)絡(luò)能夠有效地處理非完整信息的特點(diǎn)進(jìn)行預(yù)評(píng)分以減少候選最近鄰數(shù)據(jù)集的稀疏性,該算法避免了降維法和智能Agent法的缺點(diǎn),提高了協(xié)同過(guò)濾推薦系統(tǒng)的推薦質(zhì)量。張磊等利用兩層面的多個(gè)BP神經(jīng)網(wǎng)絡(luò)協(xié)同工作,高層面BP網(wǎng)反向誤差傳播直至低層面多個(gè)人工神經(jīng)網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)權(quán)值修正,借助用戶評(píng)價(jià)等特征前向給出項(xiàng)目推薦,其并行性提高了推薦速度。
?人工免疫網(wǎng)絡(luò)。Acilar等利用aiNet描述數(shù)據(jù)結(jié)構(gòu),如空間分布、聚類交互等,能夠有效緩解數(shù)據(jù)集稀疏性并提高數(shù)據(jù)集的擴(kuò)展性。蘇一丹等利用獨(dú)特型人工免疫網(wǎng)絡(luò)的自動(dòng)濃度調(diào)節(jié)機(jī)制來(lái)維持推薦系統(tǒng)中用戶鄰居的多樣性,并利用人工免疫網(wǎng)絡(luò)的可并行計(jì)算特性,設(shè)計(jì)出并行分布式推薦算法,提高了算法的速度和精度。由于實(shí)驗(yàn)處理的數(shù)據(jù)相對(duì)于推薦系統(tǒng)處理的數(shù)據(jù)而言很小,所以在并行分布式計(jì)算環(huán)境下機(jī)群數(shù)量的選擇很重要,并不是機(jī)器越多越好,要充分考慮硬件成本和通信成本。張建林等利用aiNet自身的克隆變異機(jī)制產(chǎn)生隱式評(píng)價(jià)來(lái)降低數(shù)據(jù)稀疏性,利用aiNet的克隆抑制、網(wǎng)絡(luò)抑制機(jī)制減少數(shù)據(jù)維度來(lái)提高可擴(kuò)展性,系統(tǒng)的響應(yīng)時(shí)間和算法的收斂性值得進(jìn)一步研究。
2.2.5結(jié)合云模型 云模型是李德毅院士提出的一種定性定量轉(zhuǎn)換模型,能夠?qū)崿F(xiàn)定性概念與其數(shù)值表示之間的不確定性轉(zhuǎn)換。張光衛(wèi)等給出一種基于云模型的用戶相似度比較方法,充分利用項(xiàng)目的分類信息,避免傳統(tǒng)算法把用戶的整體打分作為單個(gè)向量的弊端。張光衛(wèi)等借鑒云模型中的云相似度量方法來(lái)實(shí)現(xiàn)基于知識(shí)層面的項(xiàng)目相似性度量,改善了傳統(tǒng)基于向量的相似度比較方法必須嚴(yán)格匹配對(duì)象屬性的不足,而且算法在一定程度上克服了用戶評(píng)分?jǐn)?shù)據(jù)極端稀疏的負(fù)面影響。張新香等借助云相似度量方法實(shí)現(xiàn)了知識(shí)層面的項(xiàng)目相似性的度量,充分發(fā)揮了基于項(xiàng)目的協(xié)同過(guò)濾和云模型的優(yōu)勢(shì)。但上述方法都不能有效計(jì)算用戶對(duì)未評(píng)分項(xiàng)目的評(píng)分,沒有很好地解決評(píng)分?jǐn)?shù)據(jù)的稀疏性問(wèn)題,從而得到的目標(biāo)用戶最近鄰不夠準(zhǔn)確。針對(duì)上述問(wèn)題,徐德智等利用云模型對(duì)項(xiàng)目進(jìn)行評(píng)分預(yù)測(cè),緩解了數(shù)據(jù)稀疏問(wèn)題。
2.2.6結(jié)合維數(shù)簡(jiǎn)化Paterek等使用奇異值分解,將用戶一評(píng)分矩陣分解得到與其最接近的低階矩陣,提高了可擴(kuò)展性,并有效緩解了同義性問(wèn)題。孫小華等采用SVD方法來(lái)預(yù)測(cè)未打分項(xiàng)的預(yù)測(cè)值得到一個(gè)無(wú)缺失值的評(píng)分矩陣,然后用這個(gè)無(wú)缺失值的評(píng)分矩陣來(lái)求取實(shí)際未評(píng)分項(xiàng)目的預(yù)測(cè)值,提高了推薦質(zhì)量。朱敏等將數(shù)據(jù)在高維向量空間模型中的表示,投影到低維的潛在語(yǔ)義空間中,選擇最重要的特征作為原始矩陣的特征值。常富洋等利用SVD將用戶基本信息與用戶一評(píng)分矩陣組合形成的新矩陣分解降維,下一步工作是對(duì)用戶基本信息的擴(kuò)充。通過(guò)奇異值分解減少項(xiàng)目空間的維數(shù),這種方法顯著地提高推薦系統(tǒng)的伸縮能力,但降維會(huì)導(dǎo)致信息損失。
2.2.7結(jié)合對(duì)等網(wǎng)
鐘瑞瓊等將推薦系統(tǒng)建立在對(duì)等網(wǎng)絡(luò)平臺(tái)上,網(wǎng)絡(luò)中的節(jié)點(diǎn)分為超級(jí)節(jié)點(diǎn)和普通節(jié)點(diǎn),使得搜索只需要在少數(shù)的超級(jí)對(duì)等點(diǎn)之間進(jìn)行,該結(jié)構(gòu)可以有效地提高網(wǎng)絡(luò)的可擴(kuò)展性,大大提升搜索速度,并且可以滿足推薦系統(tǒng)的實(shí)時(shí)性要求。Liu等構(gòu)造了一種結(jié)合用戶和項(xiàng)目屬性的對(duì)等網(wǎng)機(jī)制,充分利用項(xiàng)目屬性構(gòu)造布爾矩陣來(lái)填充稀疏矩陣的空元素,提高系統(tǒng)的安全性和擴(kuò)展性。
筆者概括了幾種主流的協(xié)同過(guò)濾改進(jìn)算法,隨著電子商務(wù)的發(fā)展,研究者還會(huì)不斷提出新的改進(jìn)思路和方案以解決其在發(fā)展過(guò)程中產(chǎn)生的新問(wèn)題。
3 推薦效果評(píng)估
上述各種改進(jìn)的算法都有其自身的優(yōu)缺點(diǎn),到底哪種算法是最優(yōu)的,目前并沒有統(tǒng)一定論,主要是由于不同系統(tǒng)的任務(wù)是不一樣的,而且評(píng)價(jià)指標(biāo)缺乏標(biāo)準(zhǔn)化,因此很難比較。目前普遍認(rèn)為最重要的指標(biāo)是準(zhǔn)確性,其次還有多樣性、覆蓋率等指標(biāo)。
3.1準(zhǔn)確度
絕大多數(shù)推薦系統(tǒng)都利用準(zhǔn)確度來(lái)評(píng)價(jià)推薦算法的好壞。針對(duì)不同的系統(tǒng),主要有預(yù)測(cè)準(zhǔn)確度、分類準(zhǔn)確度、排序準(zhǔn)確度等指標(biāo)。
預(yù)測(cè)準(zhǔn)確度衡量的是推薦算法的預(yù)測(cè)打分與用戶實(shí)際打分的相似程度,在需要顯示具體分值的系統(tǒng)中十分重要。其可以從整體上度量推薦算法的準(zhǔn)確度,但在實(shí)際中用戶只關(guān)心自己所感興趣的產(chǎn)品的預(yù)測(cè)準(zhǔn)確度和好壞產(chǎn)品的區(qū)分,預(yù)測(cè)準(zhǔn)確度在這兩點(diǎn)上并不能滿足用戶需求。通常采用平均絕對(duì)偏差來(lái)度量預(yù)測(cè)準(zhǔn)確度,此外還有平均平方誤差和標(biāo)準(zhǔn)平均絕對(duì)誤差。平均平方誤差在求和之前對(duì)系統(tǒng)預(yù)測(cè)打分與用戶打分誤差進(jìn)行平方,其對(duì)平均平方誤差的影響會(huì)比平均絕對(duì)誤差更大。標(biāo)準(zhǔn)平均絕對(duì)誤差在打分值的區(qū)間內(nèi)作標(biāo)準(zhǔn)化,從而可以在不同的數(shù)據(jù)集上對(duì)算法的效果進(jìn)行比較。
分類準(zhǔn)確度是指判斷一個(gè)產(chǎn)品用戶是否喜歡的正確比例。其并不直接評(píng)價(jià)算法打分的相似程度,只要分類準(zhǔn)確就認(rèn)為是有效的,適合于只有二元選擇的系統(tǒng)。分類準(zhǔn)確度通常使用準(zhǔn)確率、召回率以及F指標(biāo)來(lái)度量,其中準(zhǔn)確率是指推薦列表中用戶喜歡的產(chǎn)品所占的比例,召回率是指推薦列表中用戶喜歡的產(chǎn)品與系統(tǒng)中用戶喜歡的所有產(chǎn)品的比率。準(zhǔn)確率和召回率的定義依賴于用戶喜歡和不喜歡的產(chǎn)品分類。但在用戶表明喜好之前,系統(tǒng)無(wú)法知道用戶是否喜歡某些未知的產(chǎn)品,所以召回率很難計(jì)算。為了更加全面地評(píng)價(jià)推薦算法的好壞,Pazzani提出了F指標(biāo)同時(shí)使用準(zhǔn)確率和召回率,應(yīng)用范圍很廣。
排序準(zhǔn)確度用于度量推薦算法產(chǎn)生的列表與用戶對(duì)產(chǎn)品排序的符合程度,適合于對(duì)排列順序要求嚴(yán)格的系統(tǒng)。用戶喜歡的所有產(chǎn)品排序分的平均值可以度量系統(tǒng)的排序準(zhǔn)確度。排序分越小,說(shuō)明系統(tǒng)趨向于把用戶喜歡的產(chǎn)品排在前面。平均排序分簡(jiǎn)單易用,可以用來(lái)度量不同算法對(duì)同一數(shù)據(jù)集的排序效果。
3.2多樣性與覆蓋性
在實(shí)際應(yīng)用中,衡量推薦效果的指標(biāo)還有推薦列表的多樣性、覆蓋率等指標(biāo)。周濤等提出利用推薦產(chǎn)品的平均海明距離對(duì)推薦產(chǎn)品的流行性以及不同推薦列表的多樣性進(jìn)行度量。覆蓋率是指可以預(yù)測(cè)打分的產(chǎn)品占所有產(chǎn)品的比例。在推薦系統(tǒng)中,只有高覆蓋率才有可能盡可能多地找到用戶感興趣的產(chǎn)品。
4 結(jié)論與展望
論文介紹了協(xié)同過(guò)濾推薦算法的主要思想及存在的問(wèn)題,總結(jié)了近幾年主流的改進(jìn)思路,主要是通過(guò)緩解數(shù)據(jù)稀疏性和建立模型兩種思路來(lái)改進(jìn)。在數(shù)據(jù)豐富的情況下,各種推薦算法的推薦效果幾乎沒有什么差異,但在數(shù)據(jù)稀疏的情況下卻產(chǎn)生很大的差異。其中聚類、維數(shù)簡(jiǎn)化通過(guò)縮小最近鄰查詢空間來(lái)緩解數(shù)據(jù)稀疏性,雖然可以提高系統(tǒng)的可擴(kuò)展性,但難以保證推薦系統(tǒng)的質(zhì)量。而基于關(guān)聯(lián)規(guī)則、貝葉斯、神經(jīng)網(wǎng)絡(luò)等推薦系統(tǒng)在數(shù)據(jù)稀疏的情況下仍有好的推薦效果,主要是因?yàn)樵陔x線建立模型時(shí)盡可能模擬真實(shí)的系統(tǒng)。但基于模型的推薦系統(tǒng)卻難以利用最新數(shù)據(jù),需要不斷動(dòng)態(tài)更新模型才能保證推薦的有效性。因此,以基于模型的算法為主而其他幾類技術(shù)為輔構(gòu)建推薦系統(tǒng)應(yīng)該成為今后的主流。本文的不足之處是只是定性地對(duì)各種算法進(jìn)行比較,下一步的工作是通過(guò)搭建平臺(tái),在各個(gè)數(shù)據(jù)集上測(cè)試各種算法,并利用各項(xiàng)指標(biāo)綜合評(píng)估各種算法。
相關(guān)熱詞搜索:協(xié)同 綜述 過(guò)濾 協(xié)同過(guò)濾推薦研究綜述 協(xié)同過(guò)濾算法實(shí)現(xiàn) java協(xié)同過(guò)濾算法
熱點(diǎn)文章閱讀