基于《中國(guó)圖書(shū)館分類(lèi)法》的用戶(hù)興趣建模方法:中國(guó)圖書(shū)館分類(lèi)法
發(fā)布時(shí)間:2020-03-07 來(lái)源: 美文摘抄 點(diǎn)擊:
〔摘要〕提出一種基于《中國(guó)圖書(shū)館分類(lèi)法》的用戶(hù)興趣建模方法。通過(guò)《中國(guó)圖書(shū)館分類(lèi)法》分類(lèi)號(hào)確定用戶(hù)初始興趣模型,使用《中圖分類(lèi)主題詞表》中詞匯描述用戶(hù)興趣主題。對(duì)于用戶(hù)模型的學(xué)習(xí),提出一種通用的方法,將各種反饋信息融合統(tǒng)一。在上述思想的基礎(chǔ)上,開(kāi)發(fā)出一個(gè)科技文獻(xiàn)推薦系統(tǒng),使用戶(hù)在盡可能少的參與下,完成用戶(hù)模型的建立、學(xué)習(xí)和更新。
〔關(guān)鍵詞〕信息推送用戶(hù)興趣模型個(gè)性化
〔分類(lèi)號(hào)〕G250.7
User Interest Modeling Based On Chinese Library Classification
Ma Haibing1Wang Lancheng4
Shanghai Branch, Nanjing Political Institute, Shanghai200433
Xiao Hui2
Ningbo Instiute of Technology , Zhejiang University , Ningbo 315100
Li Ronglu3
Autodesk Inc. Shanghai, Shanghai200001
〔Abstract〕This paper proposes a user modeling method based on Chinese Library Classification (CLC). The initial user model is defined by classification number of CLC, and the subject terms of CLC is used to describe user interests. It also puts forward a universal frame which can combine all kinds of feedback information for the user model to learn. Based on these ideas, it develops a science document recommend system, where user model can be built, learn and update as few participations of the users as possible.
〔Keywords〕information recommending systemuser interest modelpersonalization
1引言
今天,互聯(lián)網(wǎng)技術(shù)發(fā)展迅速,網(wǎng)絡(luò)信息呈指數(shù)增長(zhǎng),但浩瀚如海的網(wǎng)上資源往往導(dǎo)致“信息過(guò)載”和“信息迷向”。傳統(tǒng)的搜索引擎滿(mǎn)足了用戶(hù)的信息查詢(xún)需求,但它不具有智能性,不能學(xué)習(xí)用戶(hù)的興趣。具有特定興趣,信息需求相對(duì)穩(wěn)定的用戶(hù),只能不斷在網(wǎng)上反復(fù)查詢(xún)相同的內(nèi)容。正是在這樣的需求驅(qū)動(dòng)下,信息推送技術(shù)得到了長(zhǎng)足的發(fā)展。如果把信息檢索看作是一種“人找信息”的信息服務(wù)形態(tài),那信息推送就是一種“信息找人”的信息服務(wù)形態(tài),即實(shí)現(xiàn)信息的個(gè)性化推薦服務(wù)。
個(gè)性化推薦技術(shù)的關(guān)鍵是用戶(hù)興趣模型的建立和學(xué)習(xí)。對(duì)于用戶(hù)興趣模型的建立,多數(shù)信息推送系統(tǒng)是通過(guò)讓用戶(hù)主動(dòng)地輸入一系列關(guān)鍵詞,給每個(gè)關(guān)鍵詞分配合適的權(quán)值來(lái)實(shí)現(xiàn)的。但是,用戶(hù)常常找不到恰當(dāng)?shù)年P(guān)鍵詞來(lái)描述自己的興趣,更不用說(shuō)合適的權(quán)值了,而且詞語(yǔ)的多義現(xiàn)象和同義現(xiàn)象也會(huì)導(dǎo)致一些不正確的信息被推送過(guò)來(lái)。對(duì)于用戶(hù)興趣
模型的學(xué)習(xí)和調(diào)整,有的文獻(xiàn)通過(guò)顯式反饋實(shí)現(xiàn)[1-2],如將推送信息分為非常感興趣、比較感興趣、不感興趣、完全不感興趣等一些離散的等級(jí)或一些離散的數(shù)值,讓用戶(hù)進(jìn)行評(píng)價(jià);也有一些系統(tǒng)通過(guò)監(jiān)視用戶(hù)的行為來(lái)實(shí)現(xiàn)[3-5],如:瀏覽時(shí)間、保存、打印操作等,為用戶(hù)模型的學(xué)習(xí)和調(diào)整提供依據(jù),這類(lèi)信息被稱(chēng)為隱式反饋信息。顯式反饋信息比較準(zhǔn)確,但是增加了用戶(hù)的負(fù)擔(dān)。隱式反饋信息減輕了用戶(hù)的負(fù)擔(dān),但這類(lèi)信息往往不夠準(zhǔn)確,不一定能夠反映用戶(hù)真實(shí)的興趣需求。
針對(duì)這些問(wèn)題,筆者提出了一種基于《中國(guó)圖書(shū)館分類(lèi)法》(以下簡(jiǎn)稱(chēng)《中圖法》)的用戶(hù)興趣模型:通過(guò)《中圖法》分類(lèi)號(hào)建立初始用戶(hù)興趣模型;利用《中國(guó)分類(lèi)主題詞表》中的詞匯來(lái)描述用戶(hù)的興趣主題,解決詞語(yǔ)多義問(wèn)題和同義問(wèn)題;將用戶(hù)反饋信息進(jìn)行分類(lèi),盡量利用用戶(hù)瀏覽時(shí)的行為信息,使用戶(hù)在盡可能少的參與下,完成興趣模型的學(xué)習(xí)和更新。
2用戶(hù)興趣模型描述
2.1用戶(hù)興趣模型的表示
用戶(hù)興趣模型指的是從用戶(hù)信息需求的提交到注銷(xiāo)這段時(shí)間內(nèi),對(duì)用戶(hù)某一興趣需求的一體化描述,包括用戶(hù)興趣模型隨著需求調(diào)整進(jìn)行動(dòng)態(tài)更新的過(guò)程。用戶(hù)興趣模型可形式化描述為一個(gè)三元組P:P=(I,F(xiàn),ψ)。其中,
這里,I為用戶(hù)興趣在學(xué)習(xí)調(diào)整過(guò)程中產(chǎn)生的全部狀態(tài)集;F為系統(tǒng)為用戶(hù)采集到的全部反饋信息集,其作用是驅(qū)動(dòng)學(xué)習(xí)過(guò)程;ψ表示用戶(hù)興趣的學(xué)習(xí)函數(shù)。不難看出:I(0)為用戶(hù)興趣的初始狀態(tài);I(i)為經(jīng)過(guò)i次學(xué)習(xí)調(diào)整后的用戶(hù)興趣;F(i)表示對(duì)系統(tǒng)第i次反饋的用以調(diào)整I(i+1)的評(píng)價(jià)信息;而{I(1),∧,I(n)}則表示用戶(hù)興趣的終結(jié)狀態(tài)集。
2.2現(xiàn)有用戶(hù)模型的構(gòu)造方法
用戶(hù)興趣模型的構(gòu)造可以依據(jù)關(guān)鍵詞集和興趣文檔集,這種方式通常需要用戶(hù)積極參與(或是直接提交興趣信息,或是間接反饋興趣評(píng)價(jià)),推送系統(tǒng)服務(wù)器端利用信息抽取技術(shù)和機(jī)器學(xué)習(xí)方法從中獲取當(dāng)前用戶(hù)興趣的特征信息,以使得該用戶(hù)興趣模型可以與待推送的新信息之間進(jìn)行相關(guān)度計(jì)算。通過(guò)該方式獲取用戶(hù)興趣后,對(duì)用戶(hù)興趣模型的更新和維護(hù)在很大程度上可以借助對(duì)新信息的處理技術(shù),在理論上可以依據(jù)信息抽取領(lǐng)域、機(jī)器學(xué)習(xí)領(lǐng)域和信息檢索領(lǐng)域中的方法和技術(shù),所以在實(shí)踐上這種構(gòu)造用戶(hù)興趣模型的技術(shù)也是可行的。應(yīng)用本文技術(shù)實(shí)現(xiàn)的科技文獻(xiàn)推送系統(tǒng)就是依據(jù)這一方法進(jìn)行設(shè)計(jì)和實(shí)現(xiàn)的。
還有一種方法,它不需要用戶(hù)做任何事情來(lái)描述自己的信息需求,而是由系統(tǒng)根據(jù)用戶(hù)訪(fǎng)問(wèn)資源的歷史記錄自動(dòng)進(jìn)行分析。近年來(lái),出現(xiàn)了一些以用戶(hù)興趣為核心的電子商務(wù)站點(diǎn),它們通常是從網(wǎng)站經(jīng)營(yíng)的角度出發(fā),分析大多數(shù)用戶(hù)在網(wǎng)站中的瀏覽路徑,根據(jù)用戶(hù)對(duì)頁(yè)面的訪(fǎng)問(wèn)次序、訪(fǎng)問(wèn)頻度和訪(fǎng)問(wèn)時(shí)間等信息,動(dòng)態(tài)調(diào)整頁(yè)面結(jié)構(gòu)以更好地滿(mǎn)足訪(fǎng)問(wèn)者的需求。其中,對(duì)服務(wù)器端Web日志的分析是得到用戶(hù)潛在需求興趣的主要依據(jù)。但該方法或是將用戶(hù)看作是單個(gè)的興趣載體,或是把所有用戶(hù)看作一個(gè)整體不做區(qū)別地進(jìn)行處理。因此這種方法不適合信息推送用的用戶(hù)興趣模型構(gòu)造。
3基于《中圖法》的用戶(hù)興趣模型
《中圖法》是我國(guó)第一部集中了全國(guó)圖書(shū)館和信息部門(mén)的力量共同編制的一部綜合性大型文獻(xiàn)分類(lèi)法!吨袊(guó)分類(lèi)主題詞表》則收錄了5萬(wàn)余條類(lèi)目、21萬(wàn)條主題詞及主題標(biāo)題,包括哲學(xué)、社會(huì)科學(xué)和自然科學(xué)所有各個(gè)領(lǐng)域的學(xué)科和主題概念。例如:“TP391 信息處理(信息加工)”中,“TP391”是該類(lèi)別的中圖法分類(lèi)號(hào),“信息處理”和“信息加工”則是這個(gè)類(lèi)別的主題詞。選擇《中圖法》和《中國(guó)分類(lèi)主題詞表》,一方面可為信息推送提供規(guī)范的依據(jù),更重要的是將其作為構(gòu)造用戶(hù)興趣的初始模板,為用戶(hù)興趣模型的構(gòu)建提供了參照依據(jù),使得用戶(hù)需求信息與系統(tǒng)資源之間能建立有效“聯(lián)接”。而且,《中國(guó)分類(lèi)主題詞表》中的詞具有單義性,非常適合描述用戶(hù)的興趣主題。
3.1初始用戶(hù)興趣模型的構(gòu)造
初始用戶(hù)興趣模型通過(guò)一個(gè)《中圖法》分類(lèi)號(hào)來(lái)確定。當(dāng)用戶(hù)在首次登錄時(shí),要求用戶(hù)提供能表征其興趣主題的類(lèi)別信息。用戶(hù)依據(jù)《中圖法》的分類(lèi)體系,選擇某一類(lèi)別作為初始的興趣類(lèi)別,注冊(cè)的類(lèi)別不一定是《中圖法》最底層的類(lèi)別。在實(shí)際應(yīng)用中,用戶(hù)與興趣之間是多對(duì)多關(guān)系,即一個(gè)用戶(hù)可以擁有多個(gè)興趣,一個(gè)興趣可以被多個(gè)用戶(hù)共同擁有。但對(duì)信息推送系統(tǒng)來(lái)講,有意義的是興趣而非用戶(hù),因此信息的推送是基于興趣的。如果某一用戶(hù)同時(shí)注冊(cè)多個(gè)興趣,系統(tǒng)應(yīng)為其建立多個(gè)用戶(hù)興趣模型;也有可能不同的用戶(hù)注冊(cè)了相同的興趣類(lèi)別信息,即他們采用了相同的興趣模板,系統(tǒng)將收集所有注冊(cè)了該興趣類(lèi)的用戶(hù)信息,并將其附帶提供給該興趣類(lèi)的所有注冊(cè)用戶(hù),以便具有相同興趣的用戶(hù)之間進(jìn)行交流與學(xué)習(xí)。
初始的用戶(hù)興趣模型I(0)可以表示為一個(gè)二元組:
其中,N表示用戶(hù)興趣模型對(duì)應(yīng)的《中圖法》分類(lèi)號(hào),一旦確定后不允許改變;W表示用戶(hù)興趣特征,由Wt、Wp、Wu、Wl四部分組成;Wt表示N對(duì)應(yīng)的主題詞;Wp表示N對(duì)應(yīng)類(lèi)別的父類(lèi)的主題詞,一般只取兩級(jí)父類(lèi)的主題詞,因?yàn)殡S著級(jí)別的增高,主題詞與用戶(hù)興趣的相關(guān)性變得越來(lái)越小;Wu表示由用戶(hù)手動(dòng)添加到興趣模型中的特征;Wl表示用戶(hù)興趣模型在經(jīng)過(guò)i次學(xué)習(xí)和調(diào)整后新增的特征,在初始的用戶(hù)興趣模型I(0)中,還沒(méi)有利用反饋信息對(duì)其進(jìn)行刷新,因此Wl是一個(gè)空集。
Wt、Wp、Wu、Wl都是一個(gè)二元組的集合,表示為{<ti,wi>,<t2,w2>,∧}其中ti表示一個(gè)特征,這個(gè)特征可能是一個(gè)字、詞、短語(yǔ)、N-Gram項(xiàng)等;wi代表特征ti的權(quán)重,是一個(gè)[0,1]之間的值。Wt、Wp、Wu,Wl間不存在重復(fù)的特征,即對(duì)于ti來(lái)說(shuō),它們之間的交集為空。Wt、Wp、Wu中的特征不會(huì)隨著用戶(hù)興趣模型的學(xué)習(xí)和調(diào)整而增加或減少,但是它們的權(quán)值可能會(huì)發(fā)生變化。而Wl中的特征及其權(quán)值會(huì)隨著用戶(hù)興趣模型的學(xué)習(xí)和調(diào)整發(fā)生較大的變化。
當(dāng)Wt、Wp、Wu中的特征確定之后,需要為每個(gè)特征分配一個(gè)權(quán)重。對(duì)于Wt中的特征,設(shè)置每個(gè)特征的權(quán)值為a;對(duì)于Wu中的特征,設(shè)置每個(gè)特征的權(quán)值為b;對(duì)于Wp中的特征t,其權(quán)值為:
(公式6)
其中,l為主題詞對(duì)應(yīng)類(lèi)別與《中圖法》分類(lèi)號(hào)N對(duì)應(yīng)類(lèi)別在《中圖法》分類(lèi)體系結(jié)構(gòu)中相差的層數(shù)。通常a、b、c的值都設(shè)為1。
3.2新信息的推送算法
新信息的推送算法是基于向量空間模型的。向量空間模型用特征項(xiàng)及其相應(yīng)權(quán)值來(lái)表征信息的語(yǔ)義,新信息和用戶(hù)興趣模型都表示為一個(gè)向量。在需要給用戶(hù)推送新信息時(shí),新信息和用戶(hù)興趣模型的相關(guān)程度是通過(guò)向量運(yùn)算來(lái)描述的,一般使用向量之間的夾角余弦來(lái)計(jì)算它們的相似度。
本文中,用戶(hù)興趣模型由一個(gè)《中圖法》分類(lèi)號(hào)N和一個(gè)興趣特征列表W組成。將W表示為一個(gè)向量,就可以使用夾角余弦公式來(lái)計(jì)算用戶(hù)興趣模型和新信息的相似度。不過(guò),我們希望在計(jì)算相似度的時(shí)候能夠利用《中圖法》分類(lèi)號(hào),因此對(duì)相似度計(jì)算方法進(jìn)行了改進(jìn)。設(shè)W(i)表示用戶(hù)興趣模型I(i)的興趣特征列表,l為新信息對(duì)應(yīng)類(lèi)別與N對(duì)應(yīng)類(lèi)別在《中圖法》分類(lèi)體系結(jié)構(gòu)中相差的層數(shù),則文檔d和用戶(hù)興趣模型I(i)的相似度計(jì)算公式為:
(公式7)
其中,α+β,k為一個(gè)常數(shù),一般取值為1。
3.3用戶(hù)興趣模型的更新
用戶(hù)興趣模型要能夠及時(shí)準(zhǔn)確地反映用戶(hù)的興趣,除了在初始的建立階段要全面考慮之外,還需要能夠根據(jù)用戶(hù)的瀏覽行為和興趣變化進(jìn)行動(dòng)態(tài)的修改,這就需要充分利用用戶(hù)的反饋信息。我們可以根據(jù)用戶(hù)的反饋信息類(lèi)型將興趣模型分為兩種:
3.3.1基于顯式反饋信息的模型現(xiàn)有的系統(tǒng)普遍采用“相關(guān)反饋”作為用戶(hù)和系統(tǒng)交互的主要手段。給定一個(gè)評(píng)價(jià)標(biāo)準(zhǔn),如:完全符合要求、相關(guān)、無(wú)關(guān)、完全無(wú)關(guān),或給定一個(gè)評(píng)價(jià)數(shù)值,如:+2~-2,+2代表完全符合要求,-2代表完全無(wú)關(guān)。當(dāng)用戶(hù)查看推送過(guò)來(lái)的文檔時(shí),根據(jù)這些評(píng)價(jià)標(biāo)準(zhǔn)對(duì)文檔做出評(píng)價(jià),然后系統(tǒng)利用這種相關(guān)反饋信息實(shí)現(xiàn)對(duì)用戶(hù)興趣模型的學(xué)習(xí)和更新。其中最常用的更新方法是Salton和Buckley[3]所提出的公式:
(公式8)
其中,W(i)表示用戶(hù)興趣模型I(i)的興趣特征,ej代表用戶(hù)對(duì)文檔dj的評(píng)價(jià)等級(jí)。這個(gè)方法使用簡(jiǎn)單,但增加了用戶(hù)的負(fù)擔(dān),用戶(hù)也很難準(zhǔn)確地使用評(píng)價(jià)等級(jí)對(duì)推送的文檔做出評(píng)價(jià),而且不同的用戶(hù)對(duì)評(píng)價(jià)等級(jí)有不同的認(rèn)識(shí),也會(huì)導(dǎo)致降低這種方法的性能。
3.3.2基于隱式反饋信息的模型用戶(hù)在瀏覽推送過(guò)來(lái)的文檔時(shí),可以通過(guò)跟蹤記錄用戶(hù)的瀏覽行為,得到用戶(hù)對(duì)文檔感興趣的程度,如:瀏覽時(shí)間、保存操作、打印操作等行為都是用戶(hù)對(duì)文檔是否感興趣的一種反饋。本研究中,我們?cè)诜⻊?wù)器端建立了推送文檔的收藏、管理功能,實(shí)現(xiàn)對(duì)用戶(hù)瀏覽行為的跟蹤和記錄,從而更新和學(xué)習(xí)用戶(hù)的興趣模型。
用戶(hù)的瀏覽行為可以總結(jié)為以下5種:
●瀏覽次數(shù)。訪(fǎng)問(wèn)同一文檔的次數(shù)越多,說(shuō)明用戶(hù)對(duì)該文檔的內(nèi)容越感興趣。不過(guò)有些文檔在瀏覽過(guò)程中重復(fù)出現(xiàn)時(shí),不一定對(duì)應(yīng)于用戶(hù)要再次查看其中的內(nèi)容,可能只是對(duì)應(yīng)于諸如回退之類(lèi)的操作,目的是為了另一個(gè)感興趣的文檔。
●瀏覽時(shí)間。對(duì)同一文檔的關(guān)注越多,即停留時(shí)間越長(zhǎng),表明用戶(hù)對(duì)該文檔的興趣也越大。同時(shí),我們也規(guī)定了最大的時(shí)間閾值MaxDuration,以處理用戶(hù)離開(kāi)瀏覽狀態(tài)卻未關(guān)閉的情況。
●收藏操作。當(dāng)用戶(hù)對(duì)某一文檔感興趣,并且希望經(jīng)常查看此文檔的時(shí)候,用戶(hù)可能會(huì)將文檔加入收藏夾。
●保存或打印操作。用戶(hù)一般只會(huì)保存感興趣的東西,而保存或打印文檔也往往是為了將文檔最終保存下來(lái),方便查看。
●查詢(xún)操作。一般來(lái)說(shuō),用戶(hù)在查詢(xún)時(shí)輸入的字符串或關(guān)鍵字,往往代表他所感興趣的東西。
設(shè)D是攜帶有反饋信息的文檔集, dj∈D,vj代表dj的瀏覽次數(shù),tj代表dj的瀏覽時(shí)間,ej代表用戶(hù)對(duì)文檔dj的評(píng)價(jià)等級(jí),fv,ft,,fe分別為文檔的瀏覽次數(shù)、瀏覽時(shí)間、評(píng)價(jià)等級(jí)的加權(quán)函數(shù),W(i)表示用戶(hù)興趣模型I(i)的興趣特征,則興趣特征W(i)的更新公式為:
(公式9)
其中,ft和fv都是對(duì)數(shù)函數(shù),fe是一個(gè)線(xiàn)性函數(shù)。如果文檔dj的瀏覽次數(shù)、瀏覽時(shí)間、評(píng)價(jià)等級(jí)為0或空,這三個(gè)函數(shù)都返回一個(gè)常數(shù)。
將特征類(lèi)反饋信息折算為一個(gè)評(píng)價(jià)等級(jí),公式9可以將所有反饋信息融合在同一個(gè)框架中。例如:可以給收藏、保存、打印了的文檔一個(gè)分值最高的評(píng)價(jià)等級(jí)。查詢(xún)操作比較特殊,這種反饋信息對(duì)應(yīng)的不是一篇文檔,而是一個(gè)或多個(gè)關(guān)鍵詞。但是,同樣可以將每個(gè)關(guān)鍵詞看作一篇文檔,它的瀏覽次數(shù)就是這個(gè)關(guān)鍵詞的查詢(xún)次數(shù),它的瀏覽時(shí)間設(shè)置為一個(gè)常數(shù)。
4基于《中圖法》的科技文獻(xiàn)推薦系統(tǒng)
在基于《中圖法》的用戶(hù)興趣模型的基礎(chǔ)上,我們開(kāi)發(fā)了一個(gè)科技文獻(xiàn)推薦系統(tǒng)。系統(tǒng)推薦的對(duì)象是科技文獻(xiàn),主要服務(wù)于高校和科研院所的科研工作者。因?yàn)榭萍嘉墨I(xiàn)具有比較規(guī)范的格式,而且大部分文獻(xiàn)都具有《中圖法》分類(lèi)號(hào),所以非常適合于使用本文提出的方法。
系統(tǒng)體系結(jié)構(gòu)如圖1所示。整個(gè)系統(tǒng)包括服務(wù)器端和客戶(hù)端兩大部分。服務(wù)器端的主要功能是收集文獻(xiàn),對(duì)收集到的文獻(xiàn)進(jìn)行索引,對(duì)全文數(shù)據(jù)庫(kù)進(jìn)行更新和維護(hù)等。同時(shí),用戶(hù)興趣模型的更新也在服務(wù)器端定期集中完成,而不是在客戶(hù)端實(shí)時(shí)地對(duì)用戶(hù)興趣模型進(jìn)行更新?蛻(hù)端的主要功能包括注冊(cè)興趣,修改和刪除用戶(hù)興趣模型,接收、瀏覽系統(tǒng)發(fā)送的新文獻(xiàn),獲取用戶(hù)的反饋信息等。
用戶(hù)在使用系統(tǒng)之前,需要注冊(cè)一個(gè)賬戶(hù),輸入自己的真實(shí)姓名、研究方向等個(gè)人信息。當(dāng)用戶(hù)登錄系統(tǒng)后,就可以注冊(cè)自己的興趣了。系統(tǒng)提供了兩種注冊(cè)方式:一種是手動(dòng)方式;另一種是自動(dòng)方式。在手動(dòng)方式中,用戶(hù)依據(jù)《中圖法》的分類(lèi)體系,選擇某一類(lèi)別作為初始的興趣類(lèi)別。一個(gè)用戶(hù)可以注冊(cè)多個(gè)興趣,如果興趣之間重疊,那么選擇這兩個(gè)興趣類(lèi)別的父類(lèi)作為興趣類(lèi)別。確定了興趣的分類(lèi)號(hào)之后,就可以將這個(gè)分類(lèi)號(hào)所對(duì)應(yīng)的主題詞列出,然后用戶(hù)從中選擇相關(guān)的主題詞作為描述用戶(hù)興趣的特征。在自動(dòng)方式中,用戶(hù)也可以先查詢(xún)本地文獻(xiàn)數(shù)據(jù)庫(kù),對(duì)查詢(xún)結(jié)果文獻(xiàn)進(jìn)行相關(guān)反饋,然后調(diào)用用戶(hù)興趣模型更新算法,由系統(tǒng)為用戶(hù)自動(dòng)創(chuàng)建出一個(gè)興趣模型。用戶(hù)興趣模型的《中圖法》分類(lèi)號(hào)來(lái)自于相關(guān)反饋文獻(xiàn),通過(guò)取這些文獻(xiàn)的《中圖法》分類(lèi)號(hào)的最大交集得到。
另一方面,系統(tǒng)使用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)對(duì)指定的資源進(jìn)行抓取,將發(fā)現(xiàn)的新文獻(xiàn)下載到本地服務(wù)上。下載下來(lái)的這些文獻(xiàn)是多種格式的,需要使用格式轉(zhuǎn)換和信息抽取模塊將這些文獻(xiàn)轉(zhuǎn)換為統(tǒng)一的格式,并提取出文獻(xiàn)中的標(biāo)題、作者、摘要、《中圖法》分類(lèi)號(hào)等信息,再將這些信息保存到數(shù)據(jù)庫(kù)中,對(duì)于標(biāo)題和摘要信息還要建立全文索引。當(dāng)服務(wù)器處于閑置狀態(tài)時(shí),或者在一段時(shí)間內(nèi)的某一固定時(shí)刻,集中進(jìn)行計(jì)算,將新到文獻(xiàn)推送給用戶(hù)。推送給用戶(hù)的文獻(xiàn)實(shí)際是文獻(xiàn)的URL地址,當(dāng)用戶(hù)要瀏覽文獻(xiàn)的時(shí)候,需要登陸系統(tǒng),因此系統(tǒng)能夠準(zhǔn)確記錄文獻(xiàn)的瀏覽次數(shù)和瀏覽時(shí)間。同時(shí),系統(tǒng)提供了文獻(xiàn)的管理功能,能夠收藏、打印、保存、刪除文獻(xiàn),對(duì)文獻(xiàn)進(jìn)行相關(guān)反饋。有了這些信息,就可以使用公式9對(duì)用戶(hù)的興趣模型進(jìn)行更新。隨著新文獻(xiàn)的不斷推送,更多的反饋信息被記錄下來(lái),使用戶(hù)興趣模型能夠更加準(zhǔn)確地反映用戶(hù)的興趣需求。
5應(yīng)注意的問(wèn)題
上述基于《中圖法》的用戶(hù)興趣建模方法在科技文獻(xiàn)推送系統(tǒng)中的應(yīng)用取得了較好的效果,但也存在一些問(wèn)題。
5.1反面隱式反饋信息的利用
在用戶(hù)興趣模型的更新算法中,我們主要利用的是正面的隱式反饋信息,即對(duì)文獻(xiàn)的評(píng)價(jià)是正面的。但是還有許多反面的反饋信息可以利用,例如推送給用戶(hù)的文獻(xiàn),用戶(hù)只看了標(biāo)題和摘要后就刪除掉了,這可能代表用戶(hù)對(duì)這篇文獻(xiàn)不感興趣。這些信息可以作為用戶(hù)興趣模型學(xué)習(xí)的重要依據(jù)。
5.2協(xié)作過(guò)濾算法的使用
上述模型使用《中圖法》分類(lèi)號(hào)確定用戶(hù)初始的興趣類(lèi)別,等于對(duì)用戶(hù)的興趣做了一個(gè)分類(lèi)。如果多個(gè)用戶(hù)模型具有相同的分類(lèi)號(hào),或分類(lèi)號(hào)之間具有父子類(lèi)關(guān)系,那么某個(gè)用戶(hù)興趣模型的特征信息以及該模型的一些反饋信息,對(duì)其他用戶(hù)興趣模型的學(xué)習(xí)將重要的具有參考作用。將協(xié)作過(guò)濾的思想應(yīng)用于本文的方法和系統(tǒng)中,可以改善用戶(hù)興趣模型的學(xué)習(xí)算法。
參考文獻(xiàn):
[1]Balabanovic M, Shoham Y. Learning information retrieval agents: Experiments with automated Web browsing //Proceedings of AAAI Spring Symposium on Information Gathering from Heterogeneous, Distributed Environments. Stanford: AAAI Press,1995:13-18.
[2]Armstrong R, Freitag D, Joachims T, et al. WebWatcher: A learning apprentice for the world wide Web. //Proceedings of AAAI Spring Symposium on Information Gathering from Heterogenows, Distributed Environments. Stanford:AAAI Press,1995:6-12.
[3]Salton G, Buckley C. Improving retrieval performance by relevance feedback. Journal of American Society for Information Science, 1990,41(4):288-297.
[4]Joachims T, Mitchell T, Freitag D, et al. Webwatcher: Machine learning and hypertext // Morik K, Herrmann J. GI Fachgruppentreffen Maschinelles Lernen.University of Dortmund, 1995:145-149.
[5]Letizia L H . An agent that assists Web browsing //Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence, Montreal:Morgan Kanfmann, 1995:924-929.
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。
相關(guān)熱詞搜索:分類(lèi)法 建模 中國(guó) 基于《中國(guó)圖書(shū)館分類(lèi)法》的用戶(hù)興趣建模方法 issn 中國(guó)圖書(shū)館分類(lèi)法f
熱點(diǎn)文章閱讀