數(shù)字圖書館網(wǎng)格信息資源組織模式研究:數(shù)字圖書館的信息資源數(shù)字化
發(fā)布時間:2020-03-07 來源: 歷史回眸 點擊:
〔摘要〕從網(wǎng)格資源構成的角度,分析比較數(shù)字圖書館網(wǎng)格信息資源、數(shù)字圖書館非網(wǎng)格信息資源,通過對Digital Library Grid信息資源管理模型的解讀,提出在網(wǎng)格環(huán)境下,數(shù)字圖書館信息資源管理、信息資源組織的概念模型,并在此基礎上分析、討論網(wǎng)格環(huán)境下DL信息資源發(fā)現(xiàn)、信息資源描述、信息資源命名和信息資源發(fā)布等主要環(huán)節(jié)。
〔關鍵詞〕網(wǎng)格數(shù)字圖書館信息資源組織
〔分類號〕G250.76
Resarch on Digital Library Grid Information Resource Organization Pattern
Bi QiangShen Yong
Management College of Jilin University, Changchun130022
〔Abstract〕From the perspective of grid resources constitution, this paper compares DL grid information resources with DL non-grid information resources. Then it proposes the conceptual model of information resource management and organization for digital library in the grid environment by unscrambling the model of DL grid information resources management, and on the basis of that discusses the main procedures including digital library information resource discovery, information resource description,information resource naming and information resource publishing.
〔Keywords〕griddigital libraryinformation resource organization
1引言
挺進網(wǎng)絡研究領域,已經(jīng)成為國際和國內信息資源組織管理研究領域的共識。網(wǎng)格環(huán)境下的數(shù)字圖書館(Digital Library,以下簡稱“DL”),以無所不在的分布式的網(wǎng)絡和計算環(huán)境作為技術支持和應用基礎,具有對于海量的、多媒體的信息資源進行制作、組織、存儲和發(fā)布的能力,還可以針對不同需求的用戶群體提供主動的、個性化的終極信息服務[1]。網(wǎng)格技術作為DL信息資源(Information Resource,以下簡稱“IR”)組織模式變革的思想平臺和技術支撐,為DL信息資源組織提供實踐理性化的操作樣式。
2數(shù)字圖書館網(wǎng)格信息資源
2.1網(wǎng)格信息資源的構成
傳統(tǒng)因特網(wǎng)實現(xiàn)了計算機硬件的連通,Web實現(xiàn)了網(wǎng)頁的連通,網(wǎng)格將實現(xiàn)互聯(lián)網(wǎng)上所有資源的連通,包括計算資源、存儲資源、通信資源、軟件資源、信息資源、知識資源等[2](見圖1),網(wǎng)格能讓人們透明地使用這些資源[3]。
2.2DL網(wǎng)格信息資源與DL非網(wǎng)格信息資源
DL網(wǎng)格信息資源和DL非網(wǎng)格信息資源的異同如表1所示:
DL的網(wǎng)格信息資源與非網(wǎng)格信息資源的本質區(qū)別就是信息資源所處環(huán)境的異構。在網(wǎng)格環(huán)境下,DL信息資源管理系統(tǒng)所管理的IR不僅是屬于一個管理域,而是跨越多個管理域[6-7]。各個域中構成網(wǎng)格系統(tǒng)的計算機在體系結構,操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)及元數(shù)據(jù)模式等多個方面均存在異構。這就造成來自不同管理域的相似或同類IR的異構性。
DL非網(wǎng)格信息資源提供者僅限于本地的DL,DL網(wǎng)格信息資源的提供者既有本地的DL又有異地的各個IR的所有者。
DL非網(wǎng)格信息資源的組織不需要重新命名,DL網(wǎng)格信息資源的組織必須重新命名。
3網(wǎng)格環(huán)境下DL信息資源組織概念模型
信息資源組織即IR的有序化的活動:利用一定科學規(guī)則和方法,通過對信息外在特征和內容特征的描述和序化,實現(xiàn)無序信息流向有序信息流的轉換,從而保證用戶對信息的有效獲取和利用及信息的有效流通和組合。網(wǎng)絡環(huán)境下,數(shù)字圖書館IR組織模式如圖2所示:
從圖2可以看出,該模式僅適用于互聯(lián)互通有限容量的IR。但要互聯(lián)互通海量的、分布異構的IR,該模式就受到了現(xiàn)有技術的約束。引入網(wǎng)格技術,應用信息網(wǎng)格則能夠實現(xiàn)DL組織建設所需的各種數(shù)字信息資源的互聯(lián)互通。信息網(wǎng)格已成為國內外DL信息組織管理研究領域的共識。
Digital Library Grid是美國Andrew W. Mellon 基金會由Old Dominion大學DL研究組在其原有的OAI(Open Archives Initiative)系統(tǒng)(即ARC系統(tǒng))研究和實踐基礎上所提出的項目,圖3是Digital Library Grid信息資源管理模型。
在圖3中,DL的數(shù)字資源分布在DL網(wǎng)格中的數(shù)據(jù)提供者節(jié)點中,采集節(jié)點負責對數(shù)據(jù)提供者節(jié)點的信息資源內容進行元數(shù)據(jù)采集,然后經(jīng)由元數(shù)據(jù)收集和傳輸服務機制,整合由采集節(jié)點獲得的全部元數(shù)據(jù),按照一定的規(guī)則和機制,對這些元數(shù)據(jù)進行分發(fā),將其分別存儲在各個檢索服務器節(jié)點(D1....D3)中,I1…I3負責對D1...D3上的元數(shù)據(jù)進行索引管理,可以針對新增的元數(shù)據(jù)進行增加索引,更新D1...D3中儲存的索引。用戶向跨庫檢索節(jié)點提出檢索請求,跨庫檢索節(jié)點提供用戶檢索接口,并將收到的請求分發(fā)到D1…D3節(jié)點,并執(zhí)行檢索請求,檢索結果由調度服務進行排序執(zhí)行,將匹配的信息資源返回給用戶。調度服務存儲一個包含數(shù)據(jù)提供者列表的配置文件,向任務節(jié)點分配任務,任務完成后還要記錄節(jié)點和信息資源的參數(shù),為新的任務分配提供參考。
在網(wǎng)格信息資源管理模式的基礎上,結合DL的應用特點,借鑒國外DL網(wǎng)格項目的經(jīng)驗,構建了網(wǎng)格環(huán)境下DL信息資源管理系統(tǒng)抽象模型。
如圖4[10]所示,虛線所框的部分是網(wǎng)格環(huán)境下DL信息資源組織概念模型。與網(wǎng)絡環(huán)境下的信息資源組織相比,有以下幾點差異:
●在網(wǎng)絡環(huán)境下,DL所包含的信息源是已經(jīng)確定的若干個信息資源數(shù)據(jù)庫;網(wǎng)格環(huán)境下的信息源是可擴展的有限多個信息資源數(shù)據(jù)庫和信息資源節(jié)點。
●對于網(wǎng)格環(huán)境下的有限多個信息資源數(shù)據(jù)庫和信息資源節(jié)點的增加和擴充,除了特定的情況下需要工作人員的參與,大多數(shù)情況下是通過被動發(fā)現(xiàn)信息資源機制完成的;網(wǎng)絡環(huán)境下,新的IR數(shù)據(jù)庫的加入只有依靠人工才能完成。
●在網(wǎng)格環(huán)境下,DL為用戶查找IR除了IR發(fā)現(xiàn)機制之外,還有IR發(fā)布。
●在網(wǎng)格環(huán)境下,新加入的IR要進行重新命名,用戶無需知道資源的所屬數(shù)據(jù)庫或節(jié)點,就可以下載使用IR;網(wǎng)絡環(huán)境下,DL系統(tǒng)中IR的名字和在其所屬數(shù)據(jù)庫中的名字是一樣的,無需重新命名。
用戶利用網(wǎng)格環(huán)境下DL信息資源管理系統(tǒng)獲取研究所需的IR的過程,簡單概括為以下兩個步驟:
●DL網(wǎng)格的各個節(jié)點上有類型內容各異的IR。首先通過IR發(fā)現(xiàn)機制(主動發(fā)現(xiàn)和被動發(fā)現(xiàn))尋找到DL所需的IR,主動發(fā)現(xiàn)是基于用戶的需求進行,被動發(fā)現(xiàn)是系統(tǒng)在IR提供者提供的IR屬性狀態(tài)中根據(jù)系統(tǒng)需求(潛規(guī)則)選擇合適的IR,并對IR進行描述、索引和命名,然后將索引信息匯總到數(shù)字圖書館IR索引中心,通過IR發(fā)布機制呈現(xiàn)給用戶。
●DL用戶發(fā)出IR請求,IR管理系統(tǒng)將根據(jù)用戶的請求在索引中心內查找匹配的IR索引,然后追根溯源,找到IR所在的網(wǎng)格節(jié)點;根據(jù)節(jié)點和資源的狀態(tài)信息參數(shù)進行IR預置(IR預置通常用來實現(xiàn)對IR的保證存取或對多個IR的并發(fā)存取,它的作用類似于一個記錄器,記錄目前所有的用戶需要的IR,確保用戶所需要的IR全部都被安排執(zhí)行傳輸)、狀態(tài)估計(即依據(jù)IR當前的狀態(tài)信息和歷史數(shù)據(jù)庫、傳送時間等為任務調度提供信息)、任務調度(確定任務執(zhí)行的相關順序)等一系列環(huán)節(jié),確保將用戶所需求的IR提交給用戶。
3.1信息資源描述
信息資源描述是根據(jù)一定的規(guī)則和標準,對IR的形式特征和部分內容特征進行描述并給予記錄的過程[5]。 信息資源描述為IR共享、IR發(fā)現(xiàn)等關鍵環(huán)節(jié)提供必要的信息。信息資源描述信息把不同的用戶、不同的應用、不同的IR聯(lián)系起來[11]。
在介紹信息資源描述的作用之前,先引入三個概念:IR請求者:一般情況下就是指用戶,在這里就指DL用戶;IR中介者:網(wǎng)格環(huán)境下DL的IR管理器;IR提供者:IR的所有者,DL本地/遠程數(shù)據(jù)庫,或網(wǎng)站、個人。IR描述的作用如圖5所示。
、 IR請求者應用IR描述機制來描述自己所需求的IR,向IR中介者提出需求;② IR提供者通過IR描述機制,按照統(tǒng)一的規(guī)范(如DC)提供關于自身資源的元數(shù)據(jù)給IR中介者;③ IR中介者通過IR提供者的IR描述信息,判斷是否匹配,將匹配的IR提供給IR請求者。
無論在網(wǎng)絡環(huán)境下,還是在網(wǎng)格環(huán)境下,元數(shù)據(jù)都是IR組織的有效工具[12]。元數(shù)據(jù)描述的是關于數(shù)據(jù)的who, what, when, where, why, and how[13]。在網(wǎng)絡環(huán)境下,以DC(都柏林核心數(shù)據(jù),Dublin Core)元數(shù)據(jù)為例,DC由15個元素組成:標題、作者、主題、說明、出版者、其他責任者、日期、類型、格式、標識符、來源、語言、關聯(lián)、覆蓋范圍、權限。
在網(wǎng)格環(huán)境下,元數(shù)據(jù)除了上述的15項之外,還要包含距離、區(qū)域、數(shù)量和精確位置[12](見圖6)。本文2.2部分提到,DL網(wǎng)格信息資源提供者不同,所處環(huán)境異構,因此在對網(wǎng)格IR進行描述時,就必須要對IR所處的空間位置進行必要的描述。在DL網(wǎng)格信息資源組織中的IR描述階段,元數(shù)據(jù)利用HTML、SGML(Standard Generalized Markup Language--標準的通用置標語言)等標記語言將其嵌入在IR中。在網(wǎng)格IR的整個生命期內,元數(shù)據(jù)要隨著IR的狀態(tài)發(fā)生變化而不斷地更新,確保網(wǎng)格系統(tǒng)迅速準確地查找到所需的IR。
至今為止,還沒有一種通用的IR描述方法得到廣泛的應用,隨著網(wǎng)格技術的應用發(fā)展,IR描述方法將告別“百花齊放”的現(xiàn)象,產(chǎn)生一種通用的IR描述方法和規(guī)范。
3.2信息資源命名
在DL網(wǎng)格系統(tǒng)中,每個IR對應一個屬于自己的地址,這個地址的特點就是便于機器識別,但是用戶記憶和使用這個IR地址都比較困難。用戶訪問IR的時候是通過一個中介,來連接IR的地址,這個中介就是IR的名字。IR命名,就是給網(wǎng)格中的IR重新取個名字。IR的舊名字是由IR提供者選定的,在網(wǎng)格中難免會出現(xiàn)重名現(xiàn)象,如果對名字為X的IR發(fā)出呼叫,有多個IR應答,就會導致用戶不知如何選擇自己最終需要的IR。IR的命名和IR本身必須一一對應。另外,命名后的IR也方便用戶使用。我們知道,網(wǎng)絡上的每個主機除了自己的IP之外還有一個域名,域名便于用戶記憶和使用,例如,www.省略是搜狐網(wǎng)站主機的域名,但是用戶不需要知道實際的IP是多少,只要知道域名就可以方便地使用。同理,給網(wǎng)格中的每個IR都取個名字,用戶就可以根據(jù)IR的名字方便的訪問IR。
IR命名的意義和作用在于[11]:
●IR命名可以把IR進一步的抽象,將IR的標識和IR的位置分離開來。
●IR命名機制可以建立虛擬的空間,擴大和縮小用戶空間。
●實現(xiàn)IR的按名訪問,方便用戶使用。
DL中網(wǎng)格系統(tǒng)涵蓋的IR數(shù)量巨大,IR命名需要遵循一定的原則。系統(tǒng)可以根據(jù)IR之間的內在關系為IR命名。例如:包含關系,層次關系,并列關系(見圖7)。
A包含A.a、A.b和A.c,所以A和A.a,A和A.b,A和A.c是包含關系,但是這種情況也滿足層次關系,所以包含關系和層次關系經(jīng);旌铣霈F(xiàn)。A.a和A.b和A.c是并列關系。A.a和A.a.x,A.b和A.b.y,A.c和A.c.z是層次關系。他們之間的層次關系是單一的,并沒有混合包含關系。按照這樣的關系命名可以有效地避免IR的名字的重復,進而有效的幫助網(wǎng)格系統(tǒng)提高任務作業(yè)完成的效率。IR命名還要規(guī)定命名的字符要求,如同網(wǎng)絡域名中有英文字母、圓點等規(guī)定字符一樣。例如,規(guī)定IR的名字字符中只能包含英文字母、中文漢字、阿拉伯數(shù)字、圓點“•”、斜杠線“\”和“/”。那么@、#、$等其它的字符對于IR命名來說就是非法字符。
3.3信息資源發(fā)現(xiàn)
分為主動發(fā)現(xiàn)信息資源和被動發(fā)現(xiàn)信息資源。
主動發(fā)現(xiàn)信息資源是IR請求者和IR之間進行聯(lián)系必不可少的環(huán)節(jié),如果沒有主動發(fā)現(xiàn)機制,網(wǎng)格環(huán)境下DL的IR數(shù)量巨大,IR請求者就不能確定自己可以使用哪些IR,也就滿足不了請求者獲得IR的需求。如圖8所示,設定一個IR描述信息,IR發(fā)現(xiàn)能夠根據(jù)IR描述的信息在DL的網(wǎng)格節(jié)點中查找到與需求匹配的IR并將IR的信息返回給IR請求者,就可以選擇使用自己需要的IR。
被動發(fā)現(xiàn)IR機制運作在IR和網(wǎng)格系統(tǒng)之間,可以在網(wǎng)格系統(tǒng)原有IR數(shù)量的基礎上,擴展網(wǎng)格資源系統(tǒng)所包含的網(wǎng)格節(jié)點的數(shù)量和范圍。如圖9所示,網(wǎng)格節(jié)點將自己擁有的,卻沒有被系統(tǒng)收納的IR的描述信息提交給系統(tǒng),系統(tǒng)選擇其中自身需求的IR,對該資源進行描述命名,并將描述信息存入系統(tǒng)數(shù)據(jù)庫,使其成為系統(tǒng)資源的新成員。
用公式F=f(xreq) [11]描述IR發(fā)現(xiàn)機制更為形象。如表2所示,針對被動發(fā)現(xiàn)機制或主動發(fā)現(xiàn)機制,公式中元素的含義也是不同的。
網(wǎng)格發(fā)現(xiàn)機制的優(yōu)劣,直接影響網(wǎng)格的整體性能。
織女星網(wǎng)格是中國科學院計算技術研究所2001年開始研究的項目?椗蔷W(wǎng)格的資源發(fā)現(xiàn)機制的體系結構由三個層次組成,它們自左向右依次為:用戶層、資源路由器層和資源層(見圖10)。
織女星網(wǎng)格的資源發(fā)現(xiàn)屬于主動發(fā)現(xiàn)IR機制,其過程包括以下5 個步驟[14]:
第一步:資源信息通過路由器網(wǎng)絡進行傳播。
第二步:網(wǎng)格用戶向相鄰的資源路由器發(fā)出資源請求。
第三步:資源路由器根據(jù)用戶資源請求尋找匹配資源,同時完成請求在路由器網(wǎng)絡內的轉發(fā)。
第四步:路由器為資源請求尋找一個能滿足需要的物理資源,找到則完成資源的定位,找不到則認為用戶的資源請求不能在本網(wǎng)格中得到滿足。
第五步:路由器將資源發(fā)現(xiàn)的結果返回給用戶。
主動發(fā)現(xiàn)IR機制是IR和IR請求者之間必要的橋梁,能夠根據(jù)用戶的請求尋找匹配的IR,優(yōu)質的完成用戶提交的檢索任務。被動發(fā)現(xiàn)IR機制是DL網(wǎng)格系統(tǒng)和與未被利用的網(wǎng)格節(jié)點及其資源之間的紐帶,利用該機制可以挖掘新的IR,納入DL網(wǎng)格系統(tǒng)為用戶所使用。資源發(fā)現(xiàn)機制的優(yōu)劣,直接影響網(wǎng)格的整體性能。
3.4信息資源發(fā)布
在網(wǎng)格環(huán)境下,DL為用戶查找信息資源除了信息資源發(fā)現(xiàn)機制之外,還有一種方法就是信息資源發(fā)布。信息資源發(fā)布,是信息資源尋找某個用戶可以提供給自己一個匹配的應用[10],是從信息資源出發(fā),試圖去發(fā)現(xiàn)能夠利用該信息資源的合適的應用。換句話說,具有某信息資源的終端系統(tǒng)為A,有關該信息資源的信息為B,信息資源發(fā)布就是把來自于A的B推(push)到可應用該信息資源的節(jié)點[15]。
IR發(fā)布與IR的更新密切相關。
如果按照批次或者周期性的方法對IR信息進行更新,也稱為定時更新,IR發(fā)布也就要批次地或者周期性的通過DL網(wǎng)格進行,即定時發(fā)布。這種方法的好處就是不會給網(wǎng)格環(huán)境下DLIR管理器帶來很大的壓力,但是可能導致IR的信息的滯后,也可能影響任務調度及用戶應用等一系列進程。
如果按照在線或者按需的方法對IR信息進行更新,可稱為時時更新,也就是說,只要IR的信息有所變化,就要進行一次更新,然后通過IR發(fā)布,將IR信息從源機器發(fā)布到DL網(wǎng)格信息資源管理器中,等待匹配的應用,即時時發(fā)布。這種方法的益處就是IR的信息時刻保持最新狀態(tài),但是這會給IR管理器帶來很大的壓力。
兩種方法各有利弊,網(wǎng)格環(huán)境下的DL在應用時可根據(jù)IR信息變化頻率的大小選擇不同的IR發(fā)布方式。如針對信息狀態(tài)經(jīng)常發(fā)生變化的IR,就應該選擇網(wǎng)格IR定時發(fā)布;針對信息狀態(tài)較少發(fā)生變化的IR,就可以選擇網(wǎng)格IR時時發(fā)布。
根據(jù)IR主體在發(fā)布過程中的作用不同,可以將IR發(fā)布的機制分為兩種類型:被動發(fā)布和主動發(fā)布。
IR的被動發(fā)布方式,強調用戶的主動性,而且資源自身缺乏安全控制能力;相比較來看,IR的主動發(fā)布方式,由于強調了資源自身的主動性,可以很容易地實施對性能和安全性的控制,從而根據(jù)不同的資源和不同的用戶采用不同的策略,提高資源的利用率和安全性。
綜上所述,在網(wǎng)格環(huán)境下,數(shù)字圖書館IR組織的概念模型包括4個步驟:信息資源描述、信息資源命名、信息資源發(fā)現(xiàn)、信息資源發(fā)布。這些步驟在組織管理過程中無明顯的界限,它們之間相互融合、相輔相成。
4結語
DL是以知識概念為支撐的一種信息服務和知識服務環(huán)境,也是重要的社會信息基礎設施之一。未來基于網(wǎng)格和DL的應用研究應該加強以下幾個方面:①網(wǎng)格技術與DL信息資源管理結合的技術策略研究,探討主要技術和系統(tǒng)開發(fā)方法;②應用網(wǎng)格技術進行DL信息資源組織的實施研究,驗證理論的可執(zhí)行性;③網(wǎng)格環(huán)境下DL信息資源管理的發(fā)展趨勢研究,不斷結合新型的技術改善管理方法和模式。
雖然,DL網(wǎng)格信息資源組織管理尚處于初級階段,但是,如果在一個合理科學的環(huán)境支撐體系下,正確、科學地運用信息網(wǎng)格與知識網(wǎng)格,DL信息資源組織管理有望跨越傳統(tǒng)的、初級的互聯(lián)互通理念、結構和模式,而進入深層組織管理,并能夠使它在一定條件下向知識網(wǎng)格轉化。
參考文獻:
[1]李亮先.網(wǎng)格技術在數(shù)字圖書館的應用.情報科學,2004(6):703-706.
[2]張俊.網(wǎng)格環(huán)境下的應用模式的研究[學位論文].北京:北京理工大學, 2003.
[3]王麗華.基于網(wǎng)格技術的虛擬圖書館.情報科學,2004(4):482-487.
[4]王艷峰,王峰,王恩海,等.網(wǎng)格資源描述與發(fā)現(xiàn).[2005-11-21]. http://www.省略/grid/paperppt/gct/gct08.ppt.
[5]楊玉麟.信息描述.北京:高等教育出版社,2004:4-5.
[6]Froster I,Kesselman C.網(wǎng)絡計算(第二版).金海,袁平鵬,石柯,譯.北京:電子工業(yè)出版社,2004:149-162.
[7]柯青.網(wǎng)絡環(huán)境下異構信息檢索標準體系研究[學位論文].武漢:武漢大學, 2004.
[8]龍朝陽,秦素娥.數(shù)字圖書館個性化信息組織模式構建.情報理論與實踐,2006(3):355-357.
[9]Digital Library Grid 項目組. Digital library grid. [2006-11-15]. http://128.82.7.230/grid/status/architecture.doc.
[10]丁箐.網(wǎng)格環(huán)境下資源管理的研究[學位論文].合肥:中國科學技術大學,2002.
[11]徐志偉,馮百明,李偉.網(wǎng)格計算技術.北京:電子工業(yè)出版社, 2004:104-112.
[12]National Information Standards Organization. Understanding metadata. [2006-12-25]. http://www.省略/standards/resources/Understanding Metadata. PDF.
[13]What is metadata. [2006-03-23] http://www.csc.noaa.gov/metadata.
[14]董方鵬,龔奕利,李偉,等.網(wǎng)格環(huán)境中資源發(fā)現(xiàn)機制的研究.計算機研究與發(fā)展,2003(12):1749-1755.
[15]杭小勇.網(wǎng)格資源的安全主動發(fā)布機制[學位論文].天津:天津大學,2005.
畢 強 沈 涌
吉林大學管理學院長春 130022
相關熱詞搜索:網(wǎng)格 信息資源 數(shù)字圖書館 數(shù)字圖書館網(wǎng)格信息資源組織模式研究 數(shù)字圖書館運作模式研究 研究的運作模式
熱點文章閱讀