數(shù)字倉儲【數(shù)字倉儲庫的發(fā)展】
發(fā)布時間:2020-03-10 來源: 幽默笑話 點擊:
[摘要]綜述數(shù)字倉儲庫的發(fā)展現(xiàn)狀,歸納總結(jié)倉儲庫的類型和內(nèi)容特點,詳細(xì)分析倉儲庫建設(shè)過程中的典型用例,重點對出版商用例和多機(jī)構(gòu)用例的數(shù)據(jù)處理、服務(wù)管理和效果進(jìn)行歸納和分析,詳細(xì)說明其建設(shè)過程和方法。并結(jié)合倉儲庫管理者的意見和倉儲庫目前存在的問題,提出下一步倉儲庫建設(shè)的重點和發(fā)展的方向。
[關(guān)鍵詞]數(shù)字倉儲庫 倉儲 用例分析
[分類號]G25
1. 引言
數(shù)字倉儲庫(Digital Repositories)相對于其他數(shù)據(jù)庫有自己的特點:倉儲內(nèi)容是由內(nèi)容創(chuàng)建者或擁有者提交數(shù)據(jù)庫的;倉儲內(nèi)容既有內(nèi)容又有描述內(nèi)容的元數(shù)據(jù);系統(tǒng)具有基本的PUT、GET、SEARCH、ACCESSCONTROL的功能;倉儲庫必須是可持續(xù)的和可信任的并被很好地支持和管理。數(shù)字倉儲庫在近年來獲得了長足的發(fā)展,包括以某個機(jī)構(gòu)或校園為基礎(chǔ)的機(jī)構(gòu)倉儲庫(Intltutional Repository),以某個或某些學(xué)科為基礎(chǔ)的學(xué)科倉儲庫(Disciplinary Repository)和跨國跨學(xué)科的綜合性倉儲庫(Aggregating Repository)快速發(fā)展。據(jù)OpenDOAR(Directory of Open Access Reposito―ries)的最新統(tǒng)計,2010年7月登記的可開放獲取的倉儲庫數(shù)量達(dá)到了1650個,其中機(jī)構(gòu)倉儲庫占到了81%。而通過DRIVER-Digital Repositories Infrastruc-ture Vision for European Research項目可搜索到超過2500000篇的科技論文、學(xué)位論文和會議報告等文獻(xiàn),DRIVER項目定期收割33個國家的249個倉儲庫的元數(shù)據(jù)并提供集成的檢索。據(jù)Bo-Christer Bjork等人的研究,2008年研究論文的20.4%都是可以開放獲取的,其中8.5%可以在出版商的網(wǎng)站上獲取,11.9%可通過搜索引擎得到免費的原文。數(shù)字倉儲庫在開放獲取中扮演了重要的角色,本文試圖分析數(shù)字倉儲庫的發(fā)展現(xiàn)狀和相關(guān)的項目研究情況,發(fā)現(xiàn)其運行的關(guān)鍵因素,并探索可持續(xù)發(fā)展的策略。
2. 數(shù)字倉儲庫的類型和內(nèi)容特點
數(shù)字倉儲庫包括多種類型,由研究型學(xué)術(shù)機(jī)構(gòu)建立的稱為機(jī)構(gòu)倉儲庫,收集、保存和分發(fā)一個機(jī)構(gòu)產(chǎn)生的數(shù)字資產(chǎn),包括學(xué)位論文、預(yù)印本、研究論文和技術(shù)報告等文獻(xiàn)類型,也包括一個機(jī)構(gòu)的管理性文檔。各國大學(xué)和研究機(jī)構(gòu)都先后建立了自己的機(jī)構(gòu)倉儲庫。機(jī)構(gòu)倉儲建設(shè)典型的例子是加利福利亞大學(xué)數(shù)字圖書館的eScholarship Repository。建立在專門的研究部門或?qū)嶒炇业膫}儲庫稱為Departmental Repository。以某個或某些學(xué)科的資料收藏和保存為基礎(chǔ)的學(xué)科倉儲庫(Disciplinary Repository),由政府或某科學(xué)組織來管理和維護(hù),其中有影響力的學(xué)科倉儲庫有arXiv,倉儲數(shù)學(xué)和物理學(xué)方面的論文和報告;PubMed Central倉儲生物醫(yī)學(xué)方面的論文,CiteSeerX倉儲計算機(jī)和信息科學(xué)方面論文和報告。在一個國家層面上建立的倉儲庫稱為國家倉儲庫(National Repository),大英圖書館維護(hù)了一個國家的倉儲庫,提供給沒有機(jī)構(gòu)倉儲庫的組織和研究人員使用。
數(shù)字倉儲庫在原來文獻(xiàn)收藏的基礎(chǔ)上不斷演化,形成了非文獻(xiàn)類型的數(shù)字倉儲庫。其中有以數(shù)據(jù)為倉儲對象的數(shù)據(jù)倉儲庫(Data Repository),主要收集和保存科學(xué)研究中產(chǎn)生的各種數(shù)據(jù),包括圖表、統(tǒng)計表格、實驗數(shù)據(jù)、測試數(shù)據(jù)等。例如DataShare是由JISC支持的關(guān)于數(shù)據(jù)倉儲庫建設(shè)的項目。以教學(xué)參考資料為主要倉儲對象的教學(xué)參考資料倉儲庫也快速發(fā)展,JISC支持的Jorum項目收集倉儲來自英國高等教育機(jī)構(gòu)創(chuàng)建的教學(xué)資料,并根據(jù)創(chuàng)建者的授權(quán)提供相應(yīng)的訪問。還有專門以地理數(shù)據(jù)為倉儲對象的地理數(shù)據(jù)倉儲庫ShareGeo,以演示文稿和講演視頻為倉儲對象的Slideshare。各國高校的學(xué)位論文倉儲庫普遍建立。
OpenDoar的統(tǒng)計顯示,盡管期刊論文依然是倉儲庫的主要文獻(xiàn)類型,63%的倉儲庫包括期刊論文,51%的倉儲庫包括學(xué)位論文,但沒有正式出版的報告和工作文檔也有40%的倉儲庫收集,其他多媒體資料、圖書和教學(xué)參考資料也有15%到31%的比例?梢灶A(yù)測將來多種類型的倉儲資源會大量增加。也有觀點認(rèn)為倉儲庫的數(shù)據(jù)結(jié)構(gòu)也應(yīng)多元化,包括元數(shù)據(jù)+對象數(shù)據(jù),或者元數(shù)據(jù)+對象數(shù)據(jù)指針(如DOI),或者僅僅是倉儲元數(shù)據(jù)。后文還會論述這一問題。
3. 數(shù)字倉儲庫的持續(xù)發(fā)展
數(shù)字倉儲庫的可持續(xù)發(fā)展是各個方面都關(guān)心的問題,如何設(shè)計有效的倉儲庫建設(shè)政策和經(jīng)濟(jì)有效的建設(shè)策略是當(dāng)前倉儲庫建設(shè)面臨的重大問題。英國數(shù)字倉儲庫的發(fā)展得到了JISC基金的支持,2006年和2009年JISC分兩期在英國高等教育機(jī)構(gòu)的數(shù)字倉儲和數(shù)字內(nèi)容基礎(chǔ)設(shè)施上共投入了約1400萬英鎊,支持包括倉儲支持、倉儲研究、倉儲聯(lián)合搜索、Interim Reposi―tory等方面的項目和建設(shè)內(nèi)容,目前在Key Digital Re―pository Activities題目下列有21個基金項目計劃和230個支持項目。
倉儲庫建設(shè)的可持續(xù)發(fā)展問題是倉儲庫建設(shè)者們考慮的一個重要問題,不僅僅是完全依靠項目運作方式維持倉儲庫發(fā)展。其中如何解決倉儲庫的數(shù)據(jù)提交效率和效果成為一個關(guān)注的焦點。下面的用例分析了倉儲庫建設(shè)各方面參與者角色,試圖找到合適的提高倉儲效率的路徑。
3.1 用例分析
JISC支持的一個小的思想庫試圖探討倉儲庫的運作問題,有來自三個國家的倉儲庫建設(shè)方面的專家組成的名為“Repository Handshake”的聚焦小組,于2009年3月在荷蘭阿姆斯特丹開了一個專題討論會。第一個聚焦的問題為Deposit Opportunities,主要探討在開放存取環(huán)境下半自動提交和呈繳的過程,討論包括倉儲空洞化的危險與如何避免標(biāo)準(zhǔn)和技術(shù)的絕對化;評估通過SWORD實現(xiàn)交互的能力,交互過程中的工作流管理;倉儲庫管理者的角色等。重點考慮其他系統(tǒng)對倉儲系統(tǒng)的沖擊,包括作者工具、書目索引工具和其他管理工具,如CRIS和REF。如圖1所示:
作者要面對至少5個方面的對自己產(chǎn)出的要求。在這種狀況下,無論是智力成果的創(chuàng)造者還是倉儲庫的管理者,都面臨多個方面的要求,會讓倉儲過程本身充滿了煩惱。需要認(rèn)真思考解決方案。
JISC支持的SONEX(Scholarly Output Notificationand Exchange)項目旨在重新明確倉儲的對象是學(xué)術(shù)產(chǎn)出而不僅僅是正式出版的內(nèi)容,學(xué)術(shù)信息的傳遞只需要元數(shù)據(jù)即可,數(shù)據(jù)的交換需要雙方的互操作和協(xié) 商。本文重點確認(rèn)和分析倉儲用例,目的是在不同的應(yīng)用環(huán)境下推動和促進(jìn)研究產(chǎn)出的倉儲過程,也包括如何實現(xiàn)對現(xiàn)有多個倉儲庫內(nèi)容的傳遞和跨庫獲取的問題,比如如何從大學(xué)研究管理系統(tǒng)CRIS Systems獲取內(nèi)容到機(jī)構(gòu)倉儲庫。分析整個倉儲環(huán)境中各種可能的用例,確認(rèn)有效的倉儲機(jī)會,用例的詳盡分析也有助于多種數(shù)據(jù)庫間合作的發(fā)展。
下面就是詳盡的用例分析和在該用例下部署開展的項目:
?用例1,著者。服務(wù)于多個研究機(jī)構(gòu)著者的研究成果,或者研究成果中的多個著者來自不同的機(jī)構(gòu),在這個用例中,一篇論文按照通常的情況,要在多個機(jī)構(gòu)倉儲庫中提交倉儲,毫無疑問會給著者帶來*許多的操作負(fù)擔(dān);谶@個用例,Open Access RepositoryJunction(OA-RJ)Project主要研究通過代理方式向多個機(jī)構(gòu)倉儲提交成果的機(jī)制和應(yīng)用。該用例不包括單一著者單一機(jī)構(gòu)的情況。
?用例2,管理機(jī)構(gòu)。這個用例主要是大學(xué)或研究機(jī)構(gòu)的研究信息管理系統(tǒng)CRIS。在一般情況下,這些用例出于管理的目的,已聚集了研究的產(chǎn)出。這就需要交換研究產(chǎn)出的信息,有幾個項目正在集成CRIS和IR,如University of Glasgow和Trinity College Dublin。
?用例3,書目編制者。個人、研究項目組或院系的成果展示,圖書館的研究成果收藏和列表。該方面的成果輸出很多,多是用于宣傳或項目資助者要求?膳c機(jī)構(gòu)倉儲庫形成數(shù)據(jù)交換關(guān)系。
?用例4,出版者。主要指那些愿意幫助著者將他們出版的全文或全文URI提交到倉儲庫的出版者。一般是自動完成倉儲過程,在這方面的項目有OA-RJProject和European PEER Project。在這些項目中解決提交開放獲取的全文和全文的URI。
?用例5,倉儲庫的管理者。主要指機(jī)構(gòu)倉儲庫管理者從學(xué)科倉儲庫獲得自己機(jī)構(gòu)的學(xué)術(shù)產(chǎn)出,或者是從其他相關(guān)的機(jī)構(gòu)倉儲庫中獲得本機(jī)構(gòu)的學(xué)術(shù)產(chǎn)出。可通過數(shù)據(jù)的交換協(xié)議完成。
?用例6,研究評估機(jī)構(gòu)。研究評估機(jī)構(gòu)會要求被評估機(jī)構(gòu)提供詳盡的研究產(chǎn)出列表,RAE/REF驅(qū)動了機(jī)構(gòu)完成本機(jī)構(gòu)學(xué)術(shù)產(chǎn)出的倉儲管理。機(jī)構(gòu)倉儲庫在研究評估中起著重要作用。
?用例7,其他用例。直接從國際知名數(shù)據(jù)庫,比如WoS或PubMed攝取元數(shù)據(jù),之后由作者補(bǔ)充相應(yīng)的全文。盡管這個過程應(yīng)包含在用例3中,但因為該過程較為特殊,所以單獨拿出來作為一種用例。
應(yīng)該說詳細(xì)的用例分析和倉儲建設(shè)者補(bǔ)充的用例極大豐富了倉儲庫建設(shè)過程中可能的相關(guān)者和合作者,筆者參與所做的用例分析納入了SONEX項目。在此后的實踐中每個用例有相應(yīng)的研究項目來保證在該用例下倉儲過程的有效實現(xiàn)。
3.2 重點用例分析
本文首先重點選擇分析出版者用例。BioMedCentral和Massachusetts Institute of Technology(MIT)圖書館共同開發(fā)了一個應(yīng)用系統(tǒng)來同步出版BioMedCentral’s Journals中的學(xué)術(shù)成果到MIT的數(shù)字倉儲庫DSpace@MIT中。這個系統(tǒng)為了保證同步的效果,使用了Simple Web―service Offering Repository Deposit(SWORD)協(xié)議,SWORD協(xié)議允許機(jī)構(gòu)倉儲庫接收BioMed Central的200多種期刊中最新出版的論文,不再需要著者重復(fù)在倉儲庫中提交論文。毫無疑問,SWORD極大地降低了倉儲的障礙,通過SWORD來倉儲是一個標(biāo)準(zhǔn)的過程,可以很方便地傳送元數(shù)據(jù)和全文。圖2顯示了BioMed Central’s SWORD倉儲服務(wù)的過程:
在這個過程中,可以看到文章一旦在BioMed Cen―tral Journal正式出版就通過SWORD輸入到機(jī)構(gòu)倉儲庫中,這個過程避免了著者多次重復(fù)提交自己文章到不同數(shù)據(jù)庫中的過程。同樣地,ISI―WoS也支持通過SWORD協(xié)議將機(jī)構(gòu)的篇名文摘信息傳送到指定的倉儲庫。SWORD協(xié)議是個重要的協(xié)議,如果更多的出版商采用這個協(xié)議,無疑將對倉儲庫的建設(shè)具有重大的意義
第二個重點分析的用例是用例1的詳細(xì)解決方案。OA-RJ項目目標(biāo)是支持開放的倉儲過程,通過建設(shè)一個倉儲代理系統(tǒng)來支持對已有倉儲數(shù)據(jù)庫的互操作。這個項目著重解決用例1中多服務(wù)機(jī)構(gòu)著者和多著者多機(jī)構(gòu)論文的倉儲問題以及用例4中出版者開放論文的獲取和倉儲問題。其中Repository Junction工具獲取和判斷機(jī)構(gòu)的信息,通過Broker方式將出版者或?qū)W科倉儲庫的相應(yīng)論文提交到相應(yīng)作者所在機(jī)構(gòu)的倉儲庫中。
Broker Service與出版商的數(shù)據(jù)庫、學(xué)科倉儲庫之間使用SWORD協(xié)議獲取相應(yīng)的數(shù)據(jù),Junction工具判斷機(jī)構(gòu)名稱時利用了Names項目的成果。OA-RJ工作的流程圖見圖3。
這個項目的基本工作流程為:用戶和內(nèi)容的發(fā)現(xiàn);獲取或攝取數(shù)據(jù)包(元數(shù)據(jù)+對象數(shù)據(jù));判斷數(shù)據(jù)應(yīng)倉儲到哪個目標(biāo)倉儲庫;重新打包倉儲相應(yīng)數(shù)據(jù)包到目標(biāo)倉儲庫;發(fā)送成功倉儲的消息給倉儲庫的管理者。在實現(xiàn)發(fā)現(xiàn)功能時,Junction工具基于大量的數(shù)據(jù)源和算法來分析論文和那個倉儲庫有關(guān)。而Broker的功能是根據(jù)junction傳送的信息從出版商或?qū)W科倉儲庫獲得數(shù)據(jù)并分別送入合適的機(jī)構(gòu)倉儲庫。數(shù)據(jù)傳送過程中可定制數(shù)據(jù)格式并通過SWORD協(xié)議傳送數(shù)據(jù)。
上面兩個項目只是眾多支持機(jī)構(gòu)倉儲項目中的兩個項目,根據(jù)初步統(tǒng)計在支持方便倉儲和協(xié)同方面的項目有20多項,來自英國、美國、德國、荷蘭等國。倉儲庫的建設(shè)將在這些項目的支持下走上方便和快速發(fā)展的道路。
4. 數(shù)字倉儲庫的發(fā)展趨向
在UKCORR-discussion@jiscmail.ac.uk討論組中,對倉儲庫的描述和定位有多種多樣,其中Dorothea Salo整理的一些意見具有一定代表性。比如美國的倉儲庫更多是開放的全文,英國更多是服務(wù)于研究評估,所以英國倉儲庫存儲了大量的元數(shù)據(jù)而缺少全文。來自University of Lancaster&Northampton的意見認(rèn)為因為CRIS系統(tǒng)的數(shù)據(jù)描述信息不準(zhǔn)確,IR必須得做成果列表。Oxford University的意見認(rèn)為IR過去是為了支持研究評估(RAE2008),現(xiàn)在應(yīng)更多地注重收集全文。Oxford/Bodleian的意見認(rèn)為IR的建設(shè)動機(jī)是數(shù)字資源保存,與REF是不同的。University of Warwick的意見認(rèn)為RAE/REF是支持IR發(fā)展的機(jī)會。University ofSouthampton的意見認(rèn)為IR系統(tǒng)應(yīng)能被允許嵌入REF或CRIS系統(tǒng)。University of Nottingham的意見是RAE/REF和IR應(yīng)該有不同的發(fā)展目標(biāo),IR中過低的全文 收集將影響OA的發(fā)展。
中國科學(xué)院國家科學(xué)圖書館大力推動的中國科學(xué)院機(jī)構(gòu)倉儲庫群,強(qiáng)調(diào)研究所保存智力成果的責(zé)任和科學(xué)家共建資源的責(zé)任,推動機(jī)構(gòu)倉儲庫的發(fā)展。在倉儲方式上也有考慮從其他渠道獲取元數(shù)據(jù)和全文資源。
Confederation of Open Access Repositories(COAR)2010年3月在馬德里召開了第一屆General Assembly會議(COAR成員單位現(xiàn)在有48家),討論推出了2010年12月前的工作計劃。11個議題中有兩個議題是關(guān)于數(shù)據(jù)的協(xié)同和交互的,其他包括倉儲庫的繼續(xù)推廣、最佳實踐指導(dǎo)文件、相關(guān)技術(shù)指引和提供、全球元數(shù)據(jù)倉庫以及與其他設(shè)施的合作和協(xié)同等。從會議的重點問題看,目前在倉儲庫建設(shè)中普遍關(guān)注的問題和趨向,一是重視全文的收集;二是重視成為RAE/REF的工具,重視與CRIS、REF系統(tǒng)形成良好的合作關(guān)系,并在某種程度上代替它們成為科研產(chǎn)出展示的工具。
數(shù)字倉儲庫的建設(shè)源自開放獲取活動,但倉儲庫在此后的發(fā)展中已超越了當(dāng)初開放獲取賦予倉儲庫的角色范疇,倉儲內(nèi)容從傳統(tǒng)的論文發(fā)展到教育資源、數(shù)據(jù)、倉儲非正式出版的報告以及開放源碼等。數(shù)字倉儲庫的服務(wù)也在Creative Commons下具有了新的活力,在教育科研過程中產(chǎn)生的智力成果只要作者授權(quán)都可以提供開放的訪問和獲取。同時倉儲庫也不僅僅是簡單的倉儲數(shù)據(jù)的過程,在有關(guān)新的倉儲建設(shè)項目和研究項目中,可以看出支持建設(shè)的重點不再僅僅是倉儲技術(shù)本身,而更加注重機(jī)構(gòu)的智力成果的管理和長期保存,關(guān)注智力成果的管理流程,注重在倉儲庫中收集各種類型的智力成果并有效保存。倉儲庫的建設(shè)目標(biāo)有了更多的內(nèi)涵,比如IR就代替其他工具更多地成為展示本機(jī)構(gòu)的科研產(chǎn)出和研究能力的平臺,成為一個機(jī)構(gòu)核心知識資產(chǎn)的管理平臺,成為一個機(jī)構(gòu)共享、知識交流學(xué)術(shù)和發(fā)布科研成果的學(xué)術(shù)空間。
Lynch C A關(guān)于IR的論述今天來看仍然有意義,大學(xué)或機(jī)構(gòu)的倉儲庫是支持本機(jī)構(gòu)數(shù)字資產(chǎn)的管理和分發(fā)的一套服務(wù),大學(xué)或研究機(jī)構(gòu)應(yīng)承擔(dān)對這些資產(chǎn)進(jìn)行長期有效保存、提供管理和獲取服務(wù)的責(zé)任。
倉儲庫的發(fā)展從技術(shù)完善走向?qū)嵺`,倉儲的對象主要就是原生的各種數(shù)字對象。倉儲庫的發(fā)展也將擺脫從單純文獻(xiàn)管理角度出發(fā)的倉儲建設(shè)方式。MichaelBuckland指出的在情報科學(xué)上存在兩種傳統(tǒng),文獻(xiàn)管理傳統(tǒng)偏重于文獻(xiàn)數(shù)據(jù)記錄的存檔、編目等,而計算傳統(tǒng)則重點發(fā)展數(shù)據(jù)計算、相關(guān)的計算算法和計算過程。在新的時代,倉儲庫不僅僅是數(shù)據(jù)記錄的管理和存儲,也開始偏向于數(shù)據(jù)計算,UK Repository Search項目應(yīng)用文本挖掘技術(shù)去發(fā)現(xiàn)相關(guān)的倉儲文章?梢灶A(yù)見在倉儲庫的建設(shè)上這兩種情報傳統(tǒng)將有機(jī)融合并向前發(fā)展。
相關(guān)熱詞搜索:倉儲 數(shù)字 發(fā)展 數(shù)字倉儲庫的發(fā)展 易庫倉儲 一庫倉儲
熱點文章閱讀