[數(shù)字資源收割工作的發(fā)展]數(shù)字資源建設(shè)與發(fā)展建議
發(fā)布時(shí)間:2020-03-07 來(lái)源: 短文摘抄 點(diǎn)擊:
[摘要]介紹各國(guó)數(shù)字資源收割技術(shù)的發(fā)展,如挪威、新加坡、丹麥等從法律上明確公共圖書(shū)館對(duì)數(shù)字資源進(jìn)行收割和保存的職責(zé);日本、韓國(guó)、美國(guó)等都各自開(kāi)發(fā)有對(duì)網(wǎng)絡(luò)資源爬行和抓取的工具軟件。并著重論述新西蘭國(guó)家圖書(shū)館與英國(guó)不列顛圖書(shū)館合作開(kāi)發(fā)Web CuratorTool,在收割質(zhì)量保障、保存格式、授權(quán)管理等方面優(yōu)點(diǎn)明顯,但在圖像資源收割及大規(guī)模任務(wù)執(zhí)行等方面還存在不足。
[關(guān)鍵詞]數(shù)字資源長(zhǎng)期保存 數(shù)字資源收割
[分類(lèi)號(hào)]G253
1 數(shù)字資源收割工作的現(xiàn)狀
當(dāng)今的數(shù)字資源將成為未來(lái)的科學(xué)史、文化史、社會(huì)史。正如我們從印刷資源中追溯文明一樣,后代將從被保存的數(shù)字資源中回顧和利用我們所創(chuàng)造的知識(shí),讓人類(lèi)可持續(xù)發(fā)展。數(shù)字資源長(zhǎng)期保存工作的意義不言而喻。
數(shù)字資源收割是數(shù)字資源長(zhǎng)期保存的第一步,近年來(lái),各國(guó)的數(shù)字資源的收割工作在制度、機(jī)構(gòu)和工具等各方面都有了長(zhǎng)足的發(fā)展。
1.1 數(shù)字資源收割的相關(guān)制度
挪威于1990年生效的《保存本法》所規(guī)定的國(guó)家圖書(shū)館收割和保存范圍涵蓋了網(wǎng)絡(luò)電子出版物,并提供了具體實(shí)施規(guī)章。
新加坡于1995年通過(guò)了“新加坡國(guó)家圖書(shū)館管理局法案”(NLB Act),規(guī)定在法定的呈繳框架下,電子或聯(lián)機(jī)形式傳播的出版物不論是否已通過(guò)網(wǎng)頁(yè)內(nèi)容收割和存檔,都須向管理局呈繳兩份復(fù)本。
丹麥于2000年出臺(tái)的第340號(hào)法案規(guī)定了公共圖書(shū)館收割、保存和提供包括因特網(wǎng)與多媒體在內(nèi)的電子信息的職能。
澳大利亞聯(lián)邦于2006年修正的著作權(quán)法案(Amendments t0 the Copyright Act)第40條和41條,對(duì)圖書(shū)館的數(shù)字收割和保存活動(dòng)給予了重視與支持。
英國(guó)國(guó)家圖書(shū)館正建議國(guó)家立法,不限制數(shù)字資源的自動(dòng)獲取,支持以保存為目的繳送和復(fù)制,并涵蓋有可能增加的各種介質(zhì)出版物。
德國(guó)的國(guó)家存檔項(xiàng)目Nestor正建議修改《呈繳本法》,要求法律支持?jǐn)?shù)字資源副本的創(chuàng)建和修改權(quán),取消由DRM提出的限。
1.2 數(shù)字資源收割的執(zhí)行機(jī)構(gòu)
目前進(jìn)行數(shù)字資源收割和保存的執(zhí)行機(jī)構(gòu)主要是各國(guó)的國(guó)家圖書(shū)館,但除此之外,許多政府、文化與科研機(jī)構(gòu)及聯(lián)盟也成為了重要力量。
澳大利亞的PANDORA項(xiàng)目以國(guó)家圖書(shū)館為核心,參與機(jī)構(gòu)包括國(guó)家聲像檔案館、戰(zhàn)爭(zhēng)紀(jì)念館、原住民及托雷斯海峽居民研究協(xié)會(huì)、澳大利亞可持續(xù)知識(shí)倉(cāng)儲(chǔ)伙伴計(jì)劃(APSR)中的聯(lián)盟成員等。
德國(guó)國(guó)家圖書(shū)館組建了數(shù)字資源長(zhǎng)期保存專(zhuān)業(yè)技術(shù)網(wǎng),參與的組織除幾所大學(xué)圖書(shū)館外還包括柏林博物館信息協(xié)會(huì)和巴伐利亞州檔案館。
互聯(lián)網(wǎng)檔案組織(Internet Archive,IA)由美國(guó)國(guó)會(huì)圖書(shū)館和Smithsonian組織共同構(gòu)成,以為后代保存稍縱即逝的、具有歷史性重大意義的“原生”互聯(lián)網(wǎng)資源為目的。
澳大利亞、加拿大、丹麥、芬蘭、法國(guó)、冰島、意大利、挪威、瑞典等國(guó)的國(guó)家圖書(shū)館,英國(guó)不列顛圖書(shū)館,美國(guó)國(guó)會(huì)圖書(shū)館和IA等機(jī)構(gòu)共同建立了國(guó)際網(wǎng)絡(luò)資源保存社團(tuán)(International Internct Preservation Consorti―um,IIPC),鼓勵(lì)和支持利用通用工具、技術(shù)與標(biāo)準(zhǔn)建設(shè)國(guó)際檔案館(international archives),并資助相關(guān)研究項(xiàng)目。
1.3 數(shù)字資源收割的工具
2006年,在WARP項(xiàng)目(Web Archiving Project)中,日本國(guó)會(huì)圖書(shū)館開(kāi)發(fā)了一個(gè)須版權(quán)人授權(quán)的網(wǎng)頁(yè)爬行機(jī)器人進(jìn)行網(wǎng)絡(luò)資源收割。主要收割對(duì)象是網(wǎng)站,其次是在線(xiàn)期刊和城鎮(zhèn)農(nóng)村信息資源。
2008年,韓國(guó)國(guó)家圖書(shū)館在OASIS計(jì)劃(Online Archiving&Searching Internet Sources)中進(jìn)行網(wǎng)絡(luò)數(shù)字資源的收割和保存。目前的收割對(duì)象主要為兩類(lèi):網(wǎng)站和其他單獨(dú)網(wǎng)頁(yè)數(shù)字資源。
新加坡國(guó)家圖書(shū)館管理局從2006年開(kāi)始啟動(dòng)了收割互聯(lián)網(wǎng)中所有與新加坡有關(guān)的網(wǎng)頁(yè)內(nèi)容計(jì)劃。2007年,該局建設(shè)并使用了一個(gè)自助提交系統(tǒng),出版者可以在網(wǎng)絡(luò)上直接提交數(shù)字出版物。
澳大利亞PANDORA項(xiàng)目開(kāi)發(fā)了PANDAS系統(tǒng),與IA協(xié)作進(jìn)行大規(guī)模地域收割活動(dòng),已完成兩次大規(guī)模的資源“爬行”,主要抓取采用.au頂級(jí)域名的網(wǎng)頁(yè)資源。
2006年,美國(guó)國(guó)會(huì)圖書(shū)館開(kāi)通了直接隸屬于國(guó)家數(shù)字信息基礎(chǔ)設(shè)施和保存計(jì)劃(NDIIPP)的網(wǎng)頁(yè)抓取項(xiàng)目,使用IA專(zhuān)門(mén)設(shè)計(jì)的開(kāi)發(fā)源代碼爬蟲(chóng)軟件Heri―trix進(jìn)行網(wǎng)頁(yè)收割。
2 新西蘭的數(shù)字資源收割工作
2.1 相關(guān)制度和機(jī)構(gòu)
新西蘭于1965年出臺(tái)了136號(hào)法令――《新西蘭國(guó)家圖書(shū)館法》,并在1971―2003年間進(jìn)行了多次補(bǔ)充和修訂,對(duì)國(guó)家圖書(shū)館進(jìn)行數(shù)字資源收割與保存的職責(zé)及權(quán)利提供了法律支持。
2.省略站點(diǎn)下載。新西蘭國(guó)家圖書(shū)館使用WCT的硬件系統(tǒng)是Sun SPARC servers,操作系統(tǒng)是Solaris,數(shù)據(jù)庫(kù)管理系統(tǒng)是Oracle,網(wǎng)絡(luò)服務(wù)系統(tǒng)是Apache HTrP Server and Tomcat,用戶(hù)識(shí)別系統(tǒng)是Novell e―Directory。整個(gè)軟件系統(tǒng)被布署在兩個(gè)服務(wù)器上:一個(gè)服務(wù)器用作核心指令艙(core module);另一個(gè)用作收割器(harvest―er)。
WCT工作系統(tǒng)的主菜單上共包括9個(gè)功能模塊,如圖1所示:
In Tray:總覽模塊。Harvest Authorisations:收割授權(quán)模塊。Targets:收割對(duì)象管理模塊,負(fù)責(zé)管理收割任務(wù)時(shí)間表。Target Instances:收割對(duì)象列表模塊。Groups:收割對(duì)象分組模塊,通過(guò)比較元數(shù)據(jù)信息、對(duì)同類(lèi)資源進(jìn)行成批收割。Permission Request Tem―plates:收割許可請(qǐng)求生成模塊。Reports:報(bào)告生成模塊。Harvest Configuration:收割設(shè)置模塊,負(fù)責(zé)依據(jù)時(shí) 作界面可列出輔助評(píng)估的數(shù)據(jù)清單,包括:概述信息、起始日期、已下載數(shù)據(jù)、獲取成功的和失敗的URL,共用時(shí)間與當(dāng)前狀態(tài)等。WCT還可提供多個(gè)窗口,以對(duì)比收割結(jié)果和該資源的原始版本及其他版本間的差異,使得評(píng)估更直觀(guān)、有效。2007年,新西蘭國(guó)家圖書(shū)館共進(jìn)行了1249項(xiàng)收割任務(wù),其中953(76%)項(xiàng)完成了收割并經(jīng)評(píng)估被認(rèn)可后保存,69(6%)項(xiàng)未完成收 割,224(18%)件收割結(jié)果未通過(guò)評(píng)估被拒絕保存。
2.4.2 不斷改進(jìn)適宜被長(zhǎng)期保存的數(shù)據(jù)格式新西蘭國(guó)家圖書(shū)館早在1999年就已開(kāi)始進(jìn)行程控Web資源收割,在2006年底以前一直使用的收割工具是:HT―Track Website Copier。長(zhǎng)期以來(lái),HTTrack對(duì)MARC格式的網(wǎng)絡(luò)資源數(shù)據(jù)庫(kù)進(jìn)行資源選擇和獲取,累積性地遺留了海量的無(wú)法被長(zhǎng)期保存的數(shù)據(jù),目前正依靠數(shù)據(jù)遷移技術(shù)對(duì)這部分資源進(jìn)行格式轉(zhuǎn)化處理。2007年,新西蘭國(guó)家圖書(shū)館開(kāi)始使用WCT,其顯著的不同在于:使用ARC文檔格式輸出收割結(jié)果,ARC以“分要素層存放數(shù)據(jù)”為特征,這種格式使得長(zhǎng)期保存工作更為方便和有效。
2.4.3 通過(guò)建立各環(huán)節(jié)間的溝通機(jī)制提高收割效率WCT的設(shè)計(jì)充分考慮了過(guò)去類(lèi)似軟件在各環(huán)節(jié)工作間存在的鴻溝(gap),設(shè)計(jì)了加強(qiáng)整個(gè)工作流程整體性的各環(huán)節(jié)交流機(jī)制。例如,規(guī)定評(píng)估環(huán)節(jié)每周向描述環(huán)節(jié)提交報(bào)告,以提示資源描述需求、預(yù)告技術(shù)層對(duì)資源數(shù)量和大小的后續(xù)要求。
2.4.4 收割任務(wù)規(guī)模有限WCT還不能同時(shí)進(jìn)行多項(xiàng)(大于8項(xiàng))收割工作,也不能勝任對(duì)大規(guī)模網(wǎng)站資源的收割任務(wù)。目前已成功完成的最大的一次收割任務(wù)數(shù)據(jù)量是10G,新西蘭國(guó)家圖書(shū)館曾嘗試過(guò)一次21G的收割任務(wù),但收割結(jié)果未通過(guò)評(píng)估。
2.4.5 圖形資源收割能力不足對(duì)于用Javascript建設(shè)的網(wǎng)站圖像資源,WCT在收割后難于對(duì)其圖像要素(如下拉菜單)進(jìn)行導(dǎo)航加工,也難以收割深植(embeded)的背景圖像(background images)。WCT圖像收割能力的提高將依賴(lài)于當(dāng)代圖像傳輸和處理技術(shù)的全面提升。
3 新西蘭國(guó)家圖書(shū)館數(shù)字資源收割工作的參考意義
3.1 以應(yīng)用集成的方式實(shí)現(xiàn)機(jī)構(gòu)間分工合作
新西蘭國(guó)家圖書(shū)館與新西蘭維多利亞大學(xué)(新西蘭唯一開(kāi)設(shè)圖書(shū)館學(xué)與信息學(xué)專(zhuān)業(yè)的大學(xué))、新西蘭電子文本中心聯(lián)合構(gòu)建“收割結(jié)果評(píng)估工具”(Quality Review Tools),并以在線(xiàn)鏈接的方式實(shí)現(xiàn)輔助工具的遠(yuǎn)程調(diào)用(見(jiàn)圖6),充分實(shí)現(xiàn)了分布式應(yīng)用的集成。我國(guó)的相關(guān)機(jī)構(gòu)(如國(guó)家圖書(shū)館、國(guó)家檔案館、中國(guó)科學(xué)院、教育部、科技部等)也可以組建“協(xié)作鏈”,實(shí)現(xiàn)技術(shù)上的合作攻關(guān)、工作環(huán)節(jié)的分布式操作、經(jīng)費(fèi)支持上的合理分配。
3.2 建立和依據(jù)數(shù)字資源呈繳制度
新西蘭以及新加坡、丹麥、挪威等國(guó)在數(shù)字資源呈繳制度方面成為了先行者,以法規(guī)形式規(guī)定了圖書(shū)館負(fù)責(zé)該國(guó)數(shù)字資源長(zhǎng)期保存的職責(zé)和權(quán)利,并建立了國(guó)家層面上的數(shù)字資源呈繳框架與信息存檔體系,值得我國(guó)借鑒。
3.3 健全收割授權(quán)管理避免版權(quán)糾紛
WCT的“獲取版權(quán)許可”工作環(huán)節(jié),有效地保障了整個(gè)收割過(guò)程的版權(quán)合法性。而我國(guó)現(xiàn)階段的一些網(wǎng)絡(luò)資源收割活動(dòng),仍采用先侵權(quán)后處理的工作方式,為日后的知識(shí)產(chǎn)權(quán)糾紛埋下了巨大隱患。WCT通過(guò)主動(dòng)請(qǐng)求版權(quán)許可,防患于未然,使長(zhǎng)期保存工作可持續(xù),是可學(xué)習(xí)的模式。
4 結(jié)語(yǔ)
保存人類(lèi)記憶,傳承社會(huì)政治、經(jīng)濟(jì)、科技、文化的整體圖像,是圖書(shū)館的社會(huì)職責(zé)和歷史任務(wù)。新西蘭國(guó)家圖書(shū)館在國(guó)家法律授權(quán)前提下,應(yīng)用WCT自動(dòng)收割來(lái)自網(wǎng)絡(luò)圖書(shū)、網(wǎng)絡(luò)報(bào)紙、網(wǎng)站、網(wǎng)頁(yè)、博客和各種數(shù)字媒體的各類(lèi)數(shù)字信息,捕獲并再現(xiàn)資源原有的整體性與真實(shí)性,并保證版權(quán)的合法性,這種做法值得我國(guó)數(shù)字資源長(zhǎng)期保存工作者借鑒。
相關(guān)熱詞搜索:收割 數(shù)字 發(fā)展 數(shù)字資源收割工作的發(fā)展 數(shù)字資源整合的發(fā)展與實(shí)踐 數(shù)字化部部門(mén)工作規(guī)劃匯報(bào)
熱點(diǎn)文章閱讀