博客長期存取的國外研究與實踐|臨床醫(yī)學(xué)研究與實踐
發(fā)布時間:2020-03-07 來源: 感悟愛情 點擊:
[摘要]認(rèn)為博客同其它數(shù)字化資源一樣是人類的重要文化遺產(chǎn),在博客中有大量有價值的信息,由于作者的放棄、運營的不穩(wěn)定、服務(wù)的免責(zé)性及缺乏有效的保存策略面臨生存危機。論述國際組織和機構(gòu)在博客保存方面的探索和實踐以及在版權(quán)糾紛、技術(shù)障礙、成本核算和開放獲取等問題上的研究突破。
[關(guān)鍵詞]博客長期存取實踐
[分類號]G250
1、博客長期存取的危機
2007年12月底,國內(nèi)各大新聞網(wǎng)站爭相報道:《未來檔案:未來五十年歷史》的作者理察華琛在“滅絕時間表”中預(yù)言許多目前人們習(xí)以為常的事物或現(xiàn)象將消失,其中網(wǎng)絡(luò)日志將于2022年消失。博客已成為龐大的信息資源集散地,但博客資源在大量生成的同時,也正以驚人的速度死亡或消失。網(wǎng)絡(luò)信息的平均壽命為44-75天,博客的平均壽命只有38.2天,大量博客由于未制定歸檔保存策略處于自生自滅中。導(dǎo)致博客消失或死亡的原因有:
博客作者的放棄。當(dāng)寫博的熱情被有規(guī)律的更新任務(wù)拖累時,博主的熱情也許就會減少。CNNIC調(diào)查顯示,截至2007年11月底,中國博客作者規(guī)模達(dá)到4698.2萬人,只有36%的人會經(jīng)常更新博客。博客空間規(guī)模達(dá)到7282.2萬個,只有39.省略免費主機服務(wù)器的提供者Winer因租用站點的成本、將博客移至新服務(wù)器時技術(shù)上的困難及個人健康等問題關(guān)閉了Weblogs.Com,3 000多個用戶無法連接他們的博客。由于沒有預(yù)警,許多用戶都沒有機會去備份博客。雖然后來Winer將全部博客轉(zhuǎn)移到另一個服務(wù)器上,但博客被丟失的風(fēng)險仍然存在。
博客服務(wù)的免責(zé)性。大多數(shù)BSP博客軟件和服務(wù)器常常自帶歸檔功能,但只要看看服務(wù)條款就會發(fā)現(xiàn),對于博客服務(wù)的安全性和穩(wěn)定性,BSP并不承擔(dān)任何責(zé)任,甚至可以單方面修改和終止與用戶的合約。國內(nèi)圖情博客領(lǐng)域享有盛名的“數(shù)圖研究筆記”因BSP的種種不如意(包括刪掉評論、服務(wù)不穩(wěn)定等)一再搬遷,最終不得不“成為一個獨立博客,經(jīng)營自己的網(wǎng)站”。而MSN spages也常有將用戶“整個網(wǎng)站都刪除了”的記錄。
2、博客長期存取認(rèn)識上的演變
雖然人們對網(wǎng)絡(luò)資源長期保存的重要性已有認(rèn)識,但大多數(shù)人還沒有認(rèn)識到博客值得收集和保存,甚至還有人反對保存。如有信息技術(shù)專家認(rèn)為,“隨網(wǎng)絡(luò)產(chǎn)生的博客,如脫離生成環(huán)境,將喪失全部含義和背景”,在難以有效保存博客的情況下,根本就沒有必要保存。不過,也有先知先覺者意識到博客保存的重要性。2004年8月,CNI(Coalition for Networked Infor-mation)執(zhí)行主席Clifford A.Lynch在接受RLG(Re-search Library Group)“數(shù)字化和數(shù)字化保存”問題訪談時指出,博客和網(wǎng)站一樣重要,可能是思考、分析、指引興趣的極好源泉。博客的成功與否取決于內(nèi)容質(zhì)量,確實有許多值得保存的博客。
牛津大學(xué)和曼徹斯特大學(xué)圖書館聯(lián)合開展的“個人檔案數(shù)字化”項目認(rèn)為,電子郵件、網(wǎng)絡(luò)日志、博客等數(shù)字檔案比傳統(tǒng)檔案更難保存。傳統(tǒng)檔案往往在當(dāng)事人退休甚至死亡后才開始處理,只要進行簡單處理和適當(dāng)保存,紙本檔案幾乎可以毫無損害地保留給下一代。而包括博客在內(nèi)的原生數(shù)字資料的長期生存能力是不確定的,保存期內(nèi)的所有努力可能由于硬件、軟件和媒體的退化和過時而失敗。
國際組織和機構(gòu)對博客的認(rèn)識也在加深。2005年11月,聯(lián)合國教科文組織等機構(gòu)在海牙召開了“保護數(shù)字遺產(chǎn)”會議。麻省理工技術(shù)學(xué)院的WilliamUricchio指出,真正的挑戰(zhàn)是博客和多人參與的在線游戲等“社會媒介”資源,如構(gòu)成他們具體特性的相互作用能被充分搶救,對未來史學(xué)家將具有巨大意義。阿姆斯特丹大學(xué)的John Mackenzie Owen也認(rèn)為,網(wǎng)站、博客、討論組等新型網(wǎng)絡(luò)資源具有無邊界、動態(tài)性、交互性和零散性特點,為捕獲這種數(shù)字資源,需建立一個新型的遺產(chǎn)機構(gòu)作為博物館、圖書館和檔案館的補充。
2003年,法國、意大利、丹麥和英國的國家圖書館及美國國會圖書館發(fā)起成立了國際互聯(lián)網(wǎng)保護聯(lián)盟(IIPC),IIPC早期也未將博客作為特別的網(wǎng)站類型進行保存,直到最近才意識到博客的重要性。2008年5月,為共享Web資源采集和歸檔的經(jīng)驗和做法,IIPC決定建立一個新郵件組,第二個主題即是“如何采集和檢索blogs和Wikis”
SXSW(South by Southwest)在2006年3月年會上對討論組主題“數(shù)字化保存和博客”進行闡述時也指出:“早期的網(wǎng)頁和博客,正如早期的電影一樣,如不盡快開始保存,這種新媒介的早期大部分資源都將丟失,未來人們將只能依據(jù)幸存的碎片來認(rèn)識它!
3、博客長期存取的實踐探索
2003年之前,圖書館學(xué)界和檔案學(xué)界都未對博客長期存取作出特別研究和實踐,許多國家根據(jù)呈繳法開展的Web資源歸檔活動,也大都因太早沒有提及博客,一些網(wǎng)絡(luò)資源保存項目甚至將博客排除在外。
澳大利亞國家圖書館1996年啟動Pandora項目,與相關(guān)機構(gòu)合作建立Pandora檔案館,以確保澳大利亞網(wǎng)絡(luò)出版物及Web資源長期保存。在制定項目指導(dǎo)方案時認(rèn)為,最根本的原則是以澳大利亞為中心,歸檔時排除“數(shù)據(jù)庫、網(wǎng)上日報、論壇、聊天室、海報欄、博客”等。2003年,Pandora更新了“澳大利亞在線出版物:歸檔和保存選擇標(biāo)準(zhǔn)”,博客被繼續(xù)排除。所幸這一偏見逐步得到修正。2003年3月澳大利亞國家圖書館制定了《數(shù)字遺產(chǎn)保存指南》,將“機構(gòu)和個人的活動、交易和通訊等記錄”界定為新型數(shù)字遺產(chǎn),指出網(wǎng)絡(luò)日記和博客等由數(shù)字技術(shù)產(chǎn)生的動態(tài)、非正式的交互信息中,也許包含著重要的數(shù)字檔案。2005年8月Pandora再次更新了“澳大利亞在線出版物:歸檔和保存選擇標(biāo)準(zhǔn)”,雖未再排除博客,卻未對博客收集作出特別規(guī)定。2005年開始,Pandora嘗試進行了博客歸檔。
英國第一個公眾網(wǎng)絡(luò)信息保存計劃UKWAC由英國國家圖書館、國家檔案館、JISC、蘇格蘭國家圖書館、威爾士國家圖書館和韋爾科姆圖書館于2004年共同 開展,聯(lián)盟成員選擇和捕獲的與其館藏發(fā)展政策相關(guān)網(wǎng)站中就包括博客。UKWAC還歸檔一些可擴展某個新聞故事、事件或普遍性主題的網(wǎng)站,如婦女問題、英國鄉(xiāng)村、2004年印度洋海嘯等,博客也是聯(lián)盟歸檔的主題之一。UKWAC目前收集了37個博客,均由國家圖書館歸檔保存。
2006年10月17日,“英國的歷史事件運動”在全國舉辦了單日博客活動――“歷史上的這一天”,共有41 250個博主參賽。記錄這一天內(nèi)容的所有參賽博客組成一個社會歷史檔案收藏在國家圖書館的“Web檔案館”中。“我們希望這將是人民日常生活的詳細(xì)記錄”,歷史學(xué)家Dan Snow告訴BBC,“正是那些世俗的、枯燥的細(xì)節(jié),對幾百年后的人們非同尋常!睔v史研究學(xué)院的David Cannadine補充說:“未來的歷史學(xué)家們也許會感到驚訝,2006年10月17日我們竟然在吃肉或駕駛私人轎車”。
美國國會圖書館2000年開展的“電子資源虛擬檔案館”(MINERVA)是最初的Web站點歸檔實踐,歸檔站點包括美國政府、外國政府、政黨、媒體、宗教組織、支持團體、教育研究機構(gòu)和博客等。2003年3月,國會圖書館宣布開展網(wǎng)絡(luò)資源歸檔活動,目前正在開展的歸檔主題“2008年選舉”中包含了博客,已經(jīng)歸檔的主題2008年埃及、2006年、2002年選舉、9.11事件中也都有博客內(nèi)容。
互聯(lián)網(wǎng)檔案館是美國的非贏利性組織,定期收錄并永久保存全球網(wǎng)站上可以抓取的信息,現(xiàn)已保存1996年以來的550億份網(wǎng)頁,可免費、公開獲取。互聯(lián)網(wǎng)檔案館雖未明確表示要歸檔博客,但如果作者擔(dān)心失去博客,可向互聯(lián)網(wǎng)檔案館提出歸檔要求;ヂ(lián)網(wǎng)檔案館試圖對Web內(nèi)容進行全面采集,爬行器每隔幾個月采集一次。在該站點可以查詢到國內(nèi)部分博客的內(nèi)容,都屬于不完全保存。
新西蘭國家圖書館網(wǎng)頁歸檔項目開展較晚,因此將博客長期存取問題納入考慮范圍。他們認(rèn)為,保護新西蘭社會文化歷史是國家圖書館的法律權(quán)力和社會責(zé)任,無論歷史是以書籍、報紙、照片還是網(wǎng)站、博客形式存在。由IIPC發(fā)起、新西蘭和英國的國家圖書館聯(lián)合開展的網(wǎng)絡(luò)資源選擇性歸檔項目WCT(The Web Cu-rator Tool)2007年1月起在新西蘭國家圖書館運行。同年9月,WCT對新西蘭每三年一次的地方政府選舉進行了為期12周的集中采集,這是WCT收割的第一個主要事件及其嘗試收割的最大主題,共選擇了238個網(wǎng)站,包括候選人和政黨競選活動的網(wǎng)站和博客,城市和地區(qū)委員會網(wǎng)站,新聞?wù)军c,與選舉或地方政府相關(guān)的博客等。被選擇的網(wǎng)站都在新西蘭國家呈繳法范圍之內(nèi),無需再尋求明確的許可。
4、博客長期存取關(guān)鍵詞的突破
4.1版權(quán)糾紛
對于歸檔網(wǎng)頁(博客)可能遇到的版權(quán)糾紛,一些業(yè)已開展的項目都做了努力。如互聯(lián)網(wǎng)檔案館采集的網(wǎng)頁都可公開使用,對于需要密碼才能訪問、頁面標(biāo)記為“排斥機器人”、需用戶填寫表格后才能訪問、或存放在受保護服務(wù)器上的網(wǎng)頁均不會歸檔。如果網(wǎng)頁所有者希望網(wǎng)頁不被歸檔,也可要求從互聯(lián)網(wǎng)檔案館移走已歸檔的網(wǎng)頁,同時使用者必須遵守使用條款。
即使如此,互聯(lián)網(wǎng)檔案館還是遭遇到版權(quán)困擾。2007年3月,互聯(lián)網(wǎng)檔案館被美國科羅拉多州一婦女起訴,理由是她聲明了該網(wǎng)頁不能被收錄,但互聯(lián)網(wǎng)檔案館的爬蟲還是爬走了她的網(wǎng)頁。該婦女并不是以通用的Robot.txt方式做的聲明,而是在網(wǎng)站主頁頁腳注明“轉(zhuǎn)載或分發(fā)網(wǎng)站內(nèi)容意味著你已同意了我們的版權(quán)合同”,內(nèi)容包括只可在電腦上瀏覽,不可打印、不可復(fù)制等。雖然只在博客歸檔上做了一些嘗試,UK-WAC也意識到版權(quán)問題:當(dāng)用戶希望UKWAC存檔自己的網(wǎng)上電子資源(包括博客)時,需在線填寫一份表格,表格中的第5個問題“如果我們選擇您的資源,你會授予UKWAC許可歸檔您的資源嗎”為必填項,決定是否給予UKWAC歸檔資源的許可。
4.2技術(shù)障礙
現(xiàn)有的網(wǎng)絡(luò)資源長期保存項目對博客的采集大都由機器人定期跟蹤抓取,對于非主流BSP上的博客可能無法發(fā)現(xiàn)和識別;遇到機器人被拒絕、動態(tài)內(nèi)容、密碼保護、奇特的文件格式或錯誤編碼時,博客也很難被存檔。此外,博客是一種不斷變化與更新的動態(tài)資源,更新頻率亦不相同,如果采集期間服務(wù)器發(fā)生故障或關(guān)閉,歸檔活動也會失敗。如何根據(jù)BSP及博客特點確定采集頻率,是博客保存的一個技術(shù)難題。
博客和網(wǎng)上銀行帳戶、個人網(wǎng)站、數(shù)碼照片及PC文檔一樣,都被認(rèn)定為個人數(shù)字化資產(chǎn)。Catherine C.Marshall曾建議,個人存檔技術(shù)應(yīng)有機融入日常實踐,如有一個可自行處置的歸檔系統(tǒng),也許人們就會樂意進行個人存檔。這種理念在互聯(lián)網(wǎng)檔案館網(wǎng)頁歸檔活動中已經(jīng)實現(xiàn)。如果某個網(wǎng)站長時間未被互聯(lián)網(wǎng)檔案館收錄,網(wǎng)站所有者可通過“Alexa提交入口”提交網(wǎng)站,以提醒搜索引擎前往抓取網(wǎng)站數(shù)據(jù);蛲ㄟ^Alexa工具欄訪問自己的網(wǎng)站,Alexa將自動獲悉并將其添加到需訪問的網(wǎng)站清單。或在線填寫一份表格,輸入網(wǎng)址,點擊按鈕“抓取我的網(wǎng)站”,Alexa將在下次爬行時抓取該網(wǎng)站,這種歸檔方式對于博客非常方便,還可避免版權(quán)糾紛。
4.3成本核算
保存博客需要一定代價,難以作出合理估計。即使選擇有較高價值博客,保存的累計成本也較高。英國國家圖書館“電子文獻(xiàn)的生命周期”項目由國家圖書館和倫敦大學(xué)學(xué)院服務(wù)部聯(lián)合開展,獲得“數(shù)字資源長期保存聯(lián)”2007年“數(shù)字資源保存獎”。項目組2006年提交的報告指出,Web資源歸檔保存成本隨時間推移不斷增加,其1年、5年、lO年和20年的成本分別達(dá)到707英磅、3 449英磅、6 876英磅和13 731英磅。
雖然報告只針對Web資源歸檔成本進行研究,未特別計算博客保存成本,但UKWAC所開展的博客歸檔活動均是由英國國家圖書館網(wǎng)頁歸檔小組執(zhí)行,后者在開展案例研究時不會不考慮博客的成本模型。項目研究認(rèn)為Web資源歸檔成本包括獲取、攝入、元數(shù)據(jù)、檢索、存儲和長期保存,其歸檔流程和成本特性與博客歸檔并無二致。由于博客生命周期更短,來源更為復(fù)雜,攝取和采集過程中人工干預(yù)可能更多,其成本還會高于普通Web資源。
4.4開放獲取
提供利用是歸檔保存的目的,歸檔后的博客必須提供開放存取服務(wù)。博客利用模式包括簡單利用和綜合利用,前者通過再現(xiàn)博客原貌滿足用戶需求,后者通過知識挖掘和知識發(fā)現(xiàn),與保存機構(gòu)的現(xiàn)有資源進行整合,為用戶提供集成后的信息和服務(wù),最終實現(xiàn)博客長期存取的可持續(xù)性。
現(xiàn)有的網(wǎng)頁歸檔項目雖采集到一些博客,但在提供使用方面卻不盡如人意。許多博客一經(jīng)保存,只能按原址提供檢索,不能提供主題或關(guān)鍵詞檢索,有的由于未有效解決版權(quán)問題甚至還不能提供使用,無疑會影響博客長期保存的積極性。在這方面,UKWAC做了很好嘗試。一旦網(wǎng)站和博客已完成歸檔、編目和完整性檢查,就可在UKWAC網(wǎng)站中進行檢索。用戶可通過標(biāo)題字母檢索,或利用主題詞瀏覽歸檔后的網(wǎng)頁,搜索特定的地點和主題資源。
相關(guān)熱詞搜索:存取 實踐 長期 博客長期存取的國外研究與實踐 地理實踐力國外研究現(xiàn)狀 地理實踐力的培養(yǎng)
熱點文章閱讀