數(shù)字圖書館系統(tǒng) 數(shù)字圖書館知識組織系統(tǒng)熱點分析
發(fā)布時間:2020-03-07 來源: 幽默笑話 點擊:
[摘要]數(shù)字圖書館知識組織系統(tǒng)的構(gòu)建有賴于本體的開發(fā)與完善,從解決數(shù)字圖書館知識組織系統(tǒng)語義豐富度視角,對當(dāng)前學(xué)界對該領(lǐng)域熱點問題的研究狀況進(jìn)行分析,包括:本體構(gòu)建與復(fù)用,本體整合、語義分析與抽取、語義標(biāo)注以及語義互聯(lián)應(yīng)用。
[關(guān)鍵詞]數(shù)字圖書館 知識組織系統(tǒng) 領(lǐng)域本體
[分類號]G250.76
1 引言
數(shù)字圖書館(DL)是信息環(huán)境網(wǎng)絡(luò)化、數(shù)字化、知識化的產(chǎn)物,是國家信息基礎(chǔ)設(shè)施的核心。數(shù)字圖書館把知識作為工作對象,并且關(guān)注知識的應(yīng)用環(huán)境和應(yīng)用群體,因此,知識組織系統(tǒng)的構(gòu)建在數(shù)字圖書館建設(shè)中始終發(fā)揮著核心的作用。
從廣義理解,數(shù)字圖書館知識組織應(yīng)包括數(shù)字資源的知識組織系統(tǒng)的構(gòu)建、語義自豐富、語義互聯(lián)、互操作、術(shù)語服務(wù)等。
近年來,在我國圖書情報界,本體研究成為了數(shù)字圖書館知識組織系統(tǒng)構(gòu)建的一個熱點研究領(lǐng)域。目前為解決數(shù)字圖書館知識組織系統(tǒng)語義豐富度問題,本體構(gòu)建與復(fù)用、本體整合、語義分析與抽取、語義標(biāo)注以及語義互聯(lián)應(yīng)用成為學(xué)界研究的熱點和建設(shè)的重點(見圖1)。
2 研究現(xiàn)狀與熱點
2.1本體建模與復(fù)用研究
本體建模方法的研究對于本體的應(yīng)用有至關(guān)重要的作用。數(shù)字圖書館知識組織系統(tǒng)的構(gòu)建有賴于本體的開發(fā)與完善,本體的開發(fā)和完善是一個反復(fù)疊加的過程,不會一蹴而就。目前國內(nèi)外學(xué)者試圖從本體建模方法和開源本體的復(fù)用兩個方面進(jìn)行突破。
目前本體建模的研究已經(jīng)進(jìn)入實際應(yīng)用階段。許多研究領(lǐng)域都建立了自己標(biāo)準(zhǔn)的本體,但由于領(lǐng)域本體建設(shè)還沒有成熟的方法論作為指導(dǎo),目前提出的本體建模方法都是面向特定領(lǐng)域或針對具體的項目,而且都不是經(jīng)權(quán)威標(biāo)準(zhǔn)化機(jī)構(gòu)認(rèn)證的方法,這就導(dǎo)致各種本體建模方法的出現(xiàn)。如骨架法、企業(yè)建模法、循環(huán)獲取法和IDEF-5方法等。
本體復(fù)用已成為重要的課題,越來越多的應(yīng)用利用本體表示語義信息,因而如何支持本體復(fù)用變得愈加重要。本體復(fù)用主要有三種:①簡單地把整個源本體導(dǎo)入目標(biāo)本體Wppl,且僅用其中部分規(guī)則,而直接忽略其余規(guī)則;②僅“復(fù)制+粘貼”源本體規(guī)則的某子集到目標(biāo)本體Wppl為導(dǎo)人規(guī)則的子集;③把源本體分解成不同的模塊,根據(jù)相關(guān)標(biāo)準(zhǔn),僅導(dǎo)入需要的模塊。相比而言,第3種方法是最有發(fā)展前景的方法,目前的困難在于本體的模塊化還不很成熟,只提供了本體類的理論和算法。
W3C標(biāo)準(zhǔn)定義的OWL本體語言由一系列規(guī)則組成,包括類規(guī)則、屬性規(guī)則和實例規(guī)則。在如下導(dǎo)入相似性標(biāo)注的幫助下,OWL本體可以導(dǎo)入其他的OWL本體:
Annotation(ireports)
Annotation(imports)
導(dǎo)入標(biāo)注含有把兩個源本體導(dǎo)入目標(biāo)本體的規(guī)則。把本體概念加以擴(kuò)充,可以實現(xiàn)從源本體的類、屬性和實例的語義導(dǎo)入。本體復(fù)用需要評價已有本體與目標(biāo)本體之間的關(guān)聯(lián)性。共享和復(fù)用是本體的本質(zhì)要求,也是領(lǐng)域本體建設(shè)中很重要的問題。
2.2本體整合
本體整合是本體的語義和解釋范疇的問題。本體整合最初由SWAP(Semantic Web and Peer to peer)項目和SEKT(Semantically Enabled Knowledge Technolo―gies)提出,利用本體整合處理本體異質(zhì)(ontology heterogeneity)。Paolo Bouquet等人給出了本體異質(zhì)的詳細(xì)分析,指出在分布式和開放式系統(tǒng)中本體異質(zhì)是不可避免的,并根據(jù)本體異質(zhì)產(chǎn)生的原因?qū)⑵鋭澐譃?個層次:表示層、術(shù)語層、概念層和語義層。Paolo Bouquet等人還認(rèn)為:表示層的異質(zhì)可以通過翻譯成統(tǒng)一的本體表示語言來解決;術(shù)語層的異質(zhì)通過詞匯映射來解決;概念層異質(zhì)的解決需要通過對整個本體進(jìn)行考慮,查找不一致,進(jìn)行映射或合并;語義層的異質(zhì)可能存在著表示層、術(shù)語層、概念層異質(zhì),還可能存在語義關(guān)系上異質(zhì),目前還沒有很好的解決方法。
本體映射是本體整合的一個關(guān)鍵環(huán)節(jié),它通過一定的方法在已存在的不同本體間建立映射,以便在已存在的和新的領(lǐng)域之間進(jìn)行交流時有通用的接口和共同的理解。在現(xiàn)實應(yīng)用中,領(lǐng)域本體規(guī)模都很龐大,利用手工方式,進(jìn)行本體概念比對完成本體映射時繁瑣且易錯,因此是不可行的。目前國內(nèi)外研究者對自動化本體映射的方法和技術(shù)進(jìn)行了深入研究,其主要特性如表1所示:
從圖1可知:①映射方法上:大多數(shù)的本體映射方法是采用一對一集成,而一對多或者多對多的方法比較少,基本沒有多對多的本體集成工具出現(xiàn);②自動化程度上:本體映射無法實現(xiàn)自動化的本體映射,多是半自動化的;③計算方法上:比較單一(除了OntoMap之外);④映射性能上:受到本體構(gòu)建技術(shù)影響比較大。本體映射目前只能夠解決術(shù)語層和概念層的異質(zhì),還無法涉及到語義層的異質(zhì),如何解決語義層的異質(zhì)是當(dāng)前研究需要重點考慮的問題。
2.3語義分析與抽取
數(shù)字圖書館知識組織系統(tǒng)的構(gòu)建不僅是多種語義工具的互操作和集成,而且還應(yīng)實現(xiàn)這些語義工具的機(jī)器可處理和機(jī)器可理解。
國內(nèi)外學(xué)者對自然語言理解展開了深入研究。國外的語言學(xué)家、計算機(jī)學(xué)家、心理學(xué)家和邏輯學(xué)家在語法、句法、詞法、語義分析等方面提出了一系列理論及方法。這些理論和方法大致可歸為三大類:基于語法的分析法、基于語法與語義相結(jié)合的分析法和基于語義的分析法。國內(nèi)在理論研究方面尚不深入,但在漢語電子詞典、機(jī)器翻譯、漢語機(jī)讀語料庫、漢語人機(jī)對話、漢語情報檢索等應(yīng)用研究領(lǐng)域也有重大突破。
自然語言理解有賴于自然語言處理,自然語言處理的基礎(chǔ)是分詞技術(shù)。因為:一方面,詞是自然語言的基本單元;另一方面,計算機(jī)以機(jī)器詞典的形式存儲大部分自然語言知識,機(jī)器詞典中收錄了詞條的詞法、句法和語義知識,并在詞類知識基礎(chǔ)上編制句法規(guī)則。因此,自然語言處理系統(tǒng)必須對“詞”進(jìn)行識別和處理,才能理解和使用知識。
另外,由于漢語與其他語種不同,更需要自動分詞,國內(nèi)的許多機(jī)構(gòu)和學(xué)者對此展開了研究。梁南元定義了兩種基本的切分歧義類型,而黃昌寧、劉賓、殷建平、文庭孝、尹鋒、丁豐、劉開瑛等學(xué)者都進(jìn)行了分詞方法的研究和自動分詞系統(tǒng)的研究,可以歸納為基于詞典的分詞方法、基于統(tǒng)計的分詞方法、基于理解的分詞方法和基于人工智能的分詞方法。這些分詞方法各有其特點,分別代表著不同的發(fā)展方向。其中,基于人工智能的分詞方法是目前理論上最為理想的分詞方法,但是該類分詞方法的研究還處于初級階段,并且由于漢語自然語言復(fù)雜靈活,知識表示困難,所以對于這類分詞技術(shù)還需要進(jìn)行更深入和全面的研究。自動分詞系統(tǒng)研究成果主要有清華大學(xué)SEG分詞系統(tǒng)、復(fù)旦分詞系統(tǒng)、北京大學(xué)計算機(jī)研究分詞系 統(tǒng)和中國科學(xué)院ICTCLAS系統(tǒng)。另外,國內(nèi)學(xué)者開始重視語義和知識表示,并有意識地區(qū)別于英語自然語言理解的研究模式,尋找適合漢語自身的方法。黃曾陽的概念層次網(wǎng)絡(luò)(HNC,Hierar―chical Network of Concepts)理論和董振東的知網(wǎng)(How―Net)、東北大學(xué)和北京大學(xué)對WordNet的漢化等,都在努力探討適用于自然語言處理的新方法。
2.4語義標(biāo)注
語義標(biāo)注(semantic annotation)又稱本體標(biāo)注,即利用本體中定義概念、術(shù)語以及語義關(guān)系顯式地揭示和描述數(shù)據(jù)資源的語義。語義標(biāo)注面臨兩大類任務(wù):一是如何將當(dāng)前不計其數(shù)的普通萬維網(wǎng)頁面轉(zhuǎn)換為富含語義信息的語義頁面,這方面的研究主要集中在語義標(biāo)引工具和語義標(biāo)引平臺開發(fā);二是如何發(fā)布語義頁面,其核心就是分類標(biāo)引,它要求信息發(fā)布者在發(fā)布網(wǎng)絡(luò)信息時要盡量使用本體中定義的關(guān)系詞匯,同時還要顯式地表達(dá)出概念所歸屬的語義類別,這一任務(wù)也不可能依靠手工的方式完成。因此兩大任務(wù)都轉(zhuǎn)向本體標(biāo)注流程和本體自動標(biāo)注工具。研究者對本體標(biāo)注工具和語義標(biāo)引平臺進(jìn)行了深入研究,其中,語義標(biāo)引平臺為IE的實施、本體和知識的管理、APIs入口、存儲(RDF倉庫)及編輯本體和知識基礎(chǔ)的用戶接口提供了支持,F(xiàn)有的語義標(biāo)引平臺按照標(biāo)引方法的使用類型,大體上分為三類:①基于模式的標(biāo)引;②基于機(jī)器學(xué)習(xí)方面的標(biāo)引;③基于兩種方法融合的標(biāo)引。目前語義標(biāo)引平臺技術(shù)并不成熟,還不能完全滿足語義互聯(lián)的需要,究其原因主要是:①目前大部分標(biāo)引平臺是手動和半自動化的;②學(xué)習(xí)能力不是很強,不能通過自身的不斷學(xué)習(xí)以適應(yīng)不同狀態(tài)下的標(biāo)引和檢索的需要;③可擴(kuò)展性不夠強,不能完全無障礙地與用戶進(jìn)行交流,以完善自身的知識庫;④平臺需要統(tǒng)一各個用戶之間的標(biāo)引方式和提供的本體,以提高標(biāo)引精度。
2.5語義互聯(lián)應(yīng)用
2.5.1知識可視化知識可視化(knowledge visualiza―tion)是在科學(xué)計算可視化、數(shù)據(jù)可視化、信息可視化基礎(chǔ)上發(fā)展起來的新興研究領(lǐng)域,于2004年由Eppler和Burkard率先提出。它是指應(yīng)用視覺表征手段促進(jìn)群體知識的傳播與創(chuàng)新,包括所有可以用來建構(gòu)和傳達(dá)復(fù)雜知識的圖解手段,F(xiàn)階段,知識可視化的研究主要為兩個方向:
研究知識可視化的表現(xiàn)形式,包括知識可視化的基礎(chǔ)理論、知識的可視化表現(xiàn)圖的類型、適用范圍和效果。如武漢大學(xué)信息管理專業(yè)學(xué)者對此做了一系列研究,出版了《信息可視化與知識檢索》,從信息檢索結(jié)果提供、多媒體信息可視化方面進(jìn)行了綜述性的研究。
可視化的實現(xiàn),包括知識可視化的形式化模型和算法以及該理論模型和算法的實現(xiàn)系統(tǒng)軟件。比如對于思維導(dǎo)圖(mind map)現(xiàn)階段國外已經(jīng)有Mind Map Manager、Free Mind Map等應(yīng)用軟件。這個方向國內(nèi)研究的主力軍是北京師范大學(xué)知識工程研究中心,該中心開發(fā)了中文概念圖軟件易思一認(rèn)知助手(EasyThinking―Cognitive Assistant)軟件,2007年1月7日已發(fā)布3.0版,將概念圖、思維導(dǎo)圖和一般圖合而為一。
從國外知識可視化實踐進(jìn)展來看,澳大利亞的紐卡斯?fàn)柎髮W(xué)和皇家墨爾本大學(xué)的Bilal Succar進(jìn)行了信息可視化模型構(gòu)建的研究,在研究中設(shè)計了可視化知識模型和研究中所涉及領(lǐng)域的本體。歐洲學(xué)者對本體的可視化進(jìn)行研究,認(rèn)為信息可視化為本體校準(zhǔn)結(jié)果的評價提供了合適的方法。不同層次的細(xì)節(jié)和概論幫助用戶導(dǎo)航并理解校準(zhǔn),用戶對半結(jié)構(gòu)化資源的評價涉及到學(xué)習(xí)活動。馬來西亞普渡大學(xué)的學(xué)者設(shè)計了自動語義抽取系統(tǒng)(AME),可視化界面是該系統(tǒng)中的一部分,在設(shè)計可視化界面時他們發(fā)現(xiàn)用戶可以通過對概念網(wǎng)絡(luò)結(jié)果的可視化來將AME系統(tǒng)的利用擴(kuò)展到最大化。用戶可以搜索一個概念,并察看這個概念與其他概念之間的關(guān)系。這些關(guān)系可以通過“顯示文本”功能被追溯到原始文件中的來源句子。
2.5.2語義檢索20世紀(jì)80年代國際信息檢索大會SIGIR會議論文中就出現(xiàn)了對語義檢索的討論,但語義檢索研究始終受到語義信息處理發(fā)展水平的制約。上世紀(jì)末以來,隨著自然語言處理、人工智能的發(fā)展,尤其是語義網(wǎng)技術(shù)的興起與發(fā)展,語義檢索研究得以迅速發(fā)展。盡管到目前為止對語義檢索在概念上仍沒有統(tǒng)一的界定,但不同的研究卻有著共同之處,就是基于對信息資源的語義處理實現(xiàn)效率更高的檢索。目前語義檢索有兩種,即基于概念的語義檢索和基于本體的語義檢索。前者是根據(jù)概念詞典和關(guān)系數(shù)據(jù)庫構(gòu)建概念空間實現(xiàn)語義檢索,具有一定的語義處理能力和自然語言接口,但其概念庫中不包含概念間關(guān)系的描述,因此無法處理有關(guān)概念的問題;而后者是基于本體構(gòu)建概念空間,將本體融合到傳統(tǒng)信息檢索技術(shù)中,不僅可以繼承概念信息檢索的優(yōu)點,還可以克服概念信息檢索不能對概念關(guān)系進(jìn)行處理的局限。
2.5.3語義互操作數(shù)字圖書館知識組織系統(tǒng)互操作主要解決兩個問題:多語言和異構(gòu)。跨語言的互操作問題在美國和歐洲很受重視,美國數(shù)字圖書館先導(dǎo)研究計劃(Digital Library Initiative)中有許多是著眼于解決語義問題的,例如伊利諾斯(Illinois)大學(xué)主持的項目中關(guān)于概念空間與分類地圖的研究,伯克利(Berkeley)大學(xué)主持的項目中關(guān)于文字歧義消除的研究,卡內(nèi)基?梅隆(Carnegie Mellon)大學(xué)主持的項目中對于語音識別的研究以及加州大學(xué)圣塔巴巴拉分校關(guān)于圖像的分割與聚類的研究,主要集中于人工智能、統(tǒng)計規(guī)律識別技術(shù)等,都屬于語義研究或語義互操作范疇。歐洲相關(guān)的研究項目有MACS、Merimee、Renardus等,甚至嘗試自動建立中、英文詞表之間的映射。我國也有一些關(guān)于雙語數(shù)字圖書館知識組織系統(tǒng)互操作的研究,如《漢語主題詞表》與《美國國會圖書館標(biāo)題表》(LCSH)、本體之間的轉(zhuǎn)換研究、《中國圖書館圖書分類法》與杜威十進(jìn)制分類法(DDC)類目設(shè)置的比較、與DDC對照系統(tǒng)的研制等。
異構(gòu)數(shù)字圖書館系統(tǒng)間的互操作的目標(biāo)是實現(xiàn)不同系統(tǒng)間知識交換、共享與重用。這方面需要解決的問題是:①不同本體之間的互操作。本體雖然為DL的語義互操作提供了解決方案,但其本身也存在著異構(gòu)性,因此不同本體之間的互操作也是DL互操作的一個重要方面。②跨語言、跨文化的互操作。未來的DL將是聯(lián)邦數(shù)字圖書館。建立全球范圍的DL聯(lián)邦,需要解決跨語言、跨文化的互操作問題,其中包括比較復(fù)雜的語言翻譯問題。③DL的發(fā)現(xiàn)與安全性。實現(xiàn)全球范圍內(nèi)DL的互操作,需要解決DL的命名和動態(tài)發(fā)現(xiàn)。隨著DL逐步走向?qū)嵱没仨毧紤]DL互操作的安全問題。
要實現(xiàn)這一目標(biāo),必須在描述、檢索、對象交換與檢索協(xié)議等方面取得突破性的進(jìn)展。需要解決的問題包括元數(shù)據(jù)的定義和通過文本或多媒體數(shù)字對象抽取元數(shù)據(jù),數(shù)字對象的特征描述計算,具有不同語義的異構(gòu)資源庫的整合,信息的聚類和自動分類,自動排序、分級算法以及信息質(zhì)量、類型或其他屬性的自動評測等。
3 結(jié)語
隨著本體在數(shù)字圖書館知識組織系統(tǒng)中的深入應(yīng)用,如何解決本體建模與復(fù)用、本體整合、本體進(jìn)化和語義互操作問題已經(jīng)迫在眉睫。
理論方面,構(gòu)建面向數(shù)字資源組織的領(lǐng)域本體以取代傳統(tǒng)的知識組織工具,是當(dāng)前圖書情報學(xué)界研究的重點,看重的是本體所蘊含的豐富的語義關(guān)系和強大的推理功能,重視知識與信息的轉(zhuǎn)化、知識元的抽取與標(biāo)引、基于知識元鏈接的知識網(wǎng)絡(luò)的形成與應(yīng)用、知識結(jié)構(gòu)的學(xué)科分類與完整性以及知識倉庫和知識元數(shù)據(jù)庫的建設(shè)與應(yīng)用。實踐方面,對于數(shù)字圖書館知識組織工具的本體化改造成為領(lǐng)域的前沿和熱點,并已取得了一批重要成果:①使用本體對傳統(tǒng)知識組織工具進(jìn)行表示;②使用實例數(shù)據(jù)豐富現(xiàn)有的知識組織工具;③在已有知識組織工具的基礎(chǔ)上豐富其語義關(guān)系和結(jié)構(gòu),進(jìn)而建立本體。
誠然,關(guān)于本體構(gòu)建等問題仍存在客觀上的困難和問題。研究中發(fā)現(xiàn):知識結(jié)構(gòu)、知識內(nèi)容的復(fù)雜性和動態(tài)性、語義關(guān)系的豐富性、空間秩序的多維性是制約數(shù)字圖書館知識組織系統(tǒng)有效結(jié)構(gòu)化和應(yīng)用的瓶頸,尤其是富有語義信息的領(lǐng)域本體的匱乏是數(shù)字圖書館建設(shè)中的瓶徑,而領(lǐng)域本體構(gòu)建和復(fù)用效率不高、通用性不強限制了數(shù)字圖書館知識組織和知識服務(wù)深度與廣度。我們相信,隨著數(shù)字圖書館理論研究的深入與實踐的發(fā)展,對知識組織系統(tǒng)的研究也在不斷豐富、發(fā)展和完善之中。
相關(guān)熱詞搜索:熱點 數(shù)字圖書館 組織 數(shù)字圖書館知識組織系統(tǒng)熱點分析 世界知識產(chǎn)權(quán)數(shù)字圖書館 wipo知識產(chǎn)權(quán)數(shù)字圖書館
熱點文章閱讀