數(shù)字圖書館系統(tǒng) 數(shù)字圖書館知識組織系統(tǒng)熱點分析

發(fā)布時間:2020-03-07 來源: 幽默笑話點擊：

　　[摘要]數(shù)字圖書館知識組織系統(tǒng)的構(gòu)建有賴于本體的開發(fā)與完善，從解決數(shù)字圖書館知識組織系統(tǒng)語義豐富度視角，對當(dāng)前學(xué)界對該領(lǐng)域熱點問題的研究狀況進(jìn)行分析，包括：本體構(gòu)建與復(fù)用，本體整合、語義分析與抽取、語義標(biāo)注以及語義互聯(lián)應(yīng)用。
　　[關(guān)鍵詞]數(shù)字圖書館　知識組織系統(tǒng)　領(lǐng)域本體
　　[分類號]G250.76
　　
　　1　引言
　　
　　數(shù)字圖書館(DL)是信息環(huán)境網(wǎng)絡(luò)化、數(shù)字化、知識化的產(chǎn)物，是國家信息基礎(chǔ)設(shè)施的核心。數(shù)字圖書館把知識作為工作對象，并且關(guān)注知識的應(yīng)用環(huán)境和應(yīng)用群體，因此，知識組織系統(tǒng)的構(gòu)建在數(shù)字圖書館建設(shè)中始終發(fā)揮著核心的作用。
　　從廣義理解，數(shù)字圖書館知識組織應(yīng)包括數(shù)字資源的知識組織系統(tǒng)的構(gòu)建、語義自豐富、語義互聯(lián)、互操作、術(shù)語服務(wù)等。
　　
　　近年來，在我國圖書情報界，本體研究成為了數(shù)字圖書館知識組織系統(tǒng)構(gòu)建的一個熱點研究領(lǐng)域。目前為解決數(shù)字圖書館知識組織系統(tǒng)語義豐富度問題，本體構(gòu)建與復(fù)用、本體整合、語義分析與抽取、語義標(biāo)注以及語義互聯(lián)應(yīng)用成為學(xué)界研究的熱點和建設(shè)的重點(見圖1)。
　　
　　2　研究現(xiàn)狀與熱點
　　
　　2.1本體建模與復(fù)用研究
　　本體建模方法的研究對于本體的應(yīng)用有至關(guān)重要的作用。數(shù)字圖書館知識組織系統(tǒng)的構(gòu)建有賴于本體的開發(fā)與完善，本體的開發(fā)和完善是一個反復(fù)疊加的過程，不會一蹴而就。目前國內(nèi)外學(xué)者試圖從本體建模方法和開源本體的復(fù)用兩個方面進(jìn)行突破。
　　目前本體建模的研究已經(jīng)進(jìn)入實際應(yīng)用階段。許多研究領(lǐng)域都建立了自己標(biāo)準(zhǔn)的本體，但由于領(lǐng)域本體建設(shè)還沒有成熟的方法論作為指導(dǎo)，目前提出的本體建模方法都是面向特定領(lǐng)域或針對具體的項目，而且都不是經(jīng)權(quán)威標(biāo)準(zhǔn)化機(jī)構(gòu)認(rèn)證的方法，這就導(dǎo)致各種本體建模方法的出現(xiàn)。如骨架法、企業(yè)建模法、循環(huán)獲取法和IDEF-5方法等。
　　本體復(fù)用已成為重要的課題，越來越多的應(yīng)用利用本體表示語義信息，因而如何支持本體復(fù)用變得愈加重要。本體復(fù)用主要有三種：①簡單地把整個源本體導(dǎo)入目標(biāo)本體Wppl，且僅用其中部分規(guī)則，而直接忽略其余規(guī)則；②僅“復(fù)制+粘貼”源本體規(guī)則的某子集到目標(biāo)本體Wppl為導(dǎo)人規(guī)則的子集；③把源本體分解成不同的模塊，根據(jù)相關(guān)標(biāo)準(zhǔn)，僅導(dǎo)入需要的模塊。相比而言，第3種方法是最有發(fā)展前景的方法，目前的困難在于本體的模塊化還不很成熟，只提供了本體類的理論和算法。
　　W3C標(biāo)準(zhǔn)定義的OWL本體語言由一系列規(guī)則組成，包括類規(guī)則、屬性規(guī)則和實例規(guī)則。在如下導(dǎo)入相似性標(biāo)注的幫助下，OWL本體可以導(dǎo)入其他的OWL本體：
　　Annotation(ireports)
　　Annotation(imports)
　　導(dǎo)入標(biāo)注含有把兩個源本體導(dǎo)入目標(biāo)本體的規(guī)則。把本體概念加以擴(kuò)充，可以實現(xiàn)從源本體的類、屬性和實例的語義導(dǎo)入。本體復(fù)用需要評價已有本體與目標(biāo)本體之間的關(guān)聯(lián)性。共享和復(fù)用是本體的本質(zhì)要求，也是領(lǐng)域本體建設(shè)中很重要的問題。
　　
　　2.2本體整合
　　本體整合是本體的語義和解釋范疇的問題。本體整合最初由SWAP(Semantic Web and Peer to peer)項目和SEKT(Semantically Enabled Knowledge Technolo―gies)提出，利用本體整合處理本體異質(zhì)(ontology heterogeneity)。Paolo Bouquet等人給出了本體異質(zhì)的詳細(xì)分析，指出在分布式和開放式系統(tǒng)中本體異質(zhì)是不可避免的，并根據(jù)本體異質(zhì)產(chǎn)生的原因?qū)⑵鋭澐譃?個層次：表示層、術(shù)語層、概念層和語義層。Paolo Bouquet等人還認(rèn)為：表示層的異質(zhì)可以通過翻譯成統(tǒng)一的本體表示語言來解決；術(shù)語層的異質(zhì)通過詞匯映射來解決；概念層異質(zhì)的解決需要通過對整個本體進(jìn)行考慮，查找不一致，進(jìn)行映射或合并；語義層的異質(zhì)可能存在著表示層、術(shù)語層、概念層異質(zhì)，還可能存在語義關(guān)系上異質(zhì)，目前還沒有很好的解決方法。
　　本體映射是本體整合的一個關(guān)鍵環(huán)節(jié)，它通過一定的方法在已存在的不同本體間建立映射，以便在已存在的和新的領(lǐng)域之間進(jìn)行交流時有通用的接口和共同的理解。在現(xiàn)實應(yīng)用中，領(lǐng)域本體規(guī)模都很龐大，利用手工方式，進(jìn)行本體概念比對完成本體映射時繁瑣且易錯，因此是不可行的。目前國內(nèi)外研究者對自動化本體映射的方法和技術(shù)進(jìn)行了深入研究，其主要特性如表1所示：
　　從圖1可知：①映射方法上：大多數(shù)的本體映射方法是采用一對一集成，而一對多或者多對多的方法比較少，基本沒有多對多的本體集成工具出現(xiàn)；②自動化程度上：本體映射無法實現(xiàn)自動化的本體映射，多是半自動化的；③計算方法上：比較單一(除了OntoMap之外)；④映射性能上：受到本體構(gòu)建技術(shù)影響比較大。本體映射目前只能夠解決術(shù)語層和概念層的異質(zhì)，還無法涉及到語義層的異質(zhì)，如何解決語義層的異質(zhì)是當(dāng)前研究需要重點考慮的問題。
　　
　　2.3語義分析與抽取
　　數(shù)字圖書館知識組織系統(tǒng)的構(gòu)建不僅是多種語義工具的互操作和集成，而且還應(yīng)實現(xiàn)這些語義工具的機(jī)器可處理和機(jī)器可理解。
　　國內(nèi)外學(xué)者對自然語言理解展開了深入研究。國外的語言學(xué)家、計算機(jī)學(xué)家、心理學(xué)家和邏輯學(xué)家在語法、句法、詞法、語義分析等方面提出了一系列理論及方法。這些理論和方法大致可歸為三大類：基于語法的分析法、基于語法與語義相結(jié)合的分析法和基于語義的分析法。國內(nèi)在理論研究方面尚不深入，但在漢語電子詞典、機(jī)器翻譯、漢語機(jī)讀語料庫、漢語人機(jī)對話、漢語情報檢索等應(yīng)用研究領(lǐng)域也有重大突破。
　　自然語言理解有賴于自然語言處理，自然語言處理的基礎(chǔ)是分詞技術(shù)。因為：一方面，詞是自然語言的基本單元；另一方面，計算機(jī)以機(jī)器詞典的形式存儲大部分自然語言知識，機(jī)器詞典中收錄了詞條的詞法、句法和語義知識，并在詞類知識基礎(chǔ)上編制句法規(guī)則。因此，自然語言處理系統(tǒng)必須對“詞”進(jìn)行識別和處理，才能理解和使用知識。
　　另外，由于漢語與其他語種不同，更需要自動分詞，國內(nèi)的許多機(jī)構(gòu)和學(xué)者對此展開了研究。梁南元定義了兩種基本的切分歧義類型，而黃昌寧、劉賓、殷建平、文庭孝、尹鋒、丁豐、劉開瑛等學(xué)者都進(jìn)行了分詞方法的研究和自動分詞系統(tǒng)的研究，可以歸納為基于詞典的分詞方法、基于統(tǒng)計的分詞方法、基于理解的分詞方法和基于人工智能的分詞方法。這些分詞方法各有其特點，分別代表著不同的發(fā)展方向。其中，基于人工智能的分詞方法是目前理論上最為理想的分詞方法，但是該類分詞方法的研究還處于初級階段，并且由于漢語自然語言復(fù)雜靈活，知識表示困難，所以對于這類分詞技術(shù)還需要進(jìn)行更深入和全面的研究。自動分詞系統(tǒng)研究成果主要有清華大學(xué)SEG分詞系統(tǒng)、復(fù)旦分詞系統(tǒng)、北京大學(xué)計算機(jī)研究分詞系統(tǒng)和中國科學(xué)院ICTCLAS系統(tǒng)。另外，國內(nèi)學(xué)者開始重視語義和知識表示，并有意識地區(qū)別于英語自然語言理解的研究模式，尋找適合漢語自身的方法。黃曾陽的概念層次網(wǎng)絡(luò)(HNC，Hierar―chical Network of Concepts)理論和董振東的知網(wǎng)(How―Net)、東北大學(xué)和北京大學(xué)對WordNet的漢化等，都在努力探討適用于自然語言處理的新方法。
　　
　　2.4語義標(biāo)注
　　語義標(biāo)注(semantic annotation)又稱本體標(biāo)注，即利用本體中定義概念、術(shù)語以及語義關(guān)系顯式地揭示和描述數(shù)據(jù)資源的語義。語義標(biāo)注面臨兩大類任務(wù)：一是如何將當(dāng)前不計其數(shù)的普通萬維網(wǎng)頁面轉(zhuǎn)換為富含語義信息的語義頁面，這方面的研究主要集中在語義標(biāo)引工具和語義標(biāo)引平臺開發(fā)；二是如何發(fā)布語義頁面，其核心就是分類標(biāo)引，它要求信息發(fā)布者在發(fā)布網(wǎng)絡(luò)信息時要盡量使用本體中定義的關(guān)系詞匯，同時還要顯式地表達(dá)出概念所歸屬的語義類別，這一任務(wù)也不可能依靠手工的方式完成。因此兩大任務(wù)都轉(zhuǎn)向本體標(biāo)注流程和本體自動標(biāo)注工具。研究者對本體標(biāo)注工具和語義標(biāo)引平臺進(jìn)行了深入研究，其中，語義標(biāo)引平臺為IE的實施、本體和知識的管理、APIs入口、存儲(RDF倉庫)及編輯本體和知識基礎(chǔ)的用戶接口提供了支持�，F(xiàn)有的語義標(biāo)引平臺按照標(biāo)引方法的使用類型，大體上分為三類：①基于模式的標(biāo)引；②基于機(jī)器學(xué)習(xí)方面的標(biāo)引；③基于兩種方法融合的標(biāo)引。目前語義標(biāo)引平臺技術(shù)并不成熟，還不能完全滿足語義互聯(lián)的需要，究其原因主要是：①目前大部分標(biāo)引平臺是手動和半自動化的；②學(xué)習(xí)能力不是很強，不能通過自身的不斷學(xué)習(xí)以適應(yīng)不同狀態(tài)下的標(biāo)引和檢索的需要；③可擴(kuò)展性不夠強，不能完全無障礙地與用戶進(jìn)行交流，以完善自身的知識庫；④平臺需要統(tǒng)一各個用戶之間的標(biāo)引方式和提供的本體，以提高標(biāo)引精度。
　　
　　2.5語義互聯(lián)應(yīng)用
　　2.5.1知識可視化知識可視化(knowledge visualiza―tion)是在科學(xué)計算可視化、數(shù)據(jù)可視化、信息可視化基礎(chǔ)上發(fā)展起來的新興研究領(lǐng)域，于2004年由Eppler和Burkard率先提出。它是指應(yīng)用視覺表征手段促進(jìn)群體知識的傳播與創(chuàng)新，包括所有可以用來建構(gòu)和傳達(dá)復(fù)雜知識的圖解手段�，F(xiàn)階段，知識可視化的研究主要為兩個方向：
　　研究知識可視化的表現(xiàn)形式，包括知識可視化的基礎(chǔ)理論、知識的可視化表現(xiàn)圖的類型、適用范圍和效果。如武漢大學(xué)信息管理專業(yè)學(xué)者對此做了一系列研究，出版了《信息可視化與知識檢索》，從信息檢索結(jié)果提供、多媒體信息可視化方面進(jìn)行了綜述性的研究。
　　可視化的實現(xiàn)，包括知識可視化的形式化模型和算法以及該理論模型和算法的實現(xiàn)系統(tǒng)軟件。比如對于思維導(dǎo)圖(mind map)現(xiàn)階段國外已經(jīng)有Mind Map Manager、Free Mind Map等應(yīng)用軟件。這個方向國內(nèi)研究的主力軍是北京師范大學(xué)知識工程研究中心，該中心開發(fā)了中文概念圖軟件易思一認(rèn)知助手(EasyThinking―Cognitive Assistant)軟件，2007年1月7日已發(fā)布3.0版，將概念圖、思維導(dǎo)圖和一般圖合而為一。
　　從國外知識可視化實踐進(jìn)展來看，澳大利亞的紐卡斯?fàn)柎髮W(xué)和皇家墨爾本大學(xué)的Bilal Succar進(jìn)行了信息可視化模型構(gòu)建的研究，在研究中設(shè)計了可視化知識模型和研究中所涉及領(lǐng)域的本體。歐洲學(xué)者對本體的可視化進(jìn)行研究，認(rèn)為信息可視化為本體校準(zhǔn)結(jié)果的評價提供了合適的方法。不同層次的細(xì)節(jié)和概論幫助用戶導(dǎo)航并理解校準(zhǔn)，用戶對半結(jié)構(gòu)化資源的評價涉及到學(xué)習(xí)活動。馬來西亞普渡大學(xué)的學(xué)者設(shè)計了自動語義抽取系統(tǒng)(AME)，可視化界面是該系統(tǒng)中的一部分，在設(shè)計可視化界面時他們發(fā)現(xiàn)用戶可以通過對概念網(wǎng)絡(luò)結(jié)果的可視化來將AME系統(tǒng)的利用擴(kuò)展到最大化。用戶可以搜索一個概念，并察看這個概念與其他概念之間的關(guān)系。這些關(guān)系可以通過“顯示文本”功能被追溯到原始文件中的來源句子。
　　2.5.2語義檢索20世紀(jì)80年代國際信息檢索大會SIGIR會議論文中就出現(xiàn)了對語義檢索的討論，但語義檢索研究始終受到語義信息處理發(fā)展水平的制約。上世紀(jì)末以來，隨著自然語言處理、人工智能的發(fā)展，尤其是語義網(wǎng)技術(shù)的興起與發(fā)展，語義檢索研究得以迅速發(fā)展。盡管到目前為止對語義檢索在概念上仍沒有統(tǒng)一的界定，但不同的研究卻有著共同之處，就是基于對信息資源的語義處理實現(xiàn)效率更高的檢索。目前語義檢索有兩種，即基于概念的語義檢索和基于本體的語義檢索。前者是根據(jù)概念詞典和關(guān)系數(shù)據(jù)庫構(gòu)建概念空間實現(xiàn)語義檢索，具有一定的語義處理能力和自然語言接口，但其概念庫中不包含概念間關(guān)系的描述，因此無法處理有關(guān)概念的問題；而后者是基于本體構(gòu)建概念空間，將本體融合到傳統(tǒng)信息檢索技術(shù)中，不僅可以繼承概念信息檢索的優(yōu)點，還可以克服概念信息檢索不能對概念關(guān)系進(jìn)行處理的局限。
　　2.5.3語義互操作數(shù)字圖書館知識組織系統(tǒng)互操作主要解決兩個問題：多語言和異構(gòu)。跨語言的互操作問題在美國和歐洲很受重視，美國數(shù)字圖書館先導(dǎo)研究計劃(Digital Library Initiative)中有許多是著眼于解決語義問題的，例如伊利諾斯(Illinois)大學(xué)主持的項目中關(guān)于概念空間與分類地圖的研究，伯克利(Berkeley)大學(xué)主持的項目中關(guān)于文字歧義消除的研究，卡內(nèi)基?梅隆(Carnegie Mellon)大學(xué)主持的項目中對于語音識別的研究以及加州大學(xué)圣塔巴巴拉分校關(guān)于圖像的分割與聚類的研究，主要集中于人工智能、統(tǒng)計規(guī)律識別技術(shù)等，都屬于語義研究或語義互操作范疇。歐洲相關(guān)的研究項目有MACS、Merimee、Renardus等，甚至嘗試自動建立中、英文詞表之間的映射。我國也有一些關(guān)于雙語數(shù)字圖書館知識組織系統(tǒng)互操作的研究，如《漢語主題詞表》與《美國國會圖書館標(biāo)題表》(LCSH)、本體之間的轉(zhuǎn)換研究、《中國圖書館圖書分類法》與杜威十進(jìn)制分類法(DDC)類目設(shè)置的比較、與DDC對照系統(tǒng)的研制等。
　　異構(gòu)數(shù)字圖書館系統(tǒng)間的互操作的目標(biāo)是實現(xiàn)不同系統(tǒng)間知識交換、共享與重用。這方面需要解決的問題是：①不同本體之間的互操作。本體雖然為DL的語義互操作提供了解決方案，但其本身也存在著異構(gòu)性，因此不同本體之間的互操作也是DL互操作的一個重要方面。②跨語言、跨文化的互操作。未來的DL將是聯(lián)邦數(shù)字圖書館。建立全球范圍的DL聯(lián)邦，需要解決跨語言、跨文化的互操作問題，其中包括比較復(fù)雜的語言翻譯問題。③DL的發(fā)現(xiàn)與安全性。實現(xiàn)全球范圍內(nèi)DL的互操作，需要解決DL的命名和動態(tài)發(fā)現(xiàn)。隨著DL逐步走向?qū)嵱没仨毧紤]DL互操作的安全問題。
　　要實現(xiàn)這一目標(biāo)，必須在描述、檢索、對象交換與檢索協(xié)議等方面取得突破性的進(jìn)展。需要解決的問題包括元數(shù)據(jù)的定義和通過文本或多媒體數(shù)字對象抽取元數(shù)據(jù)，數(shù)字對象的特征描述計算，具有不同語義的異構(gòu)資源庫的整合，信息的聚類和自動分類，自動排序、分級算法以及信息質(zhì)量、類型或其他屬性的自動評測等。
　　
　　3　結(jié)語
　　
　　隨著本體在數(shù)字圖書館知識組織系統(tǒng)中的深入應(yīng)用，如何解決本體建模與復(fù)用、本體整合、本體進(jìn)化和語義互操作問題已經(jīng)迫在眉睫。
　　理論方面，構(gòu)建面向數(shù)字資源組織的領(lǐng)域本體以取代傳統(tǒng)的知識組織工具，是當(dāng)前圖書情報學(xué)界研究的重點，看重的是本體所蘊含的豐富的語義關(guān)系和強大的推理功能，重視知識與信息的轉(zhuǎn)化、知識元的抽取與標(biāo)引、基于知識元鏈接的知識網(wǎng)絡(luò)的形成與應(yīng)用、知識結(jié)構(gòu)的學(xué)科分類與完整性以及知識倉庫和知識元數(shù)據(jù)庫的建設(shè)與應(yīng)用。實踐方面，對于數(shù)字圖書館知識組織工具的本體化改造成為領(lǐng)域的前沿和熱點，并已取得了一批重要成果：①使用本體對傳統(tǒng)知識組織工具進(jìn)行表示；②使用實例數(shù)據(jù)豐富現(xiàn)有的知識組織工具；③在已有知識組織工具的基礎(chǔ)上豐富其語義關(guān)系和結(jié)構(gòu)，進(jìn)而建立本體。
　　誠然，關(guān)于本體構(gòu)建等問題仍存在客觀上的困難和問題。研究中發(fā)現(xiàn)：知識結(jié)構(gòu)、知識內(nèi)容的復(fù)雜性和動態(tài)性、語義關(guān)系的豐富性、空間秩序的多維性是制約數(shù)字圖書館知識組織系統(tǒng)有效結(jié)構(gòu)化和應(yīng)用的瓶頸，尤其是富有語義信息的領(lǐng)域本體的匱乏是數(shù)字圖書館建設(shè)中的瓶徑，而領(lǐng)域本體構(gòu)建和復(fù)用效率不高、通用性不強限制了數(shù)字圖書館知識組織和知識服務(wù)深度與廣度。我們相信，隨著數(shù)字圖書館理論研究的深入與實踐的發(fā)展，對知識組織系統(tǒng)的研究也在不斷豐富、發(fā)展和完善之中。

国产第页,国产精品视频一区二区三区,国产精品网站夜色,久久艹影院,精品国产第一页,欧美影视一区二区三区,国产在线欧美日韩精品一区二区

數(shù)字圖書館系統(tǒng) 數(shù)字圖書館知識組織系統(tǒng)熱點分析

熱點文章閱讀