知識(shí)元語義鏈接模型研究:語義模型
發(fā)布時(shí)間:2020-03-07 來源: 美文摘抄 點(diǎn)擊:
摘要 在信息服務(wù)向知識(shí)服務(wù)過渡中,知識(shí)元被認(rèn)為是實(shí)現(xiàn)知識(shí)服務(wù)的實(shí)體單元。歸納已有知識(shí)元的研究方法,從情報(bào)學(xué)的視角探討知識(shí)元的概念,提出知識(shí)元由導(dǎo)航信息和語義內(nèi)容兩部分組成、二者構(gòu)成知識(shí)元的獨(dú)立實(shí)體、單一的關(guān)鍵詞不是知識(shí)元的觀點(diǎn)。接著,從信息與知識(shí)變換的角度討論文本知識(shí)元譜分析與提取的算法和實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果表明該方法具有可操作性和實(shí)踐性。
關(guān)鍵詞 知識(shí)元 語義鏈接 模型研究
分類號(hào) TP391
1 引 言
知識(shí)的服務(wù)單位長(zhǎng)期停留在文獻(xiàn)這一級(jí)上,已經(jīng)成為制約人類有效利用知識(shí)的瓶頸。情報(bào)學(xué)家徐如鏡研究員提出,一旦實(shí)現(xiàn)知識(shí)的控制單位由文獻(xiàn)深化到“知識(shí)元”,大量文獻(xiàn)中所包含的“知識(shí)元”及相關(guān)信息間的鏈接,將產(chǎn)生極大的知識(shí)增值,大大推進(jìn)人類對(duì)知識(shí)的利用,促進(jìn)對(duì)新知識(shí)的創(chuàng)造,從而也將推動(dòng)知識(shí)資源業(yè)的重大發(fā)展。情報(bào)學(xué)家馬費(fèi)成教授提出情報(bào)學(xué)取得突破的兩個(gè)關(guān)鍵問題:①知識(shí)信息的表達(dá)和組織必須從物理層次的文獻(xiàn)單元向認(rèn)識(shí)層次的知識(shí)單元或情報(bào)單元轉(zhuǎn)換;②知識(shí)信息的計(jì)量必須從語法層次向語義和語用層次發(fā)展。1986年,美國(guó)芝加哥大學(xué)Don R Swanson教授提出的“非相關(guān)文獻(xiàn)的知識(shí)發(fā)現(xiàn)方法”,對(duì)40多年前科學(xué)家就在積極地探討的科學(xué)知識(shí)分裂化現(xiàn)象,利用知識(shí)片段理論做出了說明,證明了事實(shí)上文獻(xiàn)間隱含關(guān)聯(lián)數(shù)量可能遠(yuǎn)多于顯性的相互印證關(guān)聯(lián)的數(shù)量,并且這種隱性關(guān)聯(lián)的發(fā)現(xiàn)比信息本身的增長(zhǎng)更有意義。Swanson的“基于文獻(xiàn)的發(fā)現(xiàn)方法”證實(shí)了將文獻(xiàn)中的具有隱含邏輯關(guān)系的知識(shí)片段組織起來可以發(fā)現(xiàn)新知識(shí),為情報(bào)學(xué)的研究開創(chuàng)了新的研究方法。本文提出了知識(shí)元語義鏈接模型,對(duì)知識(shí)元的認(rèn)知、模型、挖掘和語義鏈接的方法做了探索。期望得到更多的關(guān)注和研究,以推動(dòng)這一方向的研究成果的開發(fā)和應(yīng)用。
2 知識(shí)元的認(rèn)知
知識(shí)元的研究活動(dòng)可歸納為四個(gè)主要研究領(lǐng)域:情報(bào)學(xué)意義的知識(shí)元、科學(xué)計(jì)量意義的知識(shí)元、教材教學(xué)組織的知識(shí)元、產(chǎn)品設(shè)計(jì)的知識(shí)元。
2,1 情報(bào)學(xué)意義的知識(shí)元
20世紀(jì)70年代后期,除書目數(shù)據(jù)庫外,數(shù)值數(shù)據(jù)庫和全文數(shù)據(jù)庫的數(shù)量不斷增長(zhǎng),指南數(shù)據(jù)庫開始出現(xiàn)。此時(shí),美國(guó)情報(bào)學(xué)家弗拉基米爾?斯拉麥卡教授在華講學(xué)時(shí)提出,知識(shí)的控制單位將從文獻(xiàn)深化到文獻(xiàn)中的數(shù)據(jù)、公式、事實(shí)、結(jié)論等最小的獨(dú)立的“知識(shí)元”,當(dāng)時(shí)他把這稱為“數(shù)據(jù)元”。
20世紀(jì)80年代初,英國(guó)著名情報(bào)學(xué)家布魯克斯(B.C.Brooks)提出繪制“認(rèn)知地圖”的任務(wù)。布魯克斯認(rèn)為,如果能利用關(guān)系索引就可以較為準(zhǔn)確地表達(dá)概念之間的關(guān)系,那么就可能將文獻(xiàn)網(wǎng)變?yōu)橛芍R(shí)單元直接聯(lián)接的概念網(wǎng),使知識(shí)體系從外部宏觀結(jié)構(gòu)改變?yōu)閮?nèi)部微觀結(jié)構(gòu)。
1993年z.Chen繼Swanson提出建立基于分散于文獻(xiàn)內(nèi)部知識(shí)片斷的邏輯關(guān)聯(lián)的知識(shí)整合方法,改善非相關(guān)文獻(xiàn)知識(shí)發(fā)現(xiàn)的效果。
近年來,國(guó)際上越來越多的研究者認(rèn)識(shí)到萬維網(wǎng)時(shí)代信息檢索效率不高的原因主要在于信息組織的深度僅停留在文獻(xiàn)層次,提出解決的根本方法是將信息標(biāo)引深入到文獻(xiàn)中的知識(shí)元層次,建立知識(shí)元(Knowl-edge Element)模型成為實(shí)現(xiàn)有效知識(shí)檢索的重點(diǎn)問題。國(guó)內(nèi)學(xué)者徐榮生認(rèn)為知識(shí)單元是指知識(shí)本身不考慮物理形態(tài)自成系統(tǒng)、自成單元,自為一組的認(rèn)識(shí)單體形態(tài),是知識(shí)集合系統(tǒng)的相對(duì)獨(dú)立構(gòu)成單位。其中就有最基本的、不再分解的基本認(rèn)識(shí)單元,如概念知識(shí)單元。
國(guó)內(nèi)學(xué)者王子舟教授等對(duì)文獻(xiàn)單元與知識(shí)單元做了深入研究,認(rèn)為20世紀(jì)90年代末期,“知識(shí)單元”在圖書情報(bào)學(xué)界的使用頻率逐漸多了起來,因?yàn)樵S多圖書館學(xué)研究者已經(jīng)意識(shí)到,圖書館如何從傳統(tǒng)的文獻(xiàn)組織轉(zhuǎn)向文獻(xiàn)信息(即客觀知識(shí))的組織,如何從文獻(xiàn)單元服務(wù)深入到知識(shí)單元服務(wù),已經(jīng)是圖書館實(shí)踐面臨著的新的重大課題。國(guó)內(nèi)學(xué)者文庭孝博士等對(duì)知識(shí)單元的概念進(jìn)行了綜述。
2,2科學(xué)計(jì)量意義的知識(shí)元
科學(xué)學(xué)的知識(shí)單元研究者,我國(guó)著名科學(xué)家趙紅洲認(rèn)為:“知識(shí)單元(或稱知識(shí)本體)”是科學(xué)的細(xì)胞,也是科學(xué)大廈的“基本”磚塊。科學(xué)學(xué)研究知識(shí)單元的目標(biāo)是想實(shí)現(xiàn)如何評(píng)價(jià)學(xué)術(shù)論文的學(xué)術(shù)質(zhì)量問題,也就是說,如何比較兩個(gè)科學(xué)定律的難易程度問題。牛頓定律和氣體定律哪一個(gè)付出的創(chuàng)造力更大些?由此,趙紅洲先生把知識(shí)單元定義為“能夠用數(shù)學(xué)公式表示的科學(xué)概念”。趙紅洲等還提出了知識(shí)單元的智荷概念,認(rèn)為智荷乃是知識(shí)單元最為基本的特質(zhì)和屬性,分為靜荷和動(dòng)荷兩種類型,靜荷是知識(shí)單元相互邏輯關(guān)系所決定的智荷,是基本知識(shí)單元的函數(shù);動(dòng)荷則是知識(shí)單元在歷史的進(jìn)化過程中積累的智荷,是時(shí)間的函數(shù)。一個(gè)知識(shí)單元的靜荷Qi可用公式(1)表示:
2,3教材教學(xué)意義的知識(shí)單元
自20世紀(jì)90年代以來,IEEE-CS/ACM陸續(xù)推出了“計(jì)算教程1991”、“計(jì)算教程200X”等研究報(bào)告。其中最重要的成果之一就是把計(jì)算機(jī)科學(xué)的知識(shí)體劃分為10個(gè)領(lǐng)域、55個(gè)知識(shí)單元。每一個(gè)知識(shí)單元?jiǎng)t包含若干主題。知識(shí)體為計(jì)算機(jī)學(xué)科提供了一個(gè)統(tǒng)一的知識(shí)框架。知識(shí)單元具有更大的靈活性。用一組知識(shí)單元代替一組主干課來規(guī)范教學(xué)計(jì)劃中的公共要求,有利于學(xué)校結(jié)合本身的情況,設(shè)計(jì)出既有自己特色、又不背離統(tǒng)一要求的課程體系。
2,4產(chǎn)品結(jié)構(gòu)設(shè)計(jì)中的知識(shí)單元
文獻(xiàn)[19]利用專家的知識(shí)文本作為領(lǐng)域本體,建立文本知識(shí)元的抽取實(shí)驗(yàn)。提出將知識(shí)分成4層:知識(shí)域(knowledge domain)、知識(shí)單元(knowledge unit)、知識(shí)元(knowledge element)、知識(shí)元的特征元(charac-teristic element)。特征元根據(jù)知識(shí)元可分成表示(rep-resentation)、規(guī)則(rules)、操作(operations)、導(dǎo)航(navi-gation)、上義詞(super-ordinate)、關(guān)聯(lián)(relevaney)和其他關(guān)系。在產(chǎn)品設(shè)計(jì)中把知識(shí)元分成兩種:①描述性,包括信息報(bào)告、名詞解釋、數(shù)字值、問題描述、引言和結(jié)論;②過程性,過程、方法、定義、原理、經(jīng)驗(yàn)等。
3知識(shí)元模型
3,1知識(shí)元概念模型
我們認(rèn)為,從文獻(xiàn)中抽取出的知識(shí)元不等同于關(guān)鍵詞。情報(bào)學(xué)知識(shí)元的抽取目標(biāo)是:先將文獻(xiàn)中的知識(shí)元分割出來,然后建立一種獨(dú)立于原文的可獨(dú)立存放、檢索和推理的知識(shí)實(shí)體單位。我們?cè)岢鑫谋局R(shí)元的發(fā)現(xiàn)可通過計(jì)算向?qū)畔⑴c知識(shí)元間的語義關(guān)系來實(shí)現(xiàn)。圖1給出了文本知識(shí)元與向?qū)畔?dǎo)航計(jì)算模型:
圖1中,特征分析與提。簩(duì)論文標(biāo)題進(jìn)行分詞,統(tǒng)計(jì)標(biāo)題詞在文摘中的響應(yīng)度,根據(jù)響應(yīng)度選擇特征詞,然后用特征詞在正文中抽取句子。
向?qū)畔ⅲ浩浜笥姓Z義內(nèi)容的特征詞。 語義內(nèi)容:對(duì)象名稱,對(duì)象起因,對(duì)象內(nèi)容,對(duì)象過程,對(duì)象結(jié)論,對(duì)象引文等。
知識(shí)元:向?qū)畔ⅲZ義內(nèi)容。
抽取算法:一種抽取向?qū)畔⑻卣髟~句子的軟件。
特征詞的計(jì)算就是檢查抽出的句子中是否具有描述知識(shí)元功能的語義內(nèi)容。如果有,則把特征詞分離為向?qū)畔⒃~,語義內(nèi)容分離為知識(shí)元內(nèi)容,以便建立向?qū)畔⑴c語義內(nèi)容的導(dǎo)航鏈接,實(shí)現(xiàn)獨(dú)立于文獻(xiàn)單元的知識(shí)元自由集成檢索系統(tǒng)。
定義1:
知識(shí)元:{名稱,屬性,操作,導(dǎo)航}
名稱=為知識(shí)元研究的對(duì)象
屬性=為知識(shí)元的特征
操作=為知識(shí)元解決問題的方法(能力)
導(dǎo)航=為知識(shí)元的邏輯聯(lián)系
定義2:
新知識(shí)產(chǎn)生的是一種知識(shí)元的信息導(dǎo)航鏈接過程。
K(S)+N(K(E)+K(S))=K(S+△S) (3)
式中K(S)表示知識(shí)結(jié)構(gòu),K(E)表示知識(shí)元,Ⅳ表示信息導(dǎo)航鏈接。
公式(3)突出了知識(shí)元的獨(dú)立性、信息導(dǎo)航的鏈接性和知識(shí)結(jié)構(gòu)的完善性。強(qiáng)調(diào)知識(shí)結(jié)構(gòu)是一個(gè)比較完整的認(rèn)知結(jié)構(gòu),知識(shí)結(jié)構(gòu)的構(gòu)成主要是由信息對(duì)獨(dú)立的知識(shí)元的導(dǎo)航而形成。知識(shí)元導(dǎo)航鏈接示意圖見圖2。
在知識(shí)元的研究中,如何認(rèn)識(shí)知識(shí)元并從什么地方切入研究以及對(duì)知識(shí)元進(jìn)行歸類分析是進(jìn)一步認(rèn)識(shí)知識(shí)元的重要步驟。通過對(duì)知識(shí)元的歸類分析,我們把得出的知識(shí)元類型分成兩大類型:描述型(信息型,名詞解釋型,數(shù)值型,問題描述型,引證型);過程型(步驟型,方法型,定義型,原理型,經(jīng)驗(yàn)型)等。由此我們把數(shù)字型知識(shí)元定義為描述型知識(shí)元模型。
定義3:
一個(gè)數(shù)值型知識(shí)元NKE由對(duì)象,領(lǐng)域,特性集,關(guān)系,值,狀態(tài)6個(gè)屬性組成。
由公式(7)可以看出原知識(shí)系統(tǒng)K(S)接受信息/激勵(lì)后的結(jié)果,使知識(shí)譜上添加了信息,所貢獻(xiàn)的知識(shí)譜。
我們研究了知識(shí)信息譜的提取,給出了知識(shí)元的提取實(shí)驗(yàn)步驟。利用上述方法,求最優(yōu)概率分布的概率值p(y|x)中,將“提出”特征詞看作x,故提出之后的內(nèi)容即為作者給出的創(chuàng)新點(diǎn)知識(shí)元Y。文本知識(shí)元抽取的步驟如下:
第一步:文本格式轉(zhuǎn)換(,PDF轉(zhuǎn)成,TXT);
第二步:分離出由“提出”特征詞引出的創(chuàng)新點(diǎn)內(nèi)容(知識(shí)元集合);
第三步:分析知識(shí)元集合的組成結(jié)構(gòu)(單個(gè)知識(shí)元);
第四步:抽取文本中每個(gè)知識(shí)元的相關(guān)句子;
第五步:分解句子成為語義三角形結(jié)構(gòu)的知識(shí)元(另文給出);
第六步:聚類知識(shí)元成為知識(shí)元集。
4 文本知識(shí)元挖掘軟件研究
我們開發(fā)的文本知識(shí)元挖掘軟件分為5個(gè)步驟實(shí)現(xiàn):
第一步:知識(shí)元自動(dòng)抽取算法。網(wǎng)頁格式轉(zhuǎn)換,文本分詞、詞性標(biāo)注、知識(shí)元自動(dòng)抽取。
第二步:有效句分解與獲取對(duì)象語義。通過句子的特征分析,我們用自己設(shè)計(jì)的抽取軟件將有效句分解為兩部分,即對(duì)象名和對(duì)象數(shù)值。以對(duì)象名中的動(dòng)詞為界,將對(duì)象名分解成主謂關(guān)系,從而達(dá)到了將一個(gè)有效句子分解成三元組(O,P,A)的目的,即實(shí)現(xiàn)了用軟件自動(dòng)獲得一條由主謂賓語法關(guān)系組成的知識(shí)元。如圖3所示:
第三步:去掉詞性標(biāo)記獲得知識(shí)元。去掉詞性標(biāo)記,建立由時(shí)間、地區(qū)、領(lǐng)域、對(duì)象名稱、對(duì)象屬性、對(duì)象值等屬性集成的知識(shí)元,并自動(dòng)存入知識(shí)元庫。最后可以對(duì)挖掘到的知識(shí)元進(jìn)行匯總,存入到總表中,以便于以后的查閱和關(guān)聯(lián)推理使用。知識(shí)元生成系統(tǒng)界面如圖4所示:
第四步:知識(shí)元自動(dòng)存儲(chǔ)。軟件可以對(duì)挖掘到的知識(shí)元進(jìn)行模糊和精確查詢,并將查詢結(jié)果反饋到用戶界面,還可以將挖掘的信息生成簡(jiǎn)要文本輸出。知識(shí)元庫結(jié)果舉例如圖5所示:
第五步:建立知識(shí)元語義網(wǎng)地圖。利用protege工具將挖掘出的知識(shí)元用本體語言O(shè)WL(web OntologyLanguage)進(jìn)行處理,實(shí)現(xiàn)了領(lǐng)域知識(shí)元集成的語義網(wǎng)地圖,如圖6所示:
5 小結(jié)與展望
本文對(duì)知識(shí)元的認(rèn)識(shí)做了歸結(jié)分析,強(qiáng)調(diào)情報(bào)學(xué)知識(shí)元挖掘的目的是建立知識(shí)元結(jié)構(gòu),獨(dú)立于原始文獻(xiàn)進(jìn)行直接的知識(shí)服務(wù)。因此知識(shí)元的開發(fā)與應(yīng)用是文獻(xiàn)服務(wù)向知識(shí)服務(wù)過渡的一種轉(zhuǎn)折點(diǎn),知識(shí)元是知識(shí)分離和組合的基元,它由兩部分組成,即向?qū)畔⒃~和語義內(nèi)容組成的知識(shí)實(shí)體。因此知識(shí)元不是普通的關(guān)鍵詞。知識(shí)元的挖掘是一種智能活動(dòng),是以科學(xué)家創(chuàng)造的知識(shí)成果為對(duì)象的一種提取和再組織的智力勞動(dòng)過程。因而它的研究既具有極大的吸引力,又具有很大的困難,尤其是將研究的成果變?yōu)閷?shí)際應(yīng)用的產(chǎn)品,不可避免地必須經(jīng)過商業(yè)化的過程。這意味著國(guó)家層面的認(rèn)識(shí)和市場(chǎng)機(jī)遇的到來。
相關(guān)熱詞搜索:語義 模型 鏈接 知識(shí)元語義鏈接模型研究 知識(shí)鏈接的構(gòu)建方式研究 基于知識(shí)元的知識(shí)發(fā)現(xiàn)
熱點(diǎn)文章閱讀