国产第页,国产精品视频一区二区三区,国产精品网站夜色,久久艹影院,精品国产第一页,欧美影视一区二区三区,国产在线欧美日韩精品一区二区

家庭規(guī)則的建立【論知識鏈接的建立規(guī)則】

發(fā)布時間:2020-03-07 來源: 短文摘抄 點擊:

  摘要 把信息單元視為文獻(xiàn)單元和知識元之間的橋梁和紐帶,以文獻(xiàn)單元間的參考文獻(xiàn)鏈接和知識元名(或與知識元相關(guān)的文字)到知識元的知識元鏈接為研究對象,重點分析這兩種鏈接的建立過程、建立規(guī)則以及技術(shù)難點。認(rèn)為從理論上研究知識鏈接的建立規(guī)則對知識鏈接系統(tǒng)和知識服務(wù)系統(tǒng)的開發(fā)大有裨益。
  關(guān)鍵詞 知識鏈接 參考文獻(xiàn)鏈接 知識元鏈接 鏈接規(guī)則
  分類號 G356
  
  所謂鏈接是指某一個對象A鏈接到另一個對象B。對象A和B之間的鏈接意味著它們之間存在著某種關(guān)系或關(guān)聯(lián)。為便于表述,本文把提供鏈接的對象稱為鏈接源,將被鏈接的對象稱為鏈接對象。鏈接的建立需要鏈接系統(tǒng)的支持。所謂鏈接系統(tǒng),就是一種根據(jù)某種規(guī)則自動地在鏈接源和鏈接對象之間建立正確鏈接的程序或應(yīng)用軟件。鏈接的建立有助于用戶理解鏈接源或者引導(dǎo)用戶閱讀與鏈接源相關(guān)的內(nèi)容。本文所要討論的就是鏈接系統(tǒng)在建立鏈接時所依賴或依據(jù)的關(guān)聯(lián)規(guī)則。從理論上講,研究鏈接的建立規(guī)則和相關(guān)標(biāo)準(zhǔn)可以促進(jìn)知識鏈接系統(tǒng)和知識服務(wù)系統(tǒng)的深入研究,為開發(fā)知識服務(wù)系統(tǒng)、制定開放的支持知識鏈接的電子文獻(xiàn)(文檔)標(biāo)準(zhǔn)及其閱讀軟件提供建設(shè)性思路。
  
  1知識單元的演變與知識鏈接
  
  知識單元的發(fā)展經(jīng)歷了從文獻(xiàn)知識單元(以下簡稱為文獻(xiàn)單元)到信息知識單元(以下簡稱為信息單元)繼而到知識單元(知識的內(nèi)容單元,以下簡稱為知識元)的演變過程。文獻(xiàn)單元指以知識的載體――文獻(xiàn)作為知識管理的基本處理單元;信息單元是指以文獻(xiàn)知識的某些屬性特征(包括文獻(xiàn)的外形特征信息和內(nèi)容特征信息)作為知識管理的基本單元;知識元是指在知識管理中用來處理知識的最小的、不可分隔的、獨立的基本單元,是指文獻(xiàn)中相對獨立的、表征知識點的一個元素,它可以是一段文字、一幅圖表、一個公式、一章或一節(jié)、一段動畫、一個程序等,也往往直接指知識產(chǎn)品(圖書、論文、專利等)中的概念、論點(觀點)、論據(jù)(數(shù)據(jù)、資料)、論證(方法、模型)、結(jié)論等知識核心和知識創(chuàng)新點。知識單元之間并不是獨立的,而是存在各種復(fù)雜的關(guān)系,基于這些關(guān)系可以在不同的知識單元之間建立鏈接。
  
  1,1文獻(xiàn)單元
  文獻(xiàn)單元之問的關(guān)系主要是指文獻(xiàn)單元之間的引用和被引用的關(guān)系。用戶點擊文獻(xiàn)后參考文獻(xiàn)鏈接就可以獲取該參考文獻(xiàn)對應(yīng)的全文、文摘等。這種鏈接是最常見的也是使用最多的知識鏈接,更多的時候被稱為參考文獻(xiàn)鏈接。鏈接源是來源文獻(xiàn),鏈接對象是該參考文獻(xiàn)對應(yīng)的全文或文摘或相關(guān)服務(wù)。參考文獻(xiàn)鏈接既可以讓用戶快速而直接地獲取文獻(xiàn),同時也可以讓用戶去了解某個研究主題的來龍去脈,深受文獻(xiàn)信息服務(wù)系統(tǒng)和用戶的青睞。
  
  1,2信息單元
  信息單元之間一般不會出現(xiàn)類似于來源文獻(xiàn)與參考文獻(xiàn)那樣的關(guān)系,即用一個信息單元去解釋或參考另外一個信息單元。描述文獻(xiàn)的信息單元,如關(guān)鍵詞、主題詞等,很可能就是一個知識元的名稱或者與某知識元有著密切關(guān)系;谶@種關(guān)系,建立從信息單元到到知識元的單向鏈接可以引導(dǎo)用戶去閱讀知識元,對用戶理解信息單元,從而更好理解文獻(xiàn)單元是很有用處的。這樣,信息單元就充當(dāng)著文獻(xiàn)單元和知識單元之間的橋梁和紐帶。
  
  1,3知識元
  知識元之間也有可能出現(xiàn)類似于來源文獻(xiàn)與參考文獻(xiàn)那樣的關(guān)系,即一個知識元需要引用另外一個或多個知識元。單純地在知識元之間建立鏈接可以形成一個封閉的超文本系統(tǒng),用戶可以通過該系統(tǒng)實現(xiàn)非線性閱讀。在開放的互聯(lián)網(wǎng)環(huán)境下,如果能夠在全文文獻(xiàn)中建立知識元名(或與某知識元相關(guān)的文字)到知識元的開放性鏈接,就可以把全文文獻(xiàn)與知識元數(shù)據(jù)庫連接起來,從而有效地擴大用戶的知識面或知識結(jié)構(gòu),幫助用戶更好地理解文獻(xiàn)單元。
  信息單元到知識元的鏈接與全文文獻(xiàn)中的知識元名(或與知識元相關(guān)的文字)到知識元的鏈接,鏈接對象都是知識元,但鏈接源不同,設(shè)置鏈接的位置也不同。但設(shè)置鏈接的位置(以下稱為鏈接錨,即Anchor)都可以視為字符串(可以是信息單元、知識元名或與知識元相關(guān)的文字)到知識元的鏈接。本文把這兩種鏈接統(tǒng)稱為知識元鏈接。一些文獻(xiàn)中提到的知識鏈接更多地是指參考文獻(xiàn)鏈接。參考文獻(xiàn)鏈接和知識元鏈接都是知識鏈接的一種。無論是參考文獻(xiàn)鏈接還是本文所指的知識元鏈接,鏈接系統(tǒng)都必須解決一個最根本的問題:在鏈接源和鏈接對象之間建立鏈接的規(guī)則或標(biāo)準(zhǔn)是什么?以下分別闡述參考文獻(xiàn)鏈接和知識元鏈接的建立規(guī)則。
  
  2參考文獻(xiàn)鏈接的建立規(guī)則
  
  參考文獻(xiàn)鏈接泛指文摘索引與所標(biāo)引文獻(xiàn)、文后參考文獻(xiàn)與被引用文獻(xiàn)間的鏈接,目前更多的是學(xué)術(shù)論文之間的鏈接或者學(xué)術(shù)論文到圖書的鏈接。在數(shù)字學(xué)習(xí)環(huán)境中,用戶可以通過參考文獻(xiàn)鏈接直接從文摘索引、文后參考文獻(xiàn)鏈接到相應(yīng)的電子版全文。如果沒有相應(yīng)的電子版本,鏈接系統(tǒng)可以引導(dǎo)用戶鏈接到圖書館書目目錄服務(wù)、文獻(xiàn)傳遞機構(gòu)的目錄數(shù)據(jù)或可以提供該文獻(xiàn)的相關(guān)服務(wù)系統(tǒng)。無論是文摘索引還是文后參考文獻(xiàn),都有相應(yīng)的元數(shù)據(jù),即前面提到的信息單元。借用這些元數(shù)據(jù)信息,鏈接系統(tǒng)可以唯一確定一個目標(biāo)文獻(xiàn)單元。例如第一作者、刊名、出版年、出版期、起始頁的組合就可以唯一確定某篇期刊論文,第一作者、書名、出版社、出版年就可以唯一確定一本圖書。這樣,鏈接系統(tǒng)在建立鏈接時需要判斷一個文摘索引記錄或一條參考文獻(xiàn)(通過元數(shù)據(jù)來表示的)與另外一本篇圖書或一篇期刊論文是不是相同文獻(xiàn)。這個判斷標(biāo)準(zhǔn)就是參考文獻(xiàn)鏈接的建立規(guī)則。
  以期刊論文為例,從理論上講,通過參考文獻(xiàn)的元數(shù)據(jù)和全文文獻(xiàn)的元數(shù)據(jù)的比對判斷它們是不是同一篇文獻(xiàn)的標(biāo)準(zhǔn)很多。例如“第一作者+刊名+年份+期數(shù)+起始頁碼”就可以判斷是否同一篇文獻(xiàn),并且不會出現(xiàn)錯誤鏈接,即“誤配”。但這個標(biāo)準(zhǔn)太嚴(yán)格了,盡管不會出現(xiàn)“誤配”,鏈接系統(tǒng)會出現(xiàn)“失配”現(xiàn)象:參考文獻(xiàn)和全文文獻(xiàn)指的是相同文獻(xiàn),原本是可以建立鏈接的,但鏈接系統(tǒng)卻判斷它們不是相同文獻(xiàn)。出現(xiàn)‘失配’現(xiàn)象的原因有很多,如論文作者在著錄參考文獻(xiàn)時或者是文獻(xiàn)數(shù)據(jù)庫加工過程中,參考文獻(xiàn)的題目、起始頁碼經(jīng)常出現(xiàn)小錯誤。如果換一種較寬松的標(biāo)準(zhǔn),例如“第一作者+刊名+年份+期數(shù)”,不包含頁碼,鏈接系統(tǒng)會把原本不相同的文獻(xiàn)判斷為相同文獻(xiàn)從而建立參考文獻(xiàn)鏈接。盡管不會出現(xiàn)“失配”,卻可能出現(xiàn)“誤配”。例如,第一作者可能在同一本期刊(相同年份、相同期數(shù))上發(fā)表兩篇論文,而這兩篇論文被誤判為同一篇文獻(xiàn)。原則上講,編輯部一般不會安排作者以第一作者的身份在同一期雜志上發(fā)表兩篇文章,但實際上這樣的情況并不少。
  對于鏈接系統(tǒng)而言,選擇恰當(dāng)?shù)逆溄咏⒁?guī)則是非常關(guān)鍵的。數(shù)據(jù)質(zhì)量的高低直接影響鏈接規(guī)則。如果數(shù)據(jù)質(zhì)量高,條件可以嚴(yán)格些。在信息爆炸的時代,原則上允許出現(xiàn)“失配”,但不應(yīng)該出現(xiàn)“誤配”,以免浪費用戶的時間。中國知網(wǎng)(CNKI)鏈接系統(tǒng)在處 理外文文獻(xiàn)時,是把刊名、題名、第一作者、卷數(shù)和期數(shù)的組合作為判斷條件的。盡管文獻(xiàn)題名也會出現(xiàn)一些錯誤(因為不是規(guī)范字段),但如果在字符串匹配時引入容錯機制,如英文單詞的拼寫錯誤,就能在保證鏈接正確性的前提下,極大地減少出現(xiàn)“失配”的概率。
  參考文獻(xiàn)鏈接建立主要依賴于元數(shù)據(jù)匹配。無論是基于DOI的CrossRef還是基于OpenURL的SFX,都有這樣的處理過程。CrossRef的工作原理是:提取參考文獻(xiàn)的元數(shù)據(jù),然后在CrossRef中心元數(shù)據(jù)庫(存有數(shù)字文獻(xiàn)的DOI標(biāo)識和元數(shù)據(jù))進(jìn)行查找匹配;如果匹配成功(找到),就在參考文獻(xiàn)鏈接的URL地址中置人DOI唯一標(biāo)識符,以引導(dǎo)用戶看該參考文獻(xiàn)對應(yīng)的電子版全文。SFX是從包含有參考文獻(xiàn)元數(shù)據(jù)的OpenURL提取元數(shù)據(jù),然后把元數(shù)據(jù)發(fā)送到SFX服務(wù)組件(Service Component),根據(jù)用戶所在圖書館實際情況由SFX服務(wù)組件生成恰當(dāng)鏈接(Appropriate link),生成恰當(dāng)鏈接的過程中同樣有元數(shù)據(jù)匹配。至于這些系統(tǒng)具體的匹配算法,由于商業(yè)原因,還無法得知。
  
  3知識元鏈接的建立規(guī)則
  
  知識元鏈接包括兩類:一類是從信息單元到知識元的鏈接;另一類是知識元名(或與知識元相關(guān)的文字)到知識元的鏈接。
  
  3,1信息單元到知識元的鏈接
  不同類型的信息單元所能夠鏈接的對象是不一樣的。以期刊論文為例,有必要建立鏈接的信息單元有著者、主題詞、關(guān)鍵詞等,而出版年份、出版期數(shù)、摘要等是沒有必要建立鏈接的。這里所說的鏈接不是把信息單元作為檢索詞的鏈接,而是鏈接到知識元的鏈接,如著者簡介、主題詞、關(guān)鍵詞解釋及相關(guān)知識等。
  
  3,2知識元名到知識元的鏈接
  與第一類不同的是確定鏈接錨的方法不同。第一類的鏈接錨是確定的,即已經(jīng)存在的信息單元,而第二類則是鏈接系統(tǒng)在全文文獻(xiàn)中自行尋找合適的文字來設(shè)置鏈接錨。如何在全文文獻(xiàn)中尋找那些待建立鏈接的知識元名(或與之相關(guān)的文字)呢?方法不外乎以下兩種:①對全文文獻(xiàn)進(jìn)行切分詞,去除停用詞(stopwords),把剩下的詞都作為待建立鏈接的鏈接錨;②依次取出知識元數(shù)據(jù)庫中的知識元名(或相關(guān)的名字),在全文文獻(xiàn)中查找,找到的文字視為待建立鏈接的鏈接錨。這兩種方法各有優(yōu)缺點,可以根據(jù)具體情況酌情采用。同一個詞在不同的專業(yè)領(lǐng)域其含義是不一樣的,如ALA既可以指美國圖書館協(xié)會(American Librar-y Association),還可以指美國后勤協(xié)會(American Lo-gisties Association);不同的詞可能表達(dá)相同的含義,如“Integrated Library System”與“Library Management Sys-tern”、“電子政務(wù)”和“電子政府”等。如果只是簡單地字符串匹配,鏈接對象與鏈接錨之間可能出現(xiàn)大量的“失配”或“誤配”現(xiàn)象,嚴(yán)重影響用戶的使用積極性。以鳳凰網(wǎng)財經(jīng)頻道為例,如果新聞網(wǎng)頁中出現(xiàn)“物價”一詞,其鏈接引導(dǎo)用戶去看“居民消費價格總指數(shù)”,那么該鏈接系統(tǒng)就不是簡單地字符串匹配了,而是有一個專業(yè)本體庫(Ontology)或?qū)I(yè)敘詞表支撐著的知識檢索系統(tǒng),在“物價”和“居民消費價格總指數(shù)”之間建立了鏈接。為了避免“失配”或“誤配”,鳳凰網(wǎng)沒有在綜合性新聞頻道上設(shè)置知識元鏈接。
  一旦確立待建立鏈接的鏈接錨,剩下的問題就是找到正確的鏈接對象,也就是在知識元數(shù)據(jù)庫中尋找與鏈接錨相關(guān)的知識元。知識元鏈接的建立規(guī)則就是判斷是否匹配的算法或規(guī)則。為實現(xiàn)這個算法或規(guī)則,鏈接系統(tǒng)除維護(hù)不同領(lǐng)域的知識元庫外,還得維護(hù)相應(yīng)領(lǐng)域的本體庫。給出一個待建立鏈接的詞,鏈接系統(tǒng)可以通過本體以及推理來確定屬于哪個專業(yè)領(lǐng)域的,從而建立正確的鏈接。從理論上講,如果知道某全文文獻(xiàn)所屬的專業(yè)領(lǐng)域,鏈接系統(tǒng)就不用再去判斷該全文文獻(xiàn)的專業(yè)領(lǐng)域,有效地降低技術(shù)復(fù)雜度。所以鳳凰網(wǎng)是分頻道來設(shè)置知識元鏈接的,如財經(jīng)頻道和汽車頻道,這相當(dāng)于預(yù)先知道了全文文獻(xiàn)的專業(yè)領(lǐng)域。如果不知道全文文獻(xiàn)的專業(yè)領(lǐng)域,鏈接系統(tǒng)就必須依賴計算機系統(tǒng)來判斷所屬專業(yè)領(lǐng)域,然后在相應(yīng)專業(yè)領(lǐng)域的知識元數(shù)據(jù)庫中尋找正確的鏈接對象,或者是直接在綜合性的知識元庫中尋找正確的鏈接對象。這樣,出現(xiàn)“錯配”或“誤配”的概率就大很多。
  
  4參考文獻(xiàn)鏈接和知識元鏈接的幾個范例
  
  4,1參考文獻(xiàn)鏈接實例分析
  很多大型文獻(xiàn)服務(wù)系統(tǒng)都提供參考文獻(xiàn)鏈接,如CNKI、萬方數(shù)據(jù)網(wǎng)絡(luò)服務(wù)系統(tǒng)、基于DOI的Cross-Ref、基于OpenURL的SFX等。這里介紹一下CNKI的鏈接系統(tǒng)。CNKI知識服務(wù)系統(tǒng)在顯示一篇論文的參考文獻(xiàn)時,如果鏈接系統(tǒng)在對象資源庫中找到相應(yīng)的參考文獻(xiàn),則在該參考文獻(xiàn)上建立鏈接。CNKI的文獻(xiàn)資源有兩種:自己擁有的資源(一般是中文)和通過網(wǎng)絡(luò)來獲取的資源(一般是外文)。不同來源的文獻(xiàn)資源,鏈接系統(tǒng)建立鏈接的規(guī)則和實現(xiàn)技術(shù)是不一樣的。
  例如,有一篇中文參考文獻(xiàn)“劉鋼,從信息的哲學(xué)問題到信息哲學(xué),自然辯證法研究,2003(1),”,鏈接系統(tǒng)在論文題名上建立了參考文獻(xiàn)鏈接,對應(yīng)URL是“http://epub.省略/grid200S/detailret.aspx?filename=ZRBZ200301010&dbname C3FD2003&filetitle=%e4%bb%8……5%ad%a6”。其中,filename相當(dāng)于一個全文文獻(xiàn)的唯一標(biāo)識符,由表示期刊名的四個英文字符,四個數(shù)字組成的出版年、二個數(shù)字組成的期數(shù)以及二個數(shù)字組成的順序號構(gòu)成。其余兩個是數(shù)據(jù)庫名(dbname)和論文題名(flIetitle)。因為filename已經(jīng)是一個唯一標(biāo)識符,所以論文題名并沒有起到什么作用。這個filename就是鏈接系統(tǒng)根據(jù)參考文獻(xiàn)信息自動找到對應(yīng)的文獻(xiàn)的唯一標(biāo)識符,類似于數(shù)字對象標(biāo)示符(DOI),但具體規(guī)則尚不可知。
  如果參考文獻(xiàn)不屬于CNKI擁有的資源,鏈接系統(tǒng)利用文獻(xiàn)來源名(sid)、論文題名(title)、第一作者(aufirst)、年卷號(volume)和期數(shù)(issue)作為建立鏈接的規(guī)則,動態(tài)建立相關(guān)鏈接,引導(dǎo)用戶查看著錄信息以及遵循OpenURL標(biāo)準(zhǔn)的鏈接。因為OpenURL嵌有規(guī)范的元數(shù)據(jù)信息,可以讓其他文獻(xiàn)服務(wù)系統(tǒng)解析OpenURL鏈接并給出相應(yīng)的處理結(jié)果,如ProQuest、國家科技文獻(xiàn)中心(NSTL)、Google、百度等,鏈接系統(tǒng)具有很強的開放性,如圖1所示:
  例如,有一篇英文參考文獻(xiàn)“Salton G,Lesk M E.Computer evaluation of indexing and text processing,Jour- nal of the ACM,1969,15,15(1):8-36,”,鏈接系統(tǒng)在其論文題名上建立了參考鏈接,對應(yīng)的URL是“ht-tp://211.151.93.省略ki.net/WebForms/WebDefines,aspx?searchword=%e4%bf%a1%e6%81%af%e6%a3%80%e7%b4%a2”。如圖2所示:
  根據(jù)多次測試分析,發(fā)現(xiàn)該系統(tǒng)是把“信息檢索”作為檢索用詞,把在概念知識元庫中檢索的結(jié)果作為鏈接對象呈現(xiàn)給用戶,至于是否“誤配”就只能靠用戶自己來判斷。
  與CNKI相似,萬方數(shù)據(jù)服務(wù)系統(tǒng)也在關(guān)鍵詞(信息單元)上建立“知識脈絡(luò)”鏈接,提供該關(guān)鍵詞的研究趨勢圖和相關(guān)信息。如對某篇文章的關(guān)鍵詞“機構(gòu)庫”,萬方數(shù)據(jù)服務(wù)系統(tǒng)提供的鏈接對象如圖3所示:
  4,2,2知識元名(或與知識元相關(guān)的文字)到知識元的元鏈接鳳凰網(wǎng)的財經(jīng)頻道和汽車頻道在報道相關(guān)新聞時,為某些專業(yè)名詞術(shù)語、人物和品牌等建立了知識鏈接,如“中國石油”、“國內(nèi)生產(chǎn)總值”等財經(jīng)類的股票名或術(shù)語,“元素”、“吳紹明”等汽車類的相關(guān)名詞或人物等。鏈接系統(tǒng)在分析網(wǎng)頁全文(相當(dāng)于全文文獻(xiàn))內(nèi)容基礎(chǔ)上為用戶建立知識元鏈接,引導(dǎo)用戶查看相關(guān)信息,如股票的實時數(shù)據(jù)、人物專題報道等。嚴(yán)格上講,鏈接對象還不是知識元,但也不妨礙把其歸于知識元鏈接。為降低系統(tǒng)復(fù)雜度,避免錯誤鏈接,鏈接系統(tǒng)根據(jù)頻道類型選擇相應(yīng)類型的知識庫或本體庫,例如汽車頻道類的“元素”鏈接只會出現(xiàn)在汽車類新聞當(dāng)中,而不會出現(xiàn)在財經(jīng)類新聞中。
  與CNKI和萬方數(shù)據(jù)的鏈接系統(tǒng)不同,鳳凰網(wǎng)的鏈接系統(tǒng)是在分析網(wǎng)頁(文獻(xiàn))全文的基礎(chǔ)上找出鏈接錨(鏈接文字),而不是直接在已知的信息單元上建立知識元鏈接。其鏈接對象可能是網(wǎng)絡(luò)服務(wù)、子網(wǎng)站等,如圖4所示:
  某網(wǎng)頁上“國內(nèi)生產(chǎn)總值”的鏈接提供“國內(nèi)生產(chǎn)總值”的解釋及其相關(guān)內(nèi)容。目前鳳凰網(wǎng)的鏈接系統(tǒng)是在現(xiàn)有的網(wǎng)絡(luò)相關(guān)標(biāo)準(zhǔn)和技術(shù)上實現(xiàn)的,如果實現(xiàn)這種分析全文文獻(xiàn)內(nèi)容并在全文文獻(xiàn)中建立開放型知識元鏈接的鏈接系統(tǒng),必須開發(fā)出支持開放鏈接的電子文獻(xiàn)(文檔)標(biāo)準(zhǔn)及支持這些標(biāo)準(zhǔn)的閱讀軟件。

相關(guān)熱詞搜索:規(guī)則 建立 鏈接 論知識鏈接的建立規(guī)則 知識圖譜建立規(guī)則 知識鏈接的構(gòu)建方式研究

版權(quán)所有 蒲公英文摘 www.huhawan.com