【基于漢語框架網(wǎng)絡(luò)本體的問答式語義檢索系統(tǒng)分析與設(shè)計】語義本體
發(fā)布時間:2020-03-07 來源: 感恩親情 點(diǎn)擊:
摘要 通過對檢索資源及用戶檢索提問的語義解析,采用基于概念圖匹配的語句相似度計算方法,不僅可得到與檢索條件精確匹配的信息資源,而且還能查詢到與檢索條件語義相關(guān)的隱含信息資源,提高信息查全率和查準(zhǔn)率。最后,用一個語義檢索實(shí)驗(yàn)系統(tǒng)驗(yàn)證系統(tǒng)分析與設(shè)計的可行性和有效性。
關(guān)鍵詞 語義檢索 框架網(wǎng)絡(luò) 本體 語義匹配
分類號 G354.4
1 引言
關(guān)于語義檢索,目前學(xué)術(shù)界還沒有一個確切的定義。有人認(rèn)為:語義檢索是把信息檢索與人工智能技術(shù)、自然語言技術(shù)相結(jié)合的檢索。它從語義理解的角度分析信息對象與檢索請求,是一種基于概念及其相關(guān)關(guān)系的檢索匹配。也有人將語義檢索稱為概念匹配,匹配在語義上相同、相近、相包含的詞語。它是對檢索條件、信息組織以及檢索結(jié)果顯示賦予了一定語義成份的一種新的檢索方式。作者比較贊同“語義檢索是一種基于語義理解技術(shù)的智能信息檢索”的觀點(diǎn),它是指應(yīng)用先進(jìn)的智能理論及其技術(shù),對信息資源和用戶提問進(jìn)行一系列的語義解析,通過挖掘其深層含義,充分、精確地表達(dá)知識資源和用戶需求,進(jìn)而在各類異構(gòu)的數(shù)據(jù)庫、數(shù)據(jù)倉庫、知識庫中進(jìn)行檢索,并對檢索到的信息進(jìn)行智能化處理之后,返回最相關(guān)的結(jié)果的檢索機(jī)制。本體作為一種知識庫,在這種檢索機(jī)制中扮演著重要的角色。
筆者所設(shè)計的向用戶提供自然語言檢索入口的基于漢語框架網(wǎng)絡(luò)本體語義檢索系統(tǒng),旨在利用已構(gòu)建好的框架庫、詞匯庫、例句庫等知識庫,依賴于框架及框架之間的關(guān)系及語義類型限制,以語義標(biāo)注的法律語料庫為受限領(lǐng)域,實(shí)現(xiàn)基于用戶的自然語言提問的語義匹配檢索,最終給出用戶真正有用、精確、簡潔的答案。這將在一定層面上解決問答系統(tǒng)中純粹的字面匹配、顯式匹配等存在的問題。
2 漢語框架網(wǎng)絡(luò)本體庫與語料庫
利用框架語義學(xué)原理,參考美國加州大學(xué)伯克利分校的FrameNet工程,以法律領(lǐng)域?yàn)檠芯繉ο,?gòu)建了法律漢語框架網(wǎng)絡(luò)本體。
2,1法律框架網(wǎng)絡(luò)本體的構(gòu)成
法律框架網(wǎng)絡(luò)本體庫以語義框架為核心,其構(gòu)成元素包括語義框架、框架元素、詞元以及框架間的關(guān)系。此外,還有對框架、框架元素及詞元進(jìn)行語義分類的本體語義類型。
2,1,1語義框架(Frame)作為框架網(wǎng)絡(luò)本體的基本組成單元,語義是對該領(lǐng)域核心概念的描述。一個語義框架,相當(dāng)于跟一些激活性語境相一致的一個結(jié)構(gòu)化的范疇系統(tǒng)。
2,1,2框架元素(Frame Element,F(xiàn)E)一個語境涉及的各種參與者、外部條件和其他概念角色,它們被稱為是該語義框架的框架元素。
2,1,3詞元(Lexical Unit,LU) 某種語境在言語中被一些詞語激活,而理解語言中詞語意義,必需先具備概念結(jié)構(gòu),即框架語義的知識。這樣的詞語在框架網(wǎng)絡(luò)本體中被定義為框架的詞元。
2,1,4框架關(guān)系(Frame Relation,F(xiàn)R)
框架關(guān)系包括框架與框架間的關(guān)系及其包含的框架元素之間的關(guān)系。目前所定義的框架間關(guān)系有繼承、總分、參照、透視、起始、使用、致使和先后關(guān)系。
2,1,5語義類型(Semantic type,ST)
語義類型是無法用框架、框架元素及框架關(guān)系等表達(dá)的一些通用語義,它表示詞匯固有的、本質(zhì)的、上下文無關(guān)的語義特征。主要用于對框架、框架元素和詞元所指稱的事物或現(xiàn)象進(jìn)行分類。它們以一定的邏輯關(guān)系構(gòu)成一個語義類型結(jié)構(gòu)體系附加在框架、框架元素及詞元之上。
例如,語義框架“盜竊”(theft)表達(dá)這樣一個概念或語境:以非法占有為目的,秘密竊取數(shù)額較大的公私財物或者多次盜竊公私財物的行為。這一事件(語境)會涉及犯罪者[perp]、受害者[vict]、被盜財物[goods]、作案工具[inst]、發(fā)生頻率[frequ]、時間[time]等角色及因素,它們都是盜竊框架的框架元素。其中,框架元素犯罪者[perp]、受害者[vict]的語義類型是“有知覺能力者”(sentient),被盜財物[goods]的語義類型為“物理實(shí)體”(physical_entity)。不同語義類型之間以通過子類關(guān)系(subelassof)相互關(guān)聯(lián)。在具體的語句中,詞“盜用”、“偷竊”、“偷”“行竊”、“盜竊”等類似的詞都可以激活一個“盜竊”語義場景,它們就是盜竊框架的詞元!氨I竊”框架與另一個框架“犯罪”(commiting crime)框架之間是繼承關(guān)系,表示前者是后者在概念及語義上的細(xì)化。
法律框架網(wǎng)絡(luò)本體以語義框架為核心,通過框架的內(nèi)部關(guān)系和外部關(guān)系將詞匯進(jìn)行聯(lián)系,構(gòu)成一個巨大的網(wǎng)狀數(shù)據(jù)庫?蚣艿膬(nèi)部關(guān)系包括框架與框架元素的關(guān)系(hasFE)、框架與詞元的關(guān)系(hasLU)?蚣艿耐獠筷P(guān)系包括各種框架關(guān)系以及相關(guān)聯(lián)框架的框架元素之間關(guān)系、框架及其框架元素、詞元與本體語義類型之間的關(guān)系(Subelassof,子類關(guān)系)。與語料庫中基于真實(shí)語料提取的標(biāo)注例句的句法配價信息和語義配價信息相結(jié)合,為對信息的語義理解提供了較好的途徑。
2,2漢語框架網(wǎng)絡(luò)本體標(biāo)注語料庫
基于法律框架網(wǎng)絡(luò)本體的語料庫建設(shè)包括標(biāo)注例句庫的建設(shè)和標(biāo)注文本語料庫的建設(shè)。標(biāo)注例句用于提取例句中以詞元為中心的語義特征及句法特征信息,標(biāo)注文本主要作為被檢索的語義信息資源。例句語料的選擇,以北京大學(xué)漢語語言學(xué)研究中心的現(xiàn)代漢語語料庫為可用資源,從語料庫中不同的位置(前端、中端、尾部)下載一批包含目標(biāo)詞元的句子作為標(biāo)注對象。對于文本語料,以中國法制日報每期的刑事案件為資源,從法制日報網(wǎng)下載案例,作為全文標(biāo)注對象。
對從網(wǎng)絡(luò)上收集到的信息,筆者以手工方式去掉其中無用的不相關(guān)信息(如網(wǎng)頁目錄、網(wǎng)頁鏈接、圖片等)并對語料的格式進(jìn)行規(guī)范(如文本標(biāo)題、作者、日期、句子編號等信息的格式)等處理。然后,基于所構(gòu)建的漢語框架網(wǎng)絡(luò)本體,以語義框架為核心,以語料庫中的每條句子為處理對象進(jìn)行語義分析。采用計算機(jī)輔助人工標(biāo)注的方法,給語義框架所在的句子進(jìn)行語義標(biāo)引。對標(biāo)引過的句子,抽取其語義及句法特征信息并按一定的結(jié)構(gòu)存儲在數(shù)據(jù)庫中,形成本體標(biāo)注語料庫。語義分析及標(biāo)注過程如下:
首先,利用山西大學(xué)計算機(jī)應(yīng)用研究所開發(fā)的分詞軟件“分詞2000”對語料中的句子進(jìn)行分詞和詞性標(biāo)注,并根據(jù)詞元確定句中的標(biāo)注目標(biāo)詞。
第二,對句子進(jìn)行依存句法分析,確定句中目標(biāo)詞的依存項(xiàng)及與依存項(xiàng)之間的依存關(guān)系類型。
第三,語義標(biāo)引。根據(jù)目標(biāo)詞所激活的語義框架,分析句子中目標(biāo)詞元的依存項(xiàng)在語義框架中充當(dāng)?shù)目蚣茉兀瑢⑵涮钊肟蚣苤邢鄳?yīng)的語義槽,完成對框架元素的實(shí)例化處理。
對句子的標(biāo)注內(nèi)容:句子的目標(biāo)詞、句中語塊(片段)充當(dāng)?shù)目蚣茉亍⒄Z塊的短語類型及語法功能。目標(biāo)詞的標(biāo)注形式為,tgt是目標(biāo)詞的標(biāo)注符 號,w是句中的目標(biāo)詞。對句中語塊的標(biāo)注形式為“(FE-PT-GF span>”,F(xiàn)E,PT,GF分別表示框架元素、短語類型和語法功能,span是具體的語塊。
例如:對句子為A1“某華僑農(nóng)場趙明亮為了吸毒,1998年盜竊群眾的自行車30多輛!钡恼Z義標(biāo)注結(jié)果為:
,w。w
第四,提取標(biāo)注例句的特征信息,包括句中詞元的語義配價模式信息和框架元素的句法實(shí)現(xiàn)方式信息。為查詢子系統(tǒng)中的問句的語義分析做準(zhǔn)備。句子中的這種由包括核心詞在內(nèi)的各語塊的短語類型、語法功能按照語塊在句中的位置順序組成的信息序列即是該句的句法特征信息,也稱為目標(biāo)詞的句法配價信息。圖1是提取出的句子A1的特征信息:
最后,選取適當(dāng)?shù)男问,將?biāo)引過的句子作為語義信息實(shí)體存儲在語義語料庫中,并通過詞元與本體庫關(guān)聯(lián)。
文本語料的全文標(biāo)注與單個例句的語義分析及標(biāo)注過程相同,只不過前者是一些連續(xù)的、有一定順序的句子。
3 基于漢語框架網(wǎng)絡(luò)本體的問答式語義檢索系統(tǒng)的設(shè)計思路
基于本體的語義檢索以實(shí)現(xiàn)對信息資源的本體化和對用戶檢索請求的本體化為基礎(chǔ)。對信息資源的本體化是指利用本體知識對信息資源進(jìn)行語義分析,實(shí)現(xiàn)信息資源的語義標(biāo)注及格式化存儲,從而確定文檔以及文檔中的句子中在本體結(jié)構(gòu)中的位置;對用戶檢索請求的本體化是指利用本體中的知識對用戶的檢索請求加以規(guī)范和引導(dǎo),使用戶既能清晰地表達(dá)檢索需求,又能使機(jī)器很好地理解用戶意圖。
本文基于漢語框架網(wǎng)絡(luò)本體的問答式語義檢索系統(tǒng),以所構(gòu)建的法律框架網(wǎng)絡(luò)本體為基礎(chǔ),探討在該領(lǐng)域本體之下的語義檢索解決方案。通過對資源庫的框架語義標(biāo)注及用戶以自然語言提出的檢索請求的語義解析,具體檢索方案設(shè)計如下:①在框架網(wǎng)絡(luò)本體的支持下,對用戶的檢索請求進(jìn)行語義分析及語義擴(kuò)展,確定查詢目標(biāo),明確用戶檢索內(nèi)容;②根據(jù)檢索請求處理模塊提交的用戶查詢的特征信息對語料庫中的標(biāo)注文本進(jìn)行檢索,實(shí)現(xiàn)查詢對象與標(biāo)引文本的匹配;③計算檢索結(jié)果與用戶檢索請求的相關(guān)度大小,將最相關(guān)的句子作為答案句,從中抽取準(zhǔn)確答案提交給用戶界面。
據(jù)此,漢語框架網(wǎng)絡(luò)本體語義檢索系統(tǒng)從功能上可以分為三個模塊:用戶檢索請求處理模塊、信息檢索模塊及答案抽取模塊。如圖2所示:
3,1檢索請求處理模塊
為了讓用戶更好地表達(dá)其檢索意圖,我們向用戶提供自然語言檢索入口,允許用戶用自然語言向系統(tǒng)提問,系統(tǒng)收到用戶提問后,經(jīng)過簡單的預(yù)處理,如去除前綴、后綴,采用一些自然語言處理技術(shù),運(yùn)用法律框架網(wǎng)絡(luò)本體知識對用戶的提問進(jìn)行語義分析,得到用戶的真正檢索意圖。具體方法為:基于依存句法分析確定不同類型問句的目標(biāo)詞,采取模式匹配方法實(shí)現(xiàn)對問句的框架語義分析,完成對問句的框架語義標(biāo)注。根據(jù)疑問詞及框架元素的語義類型確定問句焦點(diǎn)與問句類型,構(gòu)建問句的語義檢索式。
3,1,1問句的依存句法分析筆者采用哈爾濱工業(yè)大學(xué)信息檢索研究室提供的免費(fèi)共享的語言技術(shù)平臺LTP對問句自動進(jìn)行分詞和詞性標(biāo)注基礎(chǔ)上的依存句法分析。以問句Q1“周紹海偷了誰的東西?”為例,分析得到的結(jié)果如圖3所示:
圖中,詞問依存關(guān)系用帶箭頭的弧線表示,依存弧從核心詞出發(fā),指向它的依存成份,并表明依存關(guān)系的類型。
3,1,2問句中目標(biāo)詞元的確定
目標(biāo)詞元在句中激活一個語義場景,它是句子的語義中心。因此,確定目標(biāo)詞實(shí)為確定句子的語義中心詞。通常情況下,句子的句法中心也是句子的語義中心。在這種情況下,可以將句子的句法核心詞作為語義中心詞,即框架語義分析的目標(biāo)詞。但是,有些句子的句法中心詞并不是句子的語義中心詞,通過綜合考察語料,結(jié)合作者的語言學(xué)知識,筆者針對不同情況確定了選擇句子語義中心詞的規(guī)則。
3,1,3問句句法配價信息的提取
LTP對句子進(jìn)行句法依存分析的粒度為單個的詞,而筆者在信息資源的語義標(biāo)注過程中以短語為單位對句子進(jìn)行框架語義分析。只考慮句法依存樹中以語義中心詞為父結(jié)點(diǎn)的各句子成份與其下位節(jié)點(diǎn)詞一起作為一個語塊與語義中心詞的句法依存關(guān)系。按照這一粒度,需根據(jù)句中的詞在依存樹中的位置及詞間的依存關(guān)系類型進(jìn)行詞匯捆綁,將句子劃分為一個個語塊。提取語塊的短語類型及與中心詞的依存關(guān)系類型,將相應(yīng)的符號轉(zhuǎn)換為與語料標(biāo)注符號系統(tǒng)相統(tǒng)一的格式,構(gòu)成問句的句法配價信息。
3,1,4問句的框架語義標(biāo)注
問句語義分析的實(shí)質(zhì)是對問句進(jìn)行語義表征。在本系統(tǒng)中就是要對問句實(shí)現(xiàn)基于框架的語義標(biāo)注。標(biāo)注過程基于這樣一種假設(shè):對于兩個句子,如果目標(biāo)詞激活相同的語義框架,且目標(biāo)詞具有相同句法依存結(jié)構(gòu),那么這兩條句子具有相同的語義配價模式。這是因?yàn),如前所述,詞的行為,尤其是對其論元的表達(dá)和理解,在很大程度上是由詞的語義決定的。因此,筆者選擇通過問句的句法配價信息與語料庫中例句的句法配價信息的匹配,來實(shí)現(xiàn)對問句的框架語義標(biāo)注,具體步驟為:①在框架元素的句法實(shí)現(xiàn)方式信息表中查找與問句的句法配價信息相匹配的記錄,得到該框架元句法實(shí)現(xiàn)方式對應(yīng)的語義配價信息的ID。②在語義配價信息表中獲取所得ID的語義配價信息,將它賦予問句中相應(yīng)的語塊,即對問句中的各語塊標(biāo)注框架語義。
3,1,5問句焦點(diǎn)的確定
問句的焦點(diǎn)即問句的答案所指。疑問詞是確定問句焦點(diǎn)的主要依據(jù)。一般情況下,通過專有疑問詞(例如,誰、哪兒、何時等)可以直接確定問題的焦點(diǎn);對于一些通用疑問詞(如,什么、哪個等),則需要憑借疑問詞的附屬成份來確定問題的焦點(diǎn)。筆者對部分疑問詞及其附屬成份從句法角度做了捆綁或過濾處理,所以,對問句焦點(diǎn)的確定不僅基于所構(gòu)建的疑問詞表,而且依據(jù)問句的句法、語義分析結(jié)果。
3,2信息檢索模塊
在信息資源的本體化階段,筆者已將法律領(lǐng)域相關(guān)的自然語言文本根據(jù)法律框架網(wǎng)絡(luò)本體的知識轉(zhuǎn)化成大量的按語義框架歸類、以框架元素為最小單位的信息實(shí)例,構(gòu)成基于法律框架網(wǎng)絡(luò)本體的標(biāo)注語料庫。
在問題處理階段,筆者將用戶的問題轉(zhuǎn)換成對某個語義框架的框架元素及其實(shí)例的查詢。經(jīng)過這兩部分的處理,就將自然語言檢索的問題轉(zhuǎn)換成了對實(shí)例化語義信息的檢索問題。以問句的目標(biāo)框架和除目標(biāo)框架元素以外的其他框架元素及其實(shí)例為檢索條件,在信息資源庫中查找符合條件的框架元素實(shí)例。檢索流程如圖4所示:
首先,根據(jù)從用戶請求處理部分提交過來的目標(biāo)語義框架,在本體數(shù)據(jù)庫中查找該語義框架的所有詞 元;第二步,在語料庫中查找以這些詞元為目標(biāo)詞的句子標(biāo)注集;第三步,篩選出包含目標(biāo)框架元素實(shí)例的句子,作為答案候選句提交給答案抽取模塊做進(jìn)一步處理。
3,3答案抽取模塊
答案抽取模塊收到信息檢索模塊提交的答案候選句后,采取基于概念圖匹配的方法對答案候選句與用戶檢索請求進(jìn)行語句相關(guān)度計算,按照相關(guān)度大小排序選取出相關(guān)度最大的句子作為答案句。最后,提取句中目標(biāo)框架元素的實(shí)例向用戶提交準(zhǔn)備答案。其工作流程如圖5所示:
答案抽取模塊的主要功能是按照與用戶查詢的相關(guān)度對查詢結(jié)果排序并以一定方式顯示給用戶。因此,查詢結(jié)果的排序算法對信息檢索系統(tǒng)至關(guān)重要,一個好的排序算法是檢索系統(tǒng)成功的保證,它直接決定了查詢結(jié)果對用戶的有用性和重要性。本系統(tǒng)采用了基于概念圖匹配的方法,將問句的框架語義結(jié)構(gòu)圖與信息資源中句子的框架語義結(jié)構(gòu)圖視作概念圖進(jìn)行語義相似度計算。計算過程中,句子的語義相似度分為框架概念相似度、框架元素概念相似度和語塊相似度三部分來考量。計算公式為:
上式中,Sire(CGQ,CGR)是分別代表問句的框架語義結(jié)構(gòu)和信息資源中答案候選句的框架語義結(jié)構(gòu)的查詢概念圖與資源概念圖的相似度。Sire(QFR,RFR)是查詢圖與資源圖中框架概念結(jié)點(diǎn)的相似度。n是查詢概念圖中包含的框架元素概念結(jié)點(diǎn)數(shù)。Sim(QFEi,RFEj)表示查詢概念圖中第i框架元素概念結(jié)點(diǎn)與資源圖中各框架元素概念結(jié)點(diǎn)之間的相似度。選擇資源概念圖中與QFEi相似度最大那個框架元素概念RFEj作為相匹配的框架元素,進(jìn)一步計算兩個相匹配的框架元素結(jié)點(diǎn)對應(yīng)的語塊間的相似度。對查詢圖和資源圖中匹配的框架元素的語塊相似度求和后除以查詢圖中框架元素概念結(jié)點(diǎn)的總數(shù),所得結(jié)果與兩圖中框架概念相似度的乘積即是查詢概念圖與資源概念圖之間的相似度或語義相關(guān)度。
4 語義檢索實(shí)驗(yàn)系統(tǒng)LawontoSearch
在前面分析的基礎(chǔ)上,實(shí)現(xiàn)了一個向用戶提供自然語言接口的語義檢索實(shí)驗(yàn)系統(tǒng)LawOntoSearch。下面通過一個實(shí)例說明該系統(tǒng)基于本體的語義檢索機(jī)制并分析其運(yùn)行效果。
4,1LawOntoSearch語義檢索機(jī)制
用戶向系統(tǒng)提交檢索問句后,系統(tǒng)調(diào)用哈工大信息檢索研究室的語言技術(shù)平臺“LTP”的句法依存分析系統(tǒng)及詞義消歧系統(tǒng),對句子進(jìn)行句法依存分析以確定句子的語義核心,即確定句子的目標(biāo)詞。利用詞元庫確定目標(biāo)詞所激活的語義框架,系統(tǒng)提供了與用戶的交互機(jī)制,當(dāng)目標(biāo)詞元激活多個語義框架時,可由用戶輔助確定目標(biāo)語義框架。然后,系統(tǒng)對問句進(jìn)行基于目標(biāo)框架的語義分析,明確問句中各語塊的語義,并確定問句的焦點(diǎn)。例如,當(dāng)用戶輸入檢索問句“周紹海偷了什么?”后,系統(tǒng)對句子的依存句法分析結(jié)果為“(np-subj周紹海)(tgt偷)(np-obj什么)”,表示句子中“周紹!弊鳛槊~短語(np)在句中做主語(subj),“偷”是該句的句法核心(具有述謂意義的詞),因而也成為句子的語義核心,作為句子的語義目標(biāo)詞(tgt)在本體庫中將激活一個語義框架“盜竊”。該框架激活這樣一個語義場景:以非法占有為目的,秘密竊取數(shù)額較大的公私財產(chǎn),該語義場景的參與角色(即該框架的框架元素)包括犯罪者、物品、時間、地點(diǎn)等。系統(tǒng)分析得到句子的句法特征“(np-subj)+(tgt)+(np-obj)”后與標(biāo)注語料庫中存儲的盜竊框架下該詞元的句法特征進(jìn)行匹配,找到相匹配的句法特征并將與之對應(yīng)的語義特征“(犯罪者)+(偷)+(物品)”賦予該句子,實(shí)現(xiàn)對用戶檢索問句的語義理解并按一定的規(guī)則確定問句的焦點(diǎn)。對該問句的處理結(jié)果如圖6所示:
在語料數(shù)據(jù)庫中要檢索的目標(biāo)框架為“盜竊”,檢索的目標(biāo)框架元素“物品”,約束條件是“犯罪者”是周紹海。
信息檢索模塊以查找出“盜竊”框架下所有詞元的標(biāo)注語句,從中提取出包含框架元素“物品”的實(shí)例(語塊)的句子作為答案候選句。答案抽取模塊計算答案候選句與問句之間的相關(guān)度并按相關(guān)度大小排序,然后按一定的形式向用戶提交檢索結(jié)果。檢索出的答案是“一家貿(mào)易公司的煤”或者“煤”。如圖7所示:
4,2LawOntoSearch的運(yùn)行效果分析
測試表明,LawOntoSearch實(shí)驗(yàn)系統(tǒng)能夠?qū)崿F(xiàn)對自然語言提問進(jìn)行句法及框架語義自動標(biāo)注,并提供友好接口實(shí)現(xiàn)與用戶的交互,及時修正機(jī)器自動標(biāo)注的結(jié)果。并通過框架庫及語義消歧系統(tǒng)將用戶提問的目標(biāo)詞、語塊進(jìn)行語義擴(kuò)充,以實(shí)現(xiàn)對用戶提問的語義理解。檢索過程中,能夠?qū)z索結(jié)果進(jìn)行相關(guān)性排序,并結(jié)合問句焦點(diǎn)向用戶提供精確答案。
用本系統(tǒng)和一個基于關(guān)鍵詞的檢索系統(tǒng)分別對從《中國法制日報》中的10個刑事案例文本為檢索資源進(jìn)行處理,并做了一個簡單的性能比較。以其中的一篇文本《雇傭保安原本是為防范外賊,沒想到去“引狼人室”》例,當(dāng)用戶想知道“周紹海偷了什么?”時,LawOntoSearch找到1篇文獻(xiàn),返回與問句相關(guān)的4條句子,每條句子中都包含了答案,并可以讀取出準(zhǔn)確答案。當(dāng)用戶向基于關(guān)鍵詞的檢索系統(tǒng)輸入關(guān)鍵詞“周紹海+偷”,發(fā)現(xiàn)系統(tǒng)找不到相關(guān)文獻(xiàn),無答案返回。而如果用戶向基于關(guān)鍵詞的輸入關(guān)鍵詞“周紹!睍r,系統(tǒng)找到1篇文獻(xiàn),返回13條答案句,其中9條句子并不包含用戶想要的信息。在針對該文本隨意提出的25個提問中,LawOntoSearch對其中20個問題給出了答案,答對18個,2個錯誤是因?yàn)長awOntoSearch系統(tǒng)沒有還沒有涉及到對于判斷問句的處理。對于基于關(guān)鍵字的檢索系統(tǒng),則對其中的15個問題做出回答,并且返回答案噪聲較大,其中包含錯誤答案和無關(guān)信息。從這個簡單的性能比較可以看出LawOntoSearch系統(tǒng)在檢全率和檢準(zhǔn)率兩方面都比基于關(guān)鍵字的信息檢索系統(tǒng)有一定程度的提高。
5 結(jié)語
本體是對世界或領(lǐng)域知識的概念化描述。本文將法律框架網(wǎng)絡(luò)本體應(yīng)用于語義檢索系統(tǒng)中,以實(shí)現(xiàn)對法律領(lǐng)域的檢索資源和用戶檢索提問的語義理解及語義擴(kuò)展,為提高問答式檢索系統(tǒng)的性能提高了可靠的保證。不足之處在于,目前語料庫中不論是標(biāo)注例句語料還是檢索資源語料都規(guī)模較小,對實(shí)現(xiàn)問句的語義分析有一定的制約性;在語義檢索過程中,只是利用到了框架之間的直接繼承關(guān)系,對于框架網(wǎng)絡(luò)本體庫中豐富的語義關(guān)系沒有充分利用,還沒最大限度地發(fā)揮這些關(guān)系在信息檢索乃至語義推理中的作用。
相關(guān)熱詞搜索:漢語 語義 本體 基于漢語框架網(wǎng)絡(luò)本體的問答式語義檢索系統(tǒng)分析與設(shè)計 數(shù)據(jù)庫概念結(jié)構(gòu)設(shè)計 語義分析技術(shù)
熱點(diǎn)文章閱讀