国产第页,国产精品视频一区二区三区,国产精品网站夜色,久久艹影院,精品国产第一页,欧美影视一区二区三区,国产在线欧美日韩精品一区二区

【網(wǎng)絡(luò)標(biāo)注的主要方法概述】概述網(wǎng)絡(luò)黑客攻擊方法

發(fā)布時(shí)間:2020-03-07 來源: 美文摘抄 點(diǎn)擊:

  [摘要]認(rèn)為標(biāo)注對(duì)于檢索至關(guān)重要,網(wǎng)絡(luò)標(biāo)注在網(wǎng)絡(luò)資源海量的今天更是如此。介紹網(wǎng)絡(luò)中標(biāo)注的方法:元數(shù)據(jù)標(biāo)注、聚類標(biāo)注和分類標(biāo)注,并對(duì)大眾標(biāo)注和語義標(biāo)注進(jìn)行詳細(xì)介紹。最后對(duì)這些標(biāo)法方法進(jìn)行比較分析及評(píng)價(jià)。
  [關(guān)鍵詞]大眾標(biāo)注 語義標(biāo)注 本體
  [分類號(hào)]TP311 G254.36
  
  在網(wǎng)絡(luò)信息爆炸的今天,讓用戶檢索到需要的信息至關(guān)重要,因而網(wǎng)絡(luò)環(huán)境中標(biāo)注顯得尤為重要。目前對(duì)于標(biāo)注的定義大家沒有統(tǒng)一的說法,但是本質(zhì)上都是一致的。概括來說即通過對(duì)文獻(xiàn)進(jìn)行主題分析,識(shí)別其重要特征,賦予確切的檢索標(biāo)識(shí)(類號(hào)、標(biāo)題詞、敘詞、關(guān)鍵詞、人名、地名等),用以反映該文獻(xiàn)內(nèi)容的過程。標(biāo)注的質(zhì)量,對(duì)文獻(xiàn)的檢索效果有直接的決定性影響。標(biāo)注的類型從不同的角度劃分有無數(shù)據(jù)標(biāo)注,聚類標(biāo)注,傳統(tǒng)網(wǎng)絡(luò)的分類,Web2.0中的大眾標(biāo)注,語義標(biāo)注等。
  
  1 幾種主要網(wǎng)絡(luò)標(biāo)注方法
  
  1.1 一些傳統(tǒng)網(wǎng)絡(luò)標(biāo)注方法
  1.1.1 元數(shù)據(jù)標(biāo)注傳統(tǒng)上元數(shù)據(jù)的創(chuàng)建有兩種方法專業(yè)人員創(chuàng)建和作者創(chuàng)建。第一種是指在圖書館和其他組織中最初創(chuàng)建的元數(shù)據(jù),大多為編目記錄或由精心挑選的復(fù)雜、詳細(xì)的規(guī)則集和詞匯;第二種方法是指作者創(chuàng)建的元數(shù)據(jù),表現(xiàn)為作者標(biāo)注的文檔可由SGML、萬維網(wǎng),都柏林核心集表現(xiàn)出束。
  1.1.2 聚類分析聚類分析是將事物按其某些屬性的相似程度歸至各個(gè)群體。傳統(tǒng)的文獻(xiàn)聚類方法主要有單遍聚類法、逆中心聚類法,密度測(cè)試法、圖論法等。這些方法大都通過計(jì)算文獻(xiàn)的相似度,生成待進(jìn)行聚類分析的文獻(xiàn)集的關(guān)系矩陣,然后通過分析此矩陣獲得文獻(xiàn)集的分類。Web文檔聚類技術(shù)可以縮減搜索引擎的搜索空間,加快檢索速度,提高查詢精度,因而受到人們的廣泛關(guān)注㈣。
  1.1.3 傳統(tǒng)網(wǎng)絡(luò)分類法傳統(tǒng)網(wǎng)絡(luò)分類法表現(xiàn)為兩種形式:一種是對(duì)現(xiàn)有文獻(xiàn)分類法實(shí)行網(wǎng)絡(luò)化。目前一些大型萬維網(wǎng)站點(diǎn)或搜索引擎均采用現(xiàn)有的文獻(xiàn)分類法組織Internet信息資源。如加拿大國(guó)家圖書館利用《杜威十進(jìn)分類法》編制綜合性網(wǎng)絡(luò)目錄Canadtan Information by Subject,英國(guó)BUBLSub,ject Tree利用《國(guó)際十進(jìn)分類法》編制了覆蓋國(guó)內(nèi)綜合性網(wǎng)上資源的目錄等;另一種是采用網(wǎng)絡(luò)自編分類法的形式。網(wǎng)絡(luò)自編分類法是20世紀(jì)90年代新興的專門網(wǎng)絡(luò)資源分類工具,以Yahoo、搜狐、美國(guó)的Excite等為代表的分類系統(tǒng)重視以事物對(duì)象為中心設(shè)置類目,以超文本的方式反映相關(guān)類目,現(xiàn)已發(fā)展成為許多門戶網(wǎng)站普遍使用的一種模式。
  隨著Internet的出現(xiàn),海量的網(wǎng)絡(luò)資源使得利用受控語言進(jìn)行標(biāo)注的可操作性變得越來越差,而利用自然語言進(jìn)行全文檢索以其方便、成本低、效率高等優(yōu)點(diǎn)獲得了全面發(fā)展,并很快成為因特網(wǎng)資源檢索的主流技術(shù)。在專業(yè)人員創(chuàng)建元數(shù)據(jù)、作者創(chuàng)建元數(shù)據(jù)表現(xiàn)出種種問題情況下又出現(xiàn)了第三種方法;用戶創(chuàng)建的元數(shù)據(jù),其應(yīng)用體現(xiàn)在Web2.0中。
  
  1.2 大眾標(biāo)注
  Web2.0的出現(xiàn)為用戶帶來了真正的個(gè)性化、去中心化和信息自主權(quán),它是互聯(lián)網(wǎng)的一次理念和思想體系的升級(jí)換代,由原來的自上而下的由少數(shù)資源控制者集中控制主導(dǎo)的互聯(lián)網(wǎng)體系轉(zhuǎn)變?yōu)樽韵露系挠蓮V大用戶集體智慧和力量主導(dǎo)的互聯(lián)網(wǎng)體系。在Web2.0中人們使用的是基于非受控詞即自然語言的標(biāo)注。在這里用戶不僅自己應(yīng)用創(chuàng)建的元數(shù)據(jù),也在社區(qū)中分享,這是一種自底向上的標(biāo)注方法。
  社會(huì)性標(biāo)簽?zāi)軌驈娜后w用戶分類中涌現(xiàn)出對(duì)應(yīng)使用最多的分類,這種通過協(xié)同用戶單個(gè)行為“涌現(xiàn)”出使用最多的分類法,是在大眾用戶持續(xù)使用“tag”的過程中被集體創(chuàng)造出來的,所以Thomas Vander Wal將其命名為Floksonomy(Floksonomy,由“Folks”和“Taxonomy”合成),即集合眾人之力產(chǎn)生的社會(huì)分類法。Folksonomy可被譯為“分眾分類”、“大眾分類”、“自由分類、“社會(huì)分類”、“通俗分類”,我們認(rèn)為“大眾標(biāo)注”更能反映出“folksonomy”是一種大眾性的、自由式的標(biāo)注。大眾標(biāo)注是一種使用用戶自由選擇的關(guān)鍵詞對(duì)網(wǎng)站進(jìn)行協(xié)作分類的方式,而這些關(guān)鍵詞一般稱為標(biāo)簽(tag)。該方法是大眾自發(fā)的用標(biāo)簽對(duì)網(wǎng)絡(luò)信息標(biāo)識(shí)和共享的過程,它沒有權(quán)威、成形的分類文本,而是依據(jù)大眾日?陬^詞匯對(duì)信息標(biāo)記,其結(jié)果表現(xiàn)為系統(tǒng)的標(biāo)簽云,標(biāo)簽云易于直觀地組織信息和共享信息,同時(shí)亦因缺乏等級(jí)結(jié)構(gòu)、不精確、濫用、同義詞等為研究者所質(zhì)疑。但網(wǎng)民卻接受了此種“有勝于無”的方案。
  大眾標(biāo)注法分為寬(Broad)大眾標(biāo)注法、窄(Narrow)大眾標(biāo)注法。寬大眾標(biāo)注法指許多用戶可以標(biāo)注同一事物,而窄大眾標(biāo)注法指只有一少部分用戶能夠標(biāo)注同一事物。
  在大眾標(biāo)注法中,非受控詞匯有著與生俱來的限制性和缺點(diǎn):標(biāo)簽“一詞多義”的現(xiàn)象就造成了標(biāo)簽的不確定性;同義詞的不可控性使得相同的概念用不同的標(biāo)簽標(biāo)注,這種“一義多詞”的現(xiàn)象又造成協(xié)作的不便性;單詞的不同格式,單復(fù)數(shù),也經(jīng)常用作不同的標(biāo)簽,這種情況在閃亮?xí)炆嫌葹橥怀?中文中不存在這種單復(fù)數(shù)的問題);美味書簽和閃亮?xí)炞畛踉O(shè)計(jì)時(shí)只是針對(duì)單個(gè)詞匯的,都不允許標(biāo)簽中出現(xiàn)空格。用戶就用多個(gè)不含空格的單詞組成單個(gè)的標(biāo)簽,比如閃亮?xí)炛械摹皏ertigovideostlllsbbc”,有時(shí)用戶在單個(gè)標(biāo)簽中融入層次,比如美味書簽中的“deslgn/css”。這兩個(gè)系統(tǒng)忽略了字母的大小寫,這可能導(dǎo)致具有不同含義的標(biāo)簽相同,尤其是在首字母縮寫時(shí)。這些都是傳統(tǒng)分類法中應(yīng)用受控詞匯的原因,但是在像美味書簽、閃亮?xí)炦@種語境體系中應(yīng)用受控詞匯是不太現(xiàn)實(shí)的。
  檢索完整性的要求需要詞表對(duì)詞間關(guān)系給予全面揭示,具體包括等同關(guān)系、等級(jí)關(guān)系、相關(guān)關(guān)系等。本體能夠表達(dá)概念間關(guān)系的這一特點(diǎn)可以補(bǔ)償大眾標(biāo)注的缺憾。
  
  1.3 語義標(biāo)注
  語義Web被稱為Web3.0,是Web上數(shù)據(jù)的一種表示,它基于資源描述框架RDF來集成以XML為語法、統(tǒng)一資源標(biāo)識(shí)符URI為命名機(jī)制的各種應(yīng)用。語義Web是對(duì)當(dāng)前Web的一種擴(kuò)充,并不是一個(gè)全新的Web,其研究重點(diǎn)就是如何將信息表示為計(jì)算機(jī)能夠理解和處理的形式,即帶有語義,使計(jì)算機(jī)和人能協(xié)同工作。
  實(shí)現(xiàn)語義web目標(biāo)的一個(gè)重要前提是利用本體詞匯標(biāo)注Web資源(如Web頁(yè)、服務(wù)等)。本體在TimBemes-Lee提出的語義Web的七層體系結(jié)構(gòu)中位于第四層,其目的是為捕獲相關(guān)領(lǐng)域的知識(shí),提供對(duì)該領(lǐng)域知識(shí)的共同理解,確定該領(lǐng)域內(nèi)共同認(rèn)可的詞匯,并給出這些詞匯(術(shù)語)和詞匯間相互關(guān)系的明確定義,通過概念之間的關(guān)系來描述概念的語義;诒倔w的語義標(biāo)注利用由專家定義好的本體支持內(nèi)容創(chuàng)建者在Web頁(yè)中添加語義元數(shù)據(jù),使其內(nèi)容能被人和機(jī)器所理解,與大眾標(biāo)注相比較這是一種自頂向下的分類法。利 用語義標(biāo)注工具對(duì)現(xiàn)有的大量Web信息進(jìn)行標(biāo)注,將使得Web頁(yè)的內(nèi)容成為機(jī)器可識(shí)別的數(shù)據(jù),從而構(gòu)成語義Web的基礎(chǔ)。
  OgeMarques等認(rèn)為語義網(wǎng)的成功在于能夠在Web頁(yè)面及其構(gòu)成上作語義標(biāo)記,且是以低成本的、采用一致性結(jié)構(gòu)和本體的方式。他們著力于圖像語義標(biāo)注的智能方式,并提出三層結(jié)構(gòu)。底層組織是從原圖像內(nèi)容中抽取的信息,這些信息映射中間層有語義的關(guān)鍵詞,而這些關(guān)鍵詞又聯(lián)系著頂層的結(jié)構(gòu)和本體。他利用機(jī)器學(xué)習(xí)算法作用戶自助的、半自動(dòng)的圖像標(biāo)注,可以加快相同領(lǐng)域本體圖像的標(biāo)注,并且改善標(biāo)注圖像以后的查詢和檢索。
  在Web服務(wù)方面,下一代網(wǎng)絡(luò)語義標(biāo)注下的軟件代理能比目前的軟件代理更快地抽取和翻譯Web內(nèi)容。Web服務(wù)中的語義標(biāo)注能夠促進(jìn)服務(wù)發(fā)現(xiàn),也能夠促進(jìn)服務(wù)組合轉(zhuǎn)化為工作流。但目前僅有少量的服務(wù)標(biāo)注被廣泛應(yīng)用,這就使得這種語義標(biāo)注仍然受限。Khalid Belhajjame等基于操作參數(shù)之間的聯(lián)系,在工作流中反復(fù)試驗(yàn),推斷關(guān)于操作參數(shù)的相關(guān)語義信息。雖在開放的上下文環(huán)境中只能推斷參數(shù)語義的約束,但這些松散的標(biāo)注在工作流、標(biāo)注、本體中檢測(cè)錯(cuò)誤仍然有價(jià)值,在簡(jiǎn)化手工標(biāo)注的任務(wù)中也很有價(jià)值。
  
  2 比較分析
  
  專業(yè)人員創(chuàng)建元數(shù)據(jù)最主要的問題是內(nèi)容擴(kuò)展時(shí)的可擴(kuò)性和可行性問題,尤其是在萬維網(wǎng)中。并且專業(yè)的編目系績(jī)工具對(duì)于沒有專門培訓(xùn)和知識(shí)的人來說太復(fù)雜;作者創(chuàng)建元數(shù)據(jù)也有問題,經(jīng)常出現(xiàn)不恰當(dāng)、不準(zhǔn)確的標(biāo)注,或者完全是虛假標(biāo)注。
  采用聚類分析方法對(duì)用關(guān)鍵詞或自由詞標(biāo)引的檢索系統(tǒng)中的詞表建立詞間關(guān)系,可以形成語義網(wǎng)提高系統(tǒng)檢索效率,達(dá)到語義控制的目的。但漢語詞條高達(dá)數(shù)百萬條使得待聚類的Web文檔特征詞條一權(quán)重矩陣的維數(shù)過高,增加了聚類算法的復(fù)雜度,因此空間維數(shù)較高或詞與詞間呈現(xiàn)較強(qiáng)的相關(guān)性時(shí)聚類質(zhì)量和算法的性能會(huì)明顯下降。目前有許多人從事該方面的研究,其中戚涌等人提出了基于潛在語義標(biāo)注(LatentSemanticIndexing―LSI)的Web文檔自動(dòng)分類,即對(duì)Web文檔采用最優(yōu)聚類準(zhǔn)則進(jìn)行聚類,使得獲得的特征向量具有較低的維數(shù)和更好的分類特征。
  亞當(dāng)?馬斯認(rèn)為大眾標(biāo)注將取代以往由專家控制的元數(shù)據(jù)編輯管理。Marieke Guy認(rèn)為大眾標(biāo)注指的就是關(guān)鍵詞、標(biāo)簽、元數(shù)據(jù),是由使用資源的社區(qū)創(chuàng)建的自然語言,術(shù)語間不存在層次結(jié)構(gòu),沒有特定的父子與兄弟關(guān)系,有反饋現(xiàn)象,是種類而非分類。
  而在語義標(biāo)注中人們將本體引入標(biāo)注系統(tǒng)用于知識(shí)的組織。之所以將ontology引入網(wǎng)絡(luò)信息資源組織領(lǐng)域,是因?yàn)閛ntology的研究著眼于更加寬泛的空間――即為人類認(rèn)識(shí)活動(dòng)構(gòu)建頂層概念框架;ontology更加突出知識(shí)共享的功能,更著眼于給出人類事物認(rèn)識(shí)的知識(shí)(或領(lǐng)域知識(shí))總框架,以期待將Internet上的信息資源組織成一個(gè)語義網(wǎng)、知識(shí)網(wǎng),以最大程度實(shí)現(xiàn)Internet信息資源的有效利用。
  
  3 評(píng)價(jià)
  
  正如David welnberger所述,大眾標(biāo)注法不同于傳統(tǒng)分類法,最重要的地方表現(xiàn)在傳統(tǒng)分類法是自頂向下的、有層次的,而大眾標(biāo)注法是自底向上的,沒有層次的。如果說傳統(tǒng)的分類法所得的是棵分類樹,那么大眾標(biāo)注法只是將由用戶自創(chuàng)建的葉子堆到了一起。語義標(biāo)注所依賴的本體也是一種自頂向下分類法,所以從這點(diǎn)來看,可以將語義標(biāo)注與傳統(tǒng)分類法歸為一類,即都是使用受控詞匯的分類法。但是語義標(biāo)注不僅增加了可控性,更由于本體的介入獲得了標(biāo)注中使用語義的便捷性。
  在大眾標(biāo)注法中可以考慮在用戶添加標(biāo)簽后,利用人工智能和ontology的方法對(duì)標(biāo)簽進(jìn)行分析定位,并向用戶顯示其所處的樹狀,甚至網(wǎng)狀的知識(shí)體系結(jié)構(gòu),方便用戶從整體上認(rèn)識(shí)問題。這做到了大眾標(biāo)注自底向上與ontology自頂向下的結(jié)合。
  
  4 結(jié)語
  
  標(biāo)注對(duì)開發(fā)者而言可以更好地組織信息,對(duì)用戶而言可以更好地檢索信息。傳統(tǒng)網(wǎng)絡(luò),Web2.0中的標(biāo)注都需要ontol-ogy的引入,需要語義標(biāo)注的參與。目前在語義標(biāo)注方面也已經(jīng)有應(yīng)用研究出現(xiàn),但語義標(biāo)注的發(fā)展需要ontology的深度介入。不過,作為底層支持的ontology自身研究進(jìn)展緩慢,尤其是國(guó)內(nèi)仍然研究多于應(yīng)用,這給語義標(biāo)注的發(fā)展造成瓶頸。我們期待語義標(biāo)注更全面的發(fā)展,以促進(jìn)語義網(wǎng)絡(luò)更快速的進(jìn)步,從而能更便捷地為人所用。

相關(guān)熱詞搜索:標(biāo)注 概述 方法 網(wǎng)絡(luò)標(biāo)注的主要方法概述 沉孔標(biāo)注方法 螺紋標(biāo)注方法

版權(quán)所有 蒲公英文摘 www.huhawan.com