一種基于類(lèi)別分布信息的中文文本分類(lèi)模型|一個(gè)類(lèi)別做文本分類(lèi)
發(fā)布時(shí)間:2020-03-07 來(lái)源: 散文精選 點(diǎn)擊:
[摘要]特征降維是文本分類(lèi)面臨的主要問(wèn)題之一。首先通過(guò)x2分布對(duì)特征項(xiàng)進(jìn)行選擇,然后使用一種改進(jìn)的基于密度聚類(lèi)方法對(duì)選擇后的特征項(xiàng)進(jìn)行聚類(lèi),借助類(lèi)別分布信息,在盡量減少信息缺失的前提下先后兩次對(duì)文本特征維數(shù)進(jìn)行了壓縮:在基于類(lèi)別概率分布的模式下實(shí)現(xiàn)文本的矩陣表示,借助矩陣?yán)碚撨M(jìn)行文本分類(lèi)。試驗(yàn)結(jié)果表明,該方法的分類(lèi)效率較高。
[關(guān)鍵詞]文本分類(lèi) 特征選擇 特征聚類(lèi) Bayes分布 文本表示
[分類(lèi)號(hào)]TP391
1 引 言
伴隨著信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)上海量信息資源對(duì)信息檢索(Information Retrieval,IR)研究帶來(lái)了巨大挑戰(zhàn),同時(shí)也為其提供了難得的發(fā)展機(jī)遇。作為信息檢索和文本挖掘的重要內(nèi)容之一,文本自動(dòng)分類(lèi)得到了越來(lái)越多的關(guān)注。文本分類(lèi)(Text Categorization,TC)的主要任務(wù)就是在預(yù)先給定的類(lèi)別標(biāo)記集合下,根據(jù)待分文本內(nèi)容對(duì)其類(lèi)別歸屬進(jìn)行判定。文本分類(lèi)技術(shù)在自然語(yǔ)言處理、信息過(guò)濾、信息推薦等領(lǐng)域有著廣泛的應(yīng)用基礎(chǔ),同時(shí)其發(fā)展也受這些相關(guān)領(lǐng)域技術(shù)水平發(fā)展的制約;跈C(jī)器學(xué)習(xí)的中文文本分類(lèi)方法相比較于早期的基于知識(shí)工程或?qū)<蚁到y(tǒng)的文本分類(lèi)模式,在分類(lèi)效果、方法靈活性、擴(kuò)展性等方面均有所突破,同時(shí)在特征選擇、文本表示、分類(lèi)器性能評(píng)價(jià)、自反饋系統(tǒng)設(shè)計(jì)以及分類(lèi)效果評(píng)估等方面均不同程度得到發(fā)展。
2 文本特征降維的兩種主要模式及其特點(diǎn)
文本特征降維是文本分類(lèi)面臨的主要問(wèn)題之一。文本特征降維主要有兩種路徑:一是基于特征相關(guān)特性的特征抽;二是基于特征統(tǒng)計(jì)特性的特征選擇。特征抽取一般是通過(guò)映射把測(cè)量空間的數(shù)據(jù)投影到特征空間,獲得在特征空間相應(yīng)的數(shù)值,進(jìn)而對(duì)特征項(xiàng)的作用進(jìn)行評(píng)估,其本質(zhì)是完成測(cè)量空間到特征空間的變換;谔卣飨嚓P(guān)性的文本分類(lèi)研究如潛在語(yǔ)義索引(Latent Semantic Indexing,LSI)、主成分分析(Principal Component Analysis,PCA)等模型得到一定進(jìn)展,但是由于諸如語(yǔ)義排歧等相關(guān)的自然語(yǔ)言處理技術(shù)研究有待深入,完全基于概念的向量空間模型在信息檢索應(yīng)用中還沒(méi)有充分體現(xiàn)出應(yīng)有的優(yōu)勢(shì)。特征選擇是從特征集合里借助評(píng)估函數(shù)選出對(duì)文本表示能力強(qiáng)的部分特征項(xiàng),其結(jié)果是得到原特征項(xiàng)集的一個(gè)子集,本質(zhì)上是對(duì)特征集合的約簡(jiǎn)。在特征選擇方面,由于中文文本的語(yǔ)法、語(yǔ)義、語(yǔ)言習(xí)慣等在使用上呈現(xiàn)極端的復(fù)雜多樣性,目前的文本特征選擇方法如互信息、x2統(tǒng)計(jì)、期望交叉熵等尚有許多可以改進(jìn)的地方。本文從特征項(xiàng)相對(duì)于文本類(lèi)別分布的角度出發(fā),對(duì)特征項(xiàng)選取方法和文本表示模式兩個(gè)方面加以改進(jìn),提出了一種新的特征降維和文本表示方法度量文本和類(lèi)別的相似度,試驗(yàn)結(jié)果表明,該方法在提高文本分類(lèi)精度上取得了較好的效果。
3 一種基于統(tǒng)計(jì)信息的特征聚類(lèi)方法
3.1 特征選取對(duì)文本分類(lèi)算法的影響
在向量空間模型(vectorSpaceModel,VSM)相關(guān)理論下,KNN文本分類(lèi)算法被認(rèn)為是最好的分類(lèi)算法之一。其思想是將測(cè)試文本根據(jù)特征項(xiàng)表示成向量形式,然后計(jì)算其與訓(xùn)練樣本集里每個(gè)樣本的相似度,依相似度值大小取前k個(gè)最相似的訓(xùn)練樣本,將該測(cè)試文本歸入相似樣本最多的那一類(lèi)中。但是KNN算法存在一些不足之處。首先,文本類(lèi)屬判定與文本特征選取的數(shù)量和質(zhì)量相關(guān),若特征選取的數(shù)量過(guò)大,文本向量的維數(shù)太高,使得計(jì)算開(kāi)銷(xiāo)過(guò)大,并且許多特征項(xiàng)對(duì)類(lèi)別歸屬所能提供的信息很少;另一方面,大量減少特征詞數(shù)量又會(huì)丟失許多重要的分類(lèi)信息。再者將文本表示成向量后,利用夾角余弦等手段計(jì)算文本相似度卻不能體現(xiàn)特征項(xiàng)之間的內(nèi)在聯(lián)系,各特征項(xiàng)“各自用力”,因而不能確切體現(xiàn)文本間相似程度。因此,合理的特征選取及表示是提高文本分類(lèi)效果的關(guān)鍵因素之一。
3.2 基于特征項(xiàng)相關(guān)性統(tǒng)計(jì)信息的特征選擇
在常用的幾種特征選擇方法,比如互信息,信息增益、文本證據(jù)權(quán)、詞頻方法以及CHI(x2統(tǒng)計(jì))統(tǒng)計(jì)里面,CHI方法通常優(yōu)于其余方法,該方法體現(xiàn)了詞與詞之間的相關(guān)信息、詞與文本類(lèi)別之間的相互關(guān)聯(lián)程度,反映了特征項(xiàng)對(duì)類(lèi)別判定信息含量的大小。一般說(shuō)來(lái),特別是在大樣本情況下,語(yǔ)義上相同或相近的特征項(xiàng)在相同的文本類(lèi)別分布上應(yīng)該呈現(xiàn)相同或相近的性態(tài)。也就是說(shuō),在概率意義下,它們?cè)趚2分布列上應(yīng)該體現(xiàn)出相似的概率值。為此,可以認(rèn)為具有相似CHI分布的特征項(xiàng)對(duì)文本分類(lèi)應(yīng)該具有相似的貢獻(xiàn)。因而我們首先對(duì)CHI分布相似的特征項(xiàng)進(jìn)行初步選擇,在最大程度減少文本信息缺失的前提下,可以大幅度降低文本向量維數(shù)。
設(shè)訓(xùn)練文本集的類(lèi)別數(shù)為S類(lèi),記為c1,c2,cs;對(duì)每個(gè)特征項(xiàng)t,利用x2統(tǒng)計(jì)得到相應(yīng)的CHI統(tǒng)計(jì)值:
這里A是特征項(xiàng)t1和第,類(lèi)文本共現(xiàn)次數(shù),B是特征項(xiàng)t1出現(xiàn)而第j類(lèi)文本不出現(xiàn)次數(shù),c是第j類(lèi)文本出現(xiàn)但是特征項(xiàng)t1不出現(xiàn)的次數(shù),D特征項(xiàng)t1和第j類(lèi)文本均不出現(xiàn)的次數(shù),N為文本數(shù);L為文本集里特征項(xiàng)個(gè)數(shù)。
wy表示t1在第j類(lèi)文本里的權(quán)重,p(c1)表示訓(xùn)練集里第j類(lèi)文本出現(xiàn)的概率,常以其在訓(xùn)練集里所占頻率p(c)=n1/n計(jì)算,其中n1為訓(xùn)練集第i類(lèi)文本數(shù),n為訓(xùn)練集里文本總數(shù)。
x2統(tǒng)計(jì)量體現(xiàn)了特征項(xiàng)t1與類(lèi)別c1之間的相關(guān)程度。該模式認(rèn)為t1與c1之間符合自由度為1的一分布,(1)。x2統(tǒng)計(jì)量綜合考慮了特征項(xiàng)t1和屬于類(lèi)別c1的文本同現(xiàn)情況與不同現(xiàn)情況下t1在類(lèi)別c1的文本中的重要程度。也就是說(shuō)x2值越大,說(shuō)明t1對(duì)屬于c1中的文本進(jìn)行定類(lèi)的作用越大。其顯著優(yōu)點(diǎn)是詞匯的計(jì)算量較低、分類(lèi)效果良好。
按照從大到小取前R個(gè)v1值相應(yīng)的特征項(xiàng)作為文本集的特征項(xiàng),不失一般性,設(shè)這R個(gè)特征項(xiàng)相應(yīng)向量為
為了消除不同類(lèi)別相應(yīng)文本數(shù)的差異對(duì)特征項(xiàng)權(quán)重的影響,v1取為歸一后的單位向量。
這樣借助CHI統(tǒng)計(jì)方法對(duì)文本分類(lèi)的作用,對(duì)文本集的特征項(xiàng)進(jìn)行了初步篩選,將個(gè)數(shù)在“類(lèi)別貢獻(xiàn)”意義下從L個(gè)壓縮為R1,i=1,2,…R。對(duì)分類(lèi)作用相同或相似的特征項(xiàng),特別在大樣本條件下語(yǔ)義相同或相近的特征項(xiàng)在Rs。上的分布應(yīng)該呈現(xiàn)出相應(yīng)的幾何特性。為此再對(duì)這R個(gè)單位特征向量進(jìn)行聚類(lèi),并以各個(gè)類(lèi)中心向量作為該類(lèi)內(nèi)所有特征項(xiàng)的唯一代表。
k-meain方法是常用的聚類(lèi)方法,該算法的主要思想是不斷計(jì)算每個(gè)聚類(lèi)s1的中心,即聚類(lèi)s1中對(duì)象的算術(shù)平均值作為下一步聚類(lèi)的新的種子,直到每個(gè)元素的類(lèi)屬情況不再變化為止。該方法具有較好的可伸縮性和很快的收斂速度,適合處理大文本集。當(dāng)結(jié)果簇密集并且各簇之間的區(qū)別明顯時(shí),特別是當(dāng)數(shù)據(jù)呈現(xiàn)球形分布時(shí),采用k-means算法的效果較好,但是該方法對(duì)孤立點(diǎn)過(guò)于敏感。
為此我們對(duì)該方法進(jìn)行改進(jìn)。思想是在計(jì)算聚類(lèi)的中心時(shí)避開(kāi)這些孤立點(diǎn)的影響,即:在進(jìn)行第k輪聚類(lèi)種子的計(jì)算時(shí),將簇中那些與第k-1輪聚類(lèi)種子相似度明顯小的數(shù)據(jù)剔除,使用剩余向量集合里的元素的均值點(diǎn)作為第k輪聚類(lèi)的新種子。即對(duì)于第i-1輪聚類(lèi)獲得的類(lèi)簇si-j,計(jì)算給定閡值
4 結(jié)語(yǔ)
本文在,統(tǒng)計(jì)和特征聚合模式下,兩次對(duì)特征項(xiàng)個(gè)數(shù)進(jìn)行了壓縮,在盡量減少信息缺失的前提下實(shí)現(xiàn)了特征降維,很大程度上節(jié)約了計(jì)算開(kāi)銷(xiāo);在基于類(lèi)別概率分布的模式下實(shí)現(xiàn)了文本的矩陣表示,通過(guò)矩陣范數(shù)計(jì)算實(shí)現(xiàn)了文本分類(lèi)。試驗(yàn)結(jié)果表明該方法的分類(lèi)效果令人滿(mǎn)意。文本的矩陣表示為矩陣性質(zhì)在文本分類(lèi)中的應(yīng)用提供了研究基礎(chǔ),今后的工作重點(diǎn)將放在使用矩陣良好的分析性質(zhì)在文本分類(lèi)中的合理應(yīng)用的可能性上的研究。
相關(guān)熱詞搜索:中文 分布 模型 一種基于類(lèi)別分布信息的中文文本分類(lèi)模型 文本分類(lèi) 文本分類(lèi)下的所有文章
熱點(diǎn)文章閱讀