国产第页,国产精品视频一区二区三区,国产精品网站夜色,久久艹影院,精品国产第一页,欧美影视一区二区三区,国产在线欧美日韩精品一区二区

人生感悟 蒲公英文摘 > 人生感悟 >

【文本可視化技術(shù)與競(jìng)爭(zhēng)情報(bào)】文本可視化

發(fā)布時(shí)間:2020-03-10 來源: 人生感悟點(diǎn)擊：

　　[摘要]競(jìng)爭(zhēng)情報(bào)實(shí)踐離不開收集大量資料，在這些收集到的公開資料中有大量自由文本，從這類文本中正確高效地提取出情報(bào)是非常重要的。從可視化技術(shù)角度，把文本可視化分為文本內(nèi)可視化和文本間可視化技術(shù)，并分別就這兩大類技術(shù)下的各類文本可視化技術(shù)的特點(diǎn)以及如何將它們應(yīng)用于競(jìng)爭(zhēng)情報(bào)文本分析進(jìn)行闡述，提出文本可視化是競(jìng)爭(zhēng)情報(bào)分析的新的重要手段。
　　[關(guān)鍵詞]文本可視化　競(jìng)爭(zhēng)情報(bào)　競(jìng)爭(zhēng)情報(bào)分析
　　[分類號(hào)]G350
　　1、引言
　　
　　目前對(duì)競(jìng)爭(zhēng)情報(bào)沒有統(tǒng)一的定義，但無論中外，競(jìng)爭(zhēng)情報(bào)都是指通過公開、合法的手段搜集各類信息，依靠對(duì)收集到的信息進(jìn)行科學(xué)分析得到用于決策的情報(bào)…。當(dāng)前資料的主要來源包括從各類媒體中收集公開報(bào)導(dǎo)，從公開的數(shù)據(jù)庫中收集學(xué)術(shù)文獻(xiàn)，從互聯(lián)網(wǎng)收集網(wǎng)頁、論壇、郵件等，收集的資料大部分都是半結(jié)構(gòu)化或非結(jié)構(gòu)化的文本信息。如何高效地從中分析出有效的情報(bào)來支持決策，成為競(jìng)爭(zhēng)情報(bào)研究的重要內(nèi)容。
　　競(jìng)爭(zhēng)情報(bào)實(shí)踐借助IT輔助手段由來已久，而且計(jì)算機(jī)系統(tǒng)在競(jìng)爭(zhēng)情報(bào)信息的收集、存儲(chǔ)和處理分析中已具有非常重要的地位。但一直以來從文本中分析出競(jìng)爭(zhēng)情報(bào)所需內(nèi)容的工作卻很難借助計(jì)算機(jī)來自動(dòng)完成。2000年由美國加州大學(xué)伯克利分校的Peter Ly－man和Hal Varian領(lǐng)導(dǎo)的團(tuán)隊(duì)研究認(rèn)為，當(dāng)前人類每年新產(chǎn)生的數(shù)據(jù)量大約是2 EB(每EB相當(dāng)于106TB)，即便其中文本只占較少的比例，僅1999年當(dāng)年新印刷的書也超過1 000 000本。以人類的閱讀能力，面對(duì)如此海量的數(shù)據(jù)，且不要說從篩選的信息中分析到有用的情報(bào)，僅僅“篩選”就是不可能完成的任務(wù)。
　　如何讓人們能以最快的速度從大量以抽象數(shù)據(jù)形式存在的文本中獲得有效的情報(bào)，在競(jìng)爭(zhēng)越來越激烈的互聯(lián)網(wǎng)時(shí)代是非常重要的。筆者認(rèn)為把可視化技術(shù)應(yīng)用于文本處理是解決方案之一。
　　在人腦中，有70％的感知和40％大腦皮層的接受是與視覺有關(guān)的，與觸覺、聽覺等其他知覺相比，視覺的帶寬要寬得多。進(jìn)一步的研究還表明，人們感知和記憶可視化圖像的帶寬是文本的2倍�？梢妼�(duì)于圖像的認(rèn)知能力使圖像成為人類最有效的交流方式，也顯示了用圖像來表達(dá)和傳遞文本信息的價(jià)值。
　　所謂文本可視化是指從文本中提取出一定的模式來生成圖形，用戶通過與可視化界面的交互來快速理解文本。當(dāng)前文本可視化已經(jīng)形成了不少技術(shù)，依據(jù)可視化的對(duì)象是著眼于文本內(nèi)還是文本之間，筆者把目前的文本可視化技術(shù)劃分成“文本內(nèi)可視化”和“文本間可視化”兩大類，它們都能在競(jìng)爭(zhēng)情報(bào)中發(fā)揮重要的作用。
　　文本可視化的文本范圍包括：論文、書本、Web頁面、電子郵件、論壇中的評(píng)論、社交網(wǎng)站中的貼子和個(gè)人資料以及博客和微博中的博文等內(nèi)部沒有結(jié)構(gòu)、內(nèi)容千差萬別的“自由文本”。
　　
　　2、文本內(nèi)可視化
　　
　　文本內(nèi)可視化的主要目的是快速地從文本中找出重要的內(nèi)容，通過揭示內(nèi)容的結(jié)構(gòu)和內(nèi)容之間的關(guān)系幫助用戶快速獲取所需情報(bào)，通過劃分文本細(xì)節(jié)為用戶獲得情報(bào)進(jìn)行導(dǎo)航，減少競(jìng)爭(zhēng)情報(bào)分析人員在低附加值勞動(dòng)中所花費(fèi)的時(shí)間，提高分析工作時(shí)效。
　　文本內(nèi)可視化依據(jù)可視化呈現(xiàn)的特點(diǎn)可以分為詞匯索引式的文本可視化、基于詞頻的文本可視化和基于詞匯分布的文本可視化。
　　2.1　詞匯索引式的文本可視化
　　這類可視化從全文中搜索詞匯，把去掉停用詞后剩下的所有詞匯編成一個(gè)索引，通過索引來展示相應(yīng)詞匯在全文中的使用。圖1的左側(cè)圖中，左邊欄顯示的是所有的索引詞，通過鼠標(biāo)點(diǎn)擊選中某詞，右側(cè)窗口會(huì)顯示文本中所有與該詞相關(guān)的句子。圖1的右側(cè)圖來自施樂PARC研究中心的SeeSoft，圖形每欄中的一行代表文本中的一個(gè)句子。通過選擇左側(cè)的詞，右側(cè)文本中與該詞相關(guān)的句子就會(huì)高亮地顯示出來。
　　詞匯索引式的文本可視化在競(jìng)爭(zhēng)情報(bào)的分析中是非常有用的，比如，通過所形成的詞匯的統(tǒng)計(jì)數(shù)據(jù)可以讓競(jìng)爭(zhēng)情報(bào)人員知道該文本所論述的主要內(nèi)容，并通過與之相關(guān)聯(lián)的句子快速從文本內(nèi)找到核心數(shù)據(jù)和主要內(nèi)容。如果是有目的地查找和檢索，則可以從相關(guān)詞匯在整個(gè)文本中的分布狀態(tài)快速判斷該文本的價(jià)值，從而從大量的全文閱讀中解脫出來，把更多的精力用于情報(bào)分析。
　　2.2　基于詞頻的文本可視化
　　基于詞頻的文本可視化是目前經(jīng)常被采用的一種方式。人們因某個(gè)詞在文本中反復(fù)出現(xiàn)而假定該詞是文中的重要詞匯，在把文本用可視化方式展現(xiàn)時(shí)，通過改變?cè)~的大小、顏色、中心位置等方式把出現(xiàn)頻率高的詞顯示在重要、醒目的位置。
　　詞頻統(tǒng)計(jì)技術(shù)是文本挖掘的重要技術(shù)，也是基于詞頻的文本可視化技術(shù)中除對(duì)于詞的“可視化映射”和“顯示技術(shù)”之外的重點(diǎn)技術(shù)。目前對(duì)于西文基于詞頻的可視化技術(shù)相對(duì)比較成熟：從全文抽取出所有詞匯，去掉停用詞后對(duì)所有剩余的獨(dú)特的詞建立統(tǒng)計(jì)表。建表的方式多種多樣，有些是用柱形圖，有些是放在數(shù)據(jù)庫的一個(gè)字段中。在統(tǒng)計(jì)的過程中，要運(yùn)用一些如Porter Stemming等的算法對(duì)英文單詞進(jìn)行原形化處理。
　　應(yīng)用相對(duì)詞頻計(jì)算(TFIDF，term frequency inverteddocument frequency)算法處理文檔中的詞以確定該詞的重要性。目前可以使用的TFIDF算法有很多，比較常見的計(jì)算公式為：
　　公式中w(t，D)為詞t在文本D中的權(quán)重，tf(t，D)為詞t在文本D中的詞頻，N為文本集中的文本總數(shù)，n為向量的維數(shù)，ti為向量第i個(gè)分量對(duì)應(yīng)的特征項(xiàng)，nti為總文本中出現(xiàn)ti的文本數(shù)，nt為文本集中出現(xiàn)t的文本數(shù)，分母為規(guī)范化因子。
　　在圖2中，左圖是目前常見的標(biāo)簽云圖，它按照全文中所有詞匯出現(xiàn)的頻率來確定詞的大�。挥覉D的中心詞匯是可以通過點(diǎn)擊鼠標(biāo)來切換的，切換后中心詞的外圈是整個(gè)文本中曾與該詞匯搭配出現(xiàn)的詞，詞的大小是由出現(xiàn)的頻率決定的。
　　基于詞頻的文本可視化可以應(yīng)用于單個(gè)文本，也可用于大量文本集匯成的文本。這種技術(shù)在收集到數(shù)量大而對(duì)內(nèi)容毫無所知的資料時(shí)是非常有用的：把所有資料統(tǒng)一到大的文本集下，通過字云(見圖2左)技術(shù)快速了解最主要被使用的詞匯，從而知道文本集最主要的論述內(nèi)容，用于快速推斷文本集中所論述的主要研究領(lǐng)域、研究熱點(diǎn)。通過層次詞頻結(jié)構(gòu)(見圖2右)可以快速獲得競(jìng)爭(zhēng)情報(bào)課題中感興趣的詞匯在文本或文本集中與哪些其他詞匯有共現(xiàn)關(guān)系，共現(xiàn)的緊密程度如何，幫助從大量文本中發(fā)現(xiàn)競(jìng)爭(zhēng)對(duì)手、競(jìng)爭(zhēng)環(huán)境中的危機(jī)和機(jī)會(huì)。如果文本集中的文本帶有時(shí)間戳，還可以快速發(fā)現(xiàn)變化趨勢(shì)。
　　2.3　基于詞匯分布的文本可視化
　　這種類型的可視化是用可視化方式呈現(xiàn)全文中與輸入的查詢條件一致的詞在文章中的分布情況，可以讓查詢者更清楚地了解返回文獻(xiàn)的內(nèi)容與自己需求的對(duì)應(yīng)關(guān)系，從而有針對(duì)性地選擇文獻(xiàn)。以來自加州大學(xué)伯克利分校的TileBars為例：它會(huì)依據(jù)輸入的關(guān)鍵詞對(duì)于資料庫中所有資料進(jìn)行全文分析，然后返回符合搜索條件的文本，而且用可視化的方式告訴你檢索詞在文獻(xiàn)全文中的頻率分布。
　　圖3中的長條代表著文獻(xiàn)全文，一行長條對(duì)應(yīng)一個(gè)檢索詞在文獻(xiàn)內(nèi)的情況，每一個(gè)矩形代表文章的一個(gè)自然段。對(duì)矩形顏色的灰度也有明確的定義：灰度越高，該檢索詞在該自然段出現(xiàn)的頻率越高；反之則頻率越低，當(dāng)顏色為全白時(shí)，表明該檢索詞沒有在該自然段中出現(xiàn)。以圖3中的返回結(jié)果為例，文獻(xiàn)1較長，但提到“Information”的段落基本都沒提到“Visualiza－tion”，而文獻(xiàn)2中有3個(gè)自然段同時(shí)出現(xiàn)這兩個(gè)詞。如果分析的對(duì)象是“Information Visualization”，則文獻(xiàn)2的價(jià)值更高。
　　在當(dāng)前信息充分豐富的情況下，“查全率”已不是最受關(guān)注的問題。當(dāng)一次檢索返回成千上萬條查詢結(jié)果時(shí)，通過詞匯在整個(gè)文本中的分布示意使快速了解文本內(nèi)容相關(guān)度、找到最相關(guān)的資料成為可能。
　　
　　3、文本間可視化
　　
　　文本內(nèi)可視化研究的重點(diǎn)在于揭示文本內(nèi)部內(nèi)容的重點(diǎn)、內(nèi)部結(jié)構(gòu)之間的關(guān)系。而如果要看到多個(gè)文本之間的關(guān)系、多文本內(nèi)容的異同程度、一系列文本內(nèi)容的重點(diǎn)隨時(shí)間的變化情況等就要通過文本間可視化技術(shù)來展現(xiàn)。
　　3.1　基于時(shí)間序列的文本可視化
　　時(shí)間是文本的一個(gè)重要屬性，針對(duì)文本在時(shí)間上的關(guān)系進(jìn)行可視化，同時(shí)在此基礎(chǔ)上進(jìn)行一些特別的分析，可以發(fā)現(xiàn)多個(gè)文本背后的規(guī)律，是研究趨勢(shì)、技術(shù)發(fā)展的規(guī)律以及文章內(nèi)容的變遷等的有效工具。
　　圖4是通過ThemeRiver實(shí)現(xiàn)的對(duì)1990年6月至8月間超過100 000份西方國家主要報(bào)紙的報(bào)導(dǎo)所生成的可視化圖。圖中一種顏色代表一種主題，寬度代表頻率。從中可以看到白色和黑色在8月份突然得到高頻關(guān)注，這是因?yàn)?月2號(hào)Iraq入侵了Kuwait。該圖同時(shí)揭示了可視化圖從左到右始終持續(xù)地得到關(guān)注的主題：石油。
　　字云技術(shù)也是分析文本主題隨時(shí)間變遷常被用到的技術(shù)。The Daily Beast網(wǎng)站通過字云技術(shù)展現(xiàn)了美國從Woodrow Wilson到Barack Obama共計(jì)21位總統(tǒng)就職演講的字云圖，不必分別閱讀每位總統(tǒng)幾千字的演講全文，一眼就可以看到各自演講的重點(diǎn)；如果從時(shí)間角度對(duì)比，還可看到歷屆總統(tǒng)執(zhí)政重點(diǎn)的變遷過程，這是很重要的競(jìng)爭(zhēng)環(huán)境的情報(bào)。
　　時(shí)間是競(jìng)爭(zhēng)情報(bào)非常重要的分析對(duì)象，在競(jìng)爭(zhēng)情報(bào)實(shí)踐過程中所收集的資料基本都是與時(shí)間有關(guān)的。傳統(tǒng)的分析方法很難把時(shí)間與文本分析結(jié)合起來，而借助基于時(shí)間序列的文本可視化技術(shù)可以快速揭示多個(gè)文本內(nèi)容背后的規(guī)則和模式。
　　3.2　基于主題地圖的文本可視化
　　基于文本主題的可視化技術(shù)是目前文本可視化應(yīng)用最多的方式之一。它可以讓用戶更直接地從海量文本中找出感興趣的文本集，在查準(zhǔn)率的基礎(chǔ)上顧全查全率，還能得到通常只有通過內(nèi)容分析才能獲得的潛在關(guān)系。
　　文本主題的形成是在對(duì)文本進(jìn)行全文抽詞的基礎(chǔ)上應(yīng)用某種TFIDF算法得到的，確定了主題詞后用該詞集通過某種向量空間模型在向量空間中表達(dá)該文本集，對(duì)于整個(gè)文本集通過多維尺度MDS、Isometric特征映射(1somap)等方式來降維處理，再通過自組織算法(SOM)和可視化映射表達(dá)為可視化的主題地圖。
　　以來自美國太平洋西北國家實(shí)驗(yàn)室(Pacific North－west National Laboratory)的IN－SPIRE為例，其實(shí)現(xiàn)方式就是掃描源文本的全文或文摘，抽取出域和相應(yīng)的術(shù)語，再依據(jù)域到術(shù)語的索引生成“術(shù)語到域”的索引。通過FAST－INV算法生成把整個(gè)文本作為一個(gè)記錄的“術(shù)語到記錄”的索引。利用建立的索引發(fā)現(xiàn)相關(guān)聯(lián)的術(shù)語集群，形成N維的“主題”和“核心術(shù)語”，把記錄中全部M個(gè)詞分別去與這N維關(guān)聯(lián)，形成關(guān)聯(lián)矩陣。對(duì)該關(guān)聯(lián)矩陣進(jìn)行計(jì)算得到每個(gè)記錄(文本)中的知識(shí)標(biāo)簽，這樣該文本就在一個(gè)高維的N維空間中占據(jù)了一個(gè)點(diǎn)。對(duì)文本集中的其他文本也采用同樣的方式進(jìn)行處理，最終使每個(gè)文本都有自己在N維空間中的位置。然后通過計(jì)算這N維空間中各文本之間的標(biāo)量距離進(jìn)行聚類，再通過多維尺度降維算法把它投影到二維空間中形成如圖5所示的可視化圖形：
　　圖5中山峰和山谷表示主題與主題之間的關(guān)系。大量內(nèi)容相近的文本聚成山峰，其高度與該主題下的文本數(shù)相對(duì)應(yīng)。山峰之間的距離代表主題之間的關(guān)系，峰間距離越近則表示相應(yīng)文本的內(nèi)容相似度也高。
　　在競(jìng)爭(zhēng)情報(bào)實(shí)踐中主題地圖可視化是非常高效的工具，收集到大量資料時(shí)情報(bào)分析人員首先要進(jìn)行篩選找出相關(guān)資料。面對(duì)海量數(shù)據(jù)采用人工方式是不可想象的，而借助主題地圖文本可視化技術(shù)可以迅速了解這些資料的大致類別。如果只對(duì)某個(gè)主題有興趣，就只需研究組成該山峰的文本；如果是為了分析資料集中不同主題間的關(guān)系，也可以很直觀地實(shí)現(xiàn)。
　　3.3　基于引用關(guān)系的文本可視化
　　其可視化依據(jù)的是文本之間的引用關(guān)系，雖不是直接針對(duì)文本內(nèi)容，但因其可聚類內(nèi)容相似的文本，也可作為理解文本的重要手段。
　　通過對(duì)作者或文獻(xiàn)之間的互引、同引、同被引的可視化分析，應(yīng)用可視化圖譜中的引文網(wǎng)絡(luò)時(shí)序圖、共引網(wǎng)絡(luò)圖譜和時(shí)間線視圖等可揭示某個(gè)研究主題的論文或?qū)＠脑搭^、最初著者及其發(fā)展脈絡(luò)，可探測(cè)研究前沿隨時(shí)間變化趨勢(shì)，可以繪制各領(lǐng)域主流期刊和相關(guān)群體，揭示期刊、作者之間的相互關(guān)系和交叉關(guān)系。
　　知識(shí)圖譜的可視化方式目前已經(jīng)成為學(xué)科情報(bào)研究的重要手段。而把這種可視化方式應(yīng)用于對(duì)專利文獻(xiàn)間引用關(guān)系的分析，可以揭示競(jìng)爭(zhēng)情報(bào)中非常重要的技術(shù)情報(bào)，用直觀的方式展示某個(gè)專利技術(shù)領(lǐng)域中核心的專利和技術(shù)及其重要的發(fā)明人，該領(lǐng)域技術(shù)的發(fā)展歷程等，對(duì)于企業(yè)創(chuàng)新技術(shù)、網(wǎng)羅人才、確定戰(zhàn)略方向等有重要的價(jià)值。
　　基于引用關(guān)系的文本可視化技術(shù)其可視化的重點(diǎn)是揭示網(wǎng)絡(luò)關(guān)系，因此，網(wǎng)絡(luò)可視化是其中最常用到的可視化技術(shù)。筆者認(rèn)為在可視化研究領(lǐng)域，網(wǎng)絡(luò)可視化是與文本可視化處于平等地位的重要分支，相關(guān)的技術(shù)也非常多而復(fù)雜。鑒于其不是本文研究的重點(diǎn)，在此只就其在文本可視化中的應(yīng)用作簡(jiǎn)單闡述。
　　在分析主題的基礎(chǔ)上對(duì)文本間的引用進(jìn)行網(wǎng)絡(luò)分析，可以通過計(jì)算關(guān)聯(lián)主題數(shù)量的方法識(shí)別主題網(wǎng)絡(luò)中的核心主題和次要主題，關(guān)聯(lián)主題數(shù)量最多的為核心主題，其他為次要主題。
　　
　　4、結(jié)論
　　
　　網(wǎng)絡(luò)時(shí)代帶來的是競(jìng)爭(zhēng)的全球化和對(duì)競(jìng)爭(zhēng)響應(yīng)的高效化，讓人類擁有從來也沒有過的豐富信息資源，同時(shí)也給人們從中汲取有用情報(bào)帶來了困難。
　　雖然把可視化技術(shù)應(yīng)用于文本研究的時(shí)間并不長，但目前已取得一些卓有成效的成果，如已有不少國外圖書館采用可視化的檢索和搜索；主題地圖文本可視化方式已成為多個(gè)可視化專利分析軟件的重要組成部分，成為揭示技術(shù)研究熱點(diǎn)、空白點(diǎn)、技術(shù)變遷的重要分析工具；字云技術(shù)目前更是已經(jīng)成為很多需要快速揭示大量文本內(nèi)容信息的重要手段之一。
　　受中文自然語言處理技術(shù)的影響，文本可視化技術(shù)全面應(yīng)用于中文競(jìng)爭(zhēng)情報(bào)文本的分析受一定局限，但通過本文的論述仍可看到文本可視化對(duì)競(jìng)爭(zhēng)情報(bào)的價(jià)值。在快速響應(yīng)的網(wǎng)絡(luò)時(shí)代，傳統(tǒng)人工閱讀的方式已經(jīng)根本無法適應(yīng)，自動(dòng)摘要等文本處理技術(shù)也還存在很多不足。文本可視化在競(jìng)爭(zhēng)情報(bào)中的應(yīng)用可以使知識(shí)發(fā)現(xiàn)的分析結(jié)果為更多、更廣泛的人群所理解，可以局部解決信息過載問題，在競(jìng)爭(zhēng)情報(bào)研究、決策支持等相關(guān)領(lǐng)域發(fā)揮出巨大作用。相信解決中文文本處理只是時(shí)問的問題。

相關(guān)熱詞搜索：可視化文本競(jìng)爭(zhēng)情報(bào) 文本可視化技術(shù)與競(jìng)爭(zhēng)情報(bào) 技術(shù)先進(jìn)的競(jìng)爭(zhēng)情報(bào)分析競(jìng)爭(zhēng)情報(bào)分析的技術(shù)優(yōu)勢(shì)

熱點(diǎn)文章閱讀

進(jìn)京上訪死結(jié)怎樣化解?_進(jìn)京上 2020-03-17
黨史故事有意義的黨史小故事 2020-03-22
【反腐３０年之十大貪官】 2 2020-03-06
人生的講章 2017-02-06
【兩位神秘的中共一大國際代表 2020-02-27
紅黑游戲的感悟 2017-02-16
被潛規(guī)則打倒的縣委書記:桐廬 2020-03-06
為虎作倀反義詞:助紂為虐打一 2018-11-26
重慶市市長的兒子照片 [唐良 2020-03-23
梁保華：施政江蘇_粱保華現(xiàn)任 2020-02-18

版權(quán)所有 蒲公英文摘 www.huhawan.com