數(shù)據(jù)分析模型 [基于文本情感挖掘的企業(yè)技術(shù)競爭情報(bào)采集模型研究]
發(fā)布時(shí)間:2020-03-07 來源: 感恩親情 點(diǎn)擊:
[摘要]在分析情感知識的技術(shù)競爭情報(bào)價(jià)值和文本信息資源的情感特性及情感化方式的基礎(chǔ)上,圍繞企業(yè)技術(shù)競爭情報(bào)獲取目標(biāo)與環(huán)境,結(jié)合文本情感挖掘流程構(gòu)建由數(shù)據(jù)層、處理層、應(yīng)用層組成的采集模型,可用于從以網(wǎng)絡(luò)技術(shù)評論為典型代表的主觀性文本信息資源中識別出情感知識作為對傳統(tǒng)的主題式情報(bào)采集的有益補(bǔ)充,實(shí)現(xiàn)情感類技術(shù)競爭情報(bào)的智能獲取。
[關(guān)鍵詞]企業(yè)技術(shù)競爭情報(bào)情報(bào)采集情感挖掘
[分類號]G350
技術(shù)競爭情報(bào)可以幫助企業(yè)加強(qiáng)對技術(shù)發(fā)展、技術(shù)市場、技術(shù)競爭對手以及企業(yè)自身技術(shù)能力與優(yōu)勢的正確認(rèn)知,為企業(yè)技術(shù)創(chuàng)新提供有力支持。目前,企業(yè)技術(shù)競爭情報(bào)的采集主要依靠人工瀏覽或借助于相關(guān)軟件,圍繞特定技術(shù)主題展開情報(bào)采集工作。這種面向主題的信息采集策略針對情報(bào)需求,僅獲取相關(guān)主題的信息,有利于提高技術(shù)競爭情報(bào)采集的主題相關(guān)度及其速度和效率。但同時(shí),“基于主題的采集”也意味著重點(diǎn)關(guān)注客觀信息主題,而忽略信息源中所擁有的其他類型知識,如情感知識――它們作為技術(shù)主體主觀感受的外在體現(xiàn),也是重要的情報(bào)來源,對其進(jìn)行開發(fā)挖掘,是對傳統(tǒng)的主題式情報(bào)采集的有益補(bǔ)充。本文在分析情感知識的技術(shù)競爭情報(bào)價(jià)值及文本信息資源情感特性的基礎(chǔ)上,構(gòu)建基于文本情感挖掘的技術(shù)競爭情報(bào)采集模型。
1 情感知識的企業(yè)技術(shù)競爭情報(bào)價(jià)值
1.1 企業(yè)技術(shù)競爭情報(bào)概述
企業(yè)技術(shù)競爭情報(bào)指為滿足企業(yè)技術(shù)創(chuàng)新需求,提升技術(shù)商業(yè)價(jià)值,實(shí)現(xiàn)企業(yè)商業(yè)競爭目標(biāo)所需的有關(guān)技術(shù)信息和知識,它能深化企業(yè)對內(nèi)外部技術(shù)環(huán)境的認(rèn)知,其獲取需要對企業(yè)自身、競爭對手、外部機(jī)構(gòu)、技術(shù)客戶等信息源進(jìn)行知識層次的深加工處理。企業(yè)技術(shù)競爭情報(bào)作為技術(shù)戰(zhàn)略活動與競爭情報(bào)整合的產(chǎn)物,其工作的開展以競爭為導(dǎo)向,以信息為基石,以分析處理為手段,能為技術(shù)戰(zhàn)略制定提供必要輸入,從而有效促進(jìn)技術(shù)戰(zhàn)略的實(shí)施,提升企業(yè)技術(shù)競爭優(yōu)勢。
1.2 情感知識在技術(shù)競爭情報(bào)中的價(jià)值體現(xiàn)
企業(yè)技術(shù)競爭情報(bào)作為“對企業(yè)制定技術(shù)戰(zhàn)略決策有用的與技術(shù)相關(guān)的信息”,具有對技術(shù)環(huán)境的描繪與認(rèn)識功能,其需求存在于技術(shù)戰(zhàn)略管理所包含的領(lǐng)域業(yè)務(wù)問題中,如在企業(yè)的R&D項(xiàng)目選擇中需要了解哪些技術(shù)比較熱門;在進(jìn)行關(guān)鍵技術(shù)跟蹤與預(yù)測時(shí),需要評估技術(shù)開發(fā)前景等。從廣義上看,技術(shù)競爭情報(bào)工作貫穿于企業(yè)的技術(shù)戰(zhàn)略管理與技術(shù)創(chuàng)新的整個(gè)過程,不僅應(yīng)著眼于企業(yè)技術(shù)研發(fā),還應(yīng)服務(wù)于技術(shù)產(chǎn)品化、市場化。在由技術(shù)研發(fā)類、技術(shù)產(chǎn)品化類、技術(shù)市場類所構(gòu)成的三維一體式技術(shù)競爭情報(bào)活動中(見圖1),為輔助實(shí)現(xiàn)識別技術(shù)活動行為、識別技術(shù)發(fā)展趨勢等技術(shù)戰(zhàn)略管理目標(biāo),存在廣泛的信息保障需求。
其中,專家對技術(shù)開發(fā)前景的看法、市場對技術(shù)的接受程度等情感類知識對于企業(yè)正確認(rèn)識技術(shù)競爭環(huán)境發(fā)揮著重要作用。如在利用Hype cycle模型識別技術(shù)生命周期狀態(tài)時(shí),需要采集社會情感類知識。Hypecycle模型將技術(shù)的發(fā)展過程劃分為技術(shù)誘發(fā)期、期望過熱期、期望谷底期、技術(shù)攀升期、技術(shù)成熟期五個(gè)階段,并通過可視化曲線形式表征技術(shù)成熟度、市場接受度和商業(yè)應(yīng)用程度。Hype cycle模型各階段具有一些顯著特性,如從技術(shù)探索階段到期望釋放頂峰期間,會提出一些具有轟動效應(yīng)的概念或產(chǎn)生一些引發(fā)社會關(guān)注的事件,此時(shí),期刊、網(wǎng)站等媒體涌現(xiàn)大量正面報(bào)道的信息;在到達(dá)期望頂峰后,由于一些失敗案例的出現(xiàn),技術(shù)進(jìn)入了低谷,大眾期望逐漸消退,此時(shí),各種媒體很少出現(xiàn)相關(guān)的文章和技術(shù)討論,且負(fù)面評價(jià)居多。這些外部情感狀態(tài)成為利用Hype cycle模型劃分技術(shù)發(fā)展階段的重要社會特性類參考指標(biāo)。
2 文本信息資源的情感特性及獲取
2.1 文本信息資源的情感特性
文本作為人類認(rèn)識事物存在方式和運(yùn)動狀態(tài)的語言載體,不僅客觀表達(dá)出事物主題,同時(shí)還包含認(rèn)識主體的自我情感,體現(xiàn)出一定的主觀性。在現(xiàn)代語言學(xué)范疇下,“情感”一詞的外延很寬泛,包括感情、情緒、觀點(diǎn)、意向、態(tài)度、看法、評價(jià)等。文本語言情感特性是語言主觀性的一種體現(xiàn),即在話語中含有說話人“自我”的表現(xiàn)成分――說話人在說出一段話的同時(shí)表明自己對這段話的立場、態(tài)度和感情,從而在話語中留下自我的印記。情感特性作為文本語言的一種基本屬性,廣泛存在于新聞報(bào)刊、電子雜志等媒介中,尤其是隨著社會性網(wǎng)絡(luò)軟件以及社區(qū)、論壇等開放性交流平臺的普及,情感特性在個(gè)人博客、評論等文本形式的信息資源中日益突出。
2. 2 文本情感知識的獲取
文本情感特性的產(chǎn)生需要經(jīng)歷一個(gè)情感化的過程,即文本語言采用一定的結(jié)構(gòu)或形式才能體現(xiàn)說話主體的情感。情感化是一項(xiàng)非常復(fù)雜的語言藝術(shù)行為,不同的語言在表現(xiàn)“情感性”時(shí)所采用的形式有所不同,同一門語言也可采用或明顯或隱晦的多種方式加以展現(xiàn),具體而言,包含情感用詞、語法、布局等多種途徑。一些典型的情感化方式如表1所示:
近年來,網(wǎng)絡(luò)信息資源中所蘊(yùn)含的豐富的文本情感知識引發(fā)政府、企業(yè)以及消費(fèi)者等多主體的重視,成為體察社會輿情、探測用戶需求心理的重要依據(jù)。面對海量的文本信息資源,如何克服人工理解方式所固有的低效性,準(zhǔn)確、快速、自動獲取其中的情感知識以滿足多應(yīng)用需求,針對這一問題的研究形成一個(gè)新穎而且十分重要的領(lǐng)域――基于文本的情感挖掘。文本情感挖掘融合語言學(xué)、信息檢索、文本挖掘等多領(lǐng)域的理論與技術(shù),針對不同的情感化方式,從情感詞統(tǒng)計(jì)、語法推理等不同角度對詞語、句子、篇章等不同粒度的文本對象進(jìn)行情感分析,識別其中的心理態(tài)度、情感傾向及其演化趨勢。
3 基于文本情感挖掘的企業(yè)技術(shù)競爭情報(bào)采集模型
圍繞企業(yè)技術(shù)競爭情報(bào)獲取目標(biāo)與環(huán)境,結(jié)合文本情感挖掘流程,本文設(shè)計(jì)的一體化采集模型如圖2所示:
該模型由數(shù)據(jù)層、處理層、應(yīng)用層組成,可用于從以網(wǎng)絡(luò)技術(shù)評論為典型代表的主觀性文本信息資源中識別出情感知識作為對傳統(tǒng)的主題式情報(bào)采集的有益補(bǔ)充,實(shí)現(xiàn)情感類技術(shù)競爭情報(bào)的智能獲取。
3.1 數(shù)據(jù)層
根據(jù)技術(shù)環(huán)境中技術(shù)影響因素和參與角色,企業(yè)技術(shù)競爭情報(bào)主要來源于企業(yè)自身、大學(xué)實(shí)驗(yàn)室、科學(xué)研究機(jī)構(gòu)、競爭企業(yè)、供應(yīng)商及消費(fèi)者等主體的技術(shù)活動行為,其信息表征形式主要為科技論文、研發(fā)報(bào)告、技術(shù)專利、技術(shù)評論等。由于科技論文、技術(shù)標(biāo)準(zhǔn)與專利等信息源側(cè)重于對事物、事件、現(xiàn)象的客觀描述,較少包含作者自身的主觀性、情感化的論述,因此這類信息源不宜作為文本情感挖掘的主要數(shù)據(jù)來源,以免干擾、降低情感挖掘處理層的效率與性能。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展以及各種開放式內(nèi)容生產(chǎn)平臺和社交網(wǎng)絡(luò)的出現(xiàn),信息交流的理念與模式發(fā)生很大變化,相較于傳統(tǒng)信息環(huán)境,用戶能夠并有意愿積極參與到信息的非正式生產(chǎn)與自由化溝通中。這使得網(wǎng)絡(luò)環(huán)境中不僅包 括大量灰色的、主觀性較強(qiáng)的技術(shù)研發(fā)報(bào)告,還擁有參與者之間的交流溝通所表達(dá)出來的情感型知識。這些知識廣泛蘊(yùn)含于技術(shù)研究團(tuán)隊(duì)博客、技術(shù)專家博客、技術(shù)風(fēng)險(xiǎn)投資評論、技術(shù)用戶評論等動態(tài)信息源中。
3.2 處理層
目前的文本情感挖掘研究側(cè)重于分析文本的情感傾向,并根據(jù)其傾向強(qiáng)度的不同分為不同的情感類別(如消極的/積極的、正面的/負(fù)面的),實(shí)現(xiàn)情感分類。傳統(tǒng)文本分類主要針對文本主題,基于詞語間的相似度或文檔中的詞頻數(shù)進(jìn)行分析,通過對訓(xùn)練文本的訓(xùn)練,統(tǒng)計(jì)出相關(guān)類別中詞語的出現(xiàn)頻度或概率,然后根據(jù)目標(biāo)文本中相關(guān)詞語的頻度信息判別出其類別。情感型文本不太滿足詞語間相互獨(dú)立等基本假設(shè)條件,如果直接利用已有的一些文本分類方法進(jìn)行情感分類,無法達(dá)到主題分類的效果。比較有效的解決途徑是引入語言學(xué)理論與知識,針對情感用詞、構(gòu)句、語法等不同的情感化方式,借助語義分析處理手段實(shí)現(xiàn)基于情感分類的文本情感挖掘;谡Z義理解的文本情感挖掘通常需要首先構(gòu)建情感語料庫或利用已有的詞語知識庫生成情感詞典,在此基礎(chǔ)上進(jìn)行主觀性句子識別、情感關(guān)系抽取、基于特征的情感分析等關(guān)鍵處理,從具體研究對象這一特定粒度層次出發(fā),辨別、分析出文本信息資源中蘊(yùn)含的情感知識,實(shí)現(xiàn)文本情感分類。
?主觀性句子識別。情感性語句一般包含說話人對事物的觀點(diǎn),體現(xiàn)出一定的主觀性,如例1所示:
例1:“中國大學(xué)生設(shè)計(jì)的節(jié)能車搭載了Honda低油耗摩托車的4沖程發(fā)動機(jī)。這款通過搭載摩托車發(fā)動機(jī)的節(jié)能賽車是世界上獨(dú)一無二的創(chuàng)意杰作!
在例1中,第一個(gè)句子描述客觀事實(shí),為客觀句;第二個(gè)句子包含了說話人對客觀事實(shí)的肯定態(tài)度,為情感傾向較強(qiáng)的主觀句。在對大量文本進(jìn)行情感分析之前,為降低客觀句對文本情感分類性能的影響,需要盡量剔除干擾信息,只保留主觀性語句。目前,主觀性句子識別主要建立在情感語料庫基礎(chǔ)之上,以情感詞識別為主,輔之以各種詞匯及文法信息,然后根據(jù)標(biāo)準(zhǔn)分類器或標(biāo)注的特征進(jìn)行判斷。
?情感關(guān)系抽取。情感關(guān)系抽取的主要任務(wù)是識別句子或篇章所存在的評價(jià)詞及與目標(biāo)對象之間的關(guān)聯(lián)關(guān)系,如例1的主觀句中,評價(jià)詞“獨(dú)一無二”、“創(chuàng)意”、“杰作”等對應(yīng)的評價(jià)對象為“節(jié)能賽車”。為識別出這類關(guān)聯(lián)關(guān)系,通常一方面需要建立領(lǐng)域特征庫作為待評價(jià)對象的概念表征,如構(gòu)建面向技術(shù)競爭情報(bào)的技術(shù)特征本體作為表達(dá)技術(shù)或子技術(shù)的狀態(tài)、功能、應(yīng)用、工藝、產(chǎn)品等相關(guān)因素的領(lǐng)域術(shù)語,用于識別顯式主題;另一方面可通過人工構(gòu)建的情感詞匯本體、利用HowNet等已有概念知識庫推理生成情感詞匯本體,或選擇合適的情感語料庫并根據(jù)詞語的語義關(guān)系計(jì)算判斷出詞語情感傾向等不同方式識別出句子或篇章的評價(jià)詞及原始的情感傾向強(qiáng)度等。
?基于特征的情感分析。情感分析以情感詞作為句子、文本的情感傾向識別的基礎(chǔ),而情感關(guān)系抽取中目標(biāo)對象及其評價(jià)詞關(guān)聯(lián)關(guān)系的映射可以使情感分析深入到具體的對象特征這一特定粒度;谔卣鞯那楦蟹治鐾ㄟ^對抽取出的情感詞進(jìn)行上下文語境分析,檢測程度副詞、情感詞匯組合等語法現(xiàn)象,并采用一定的公式計(jì)算出目標(biāo)對象特征的上下文情感極性。具體而言,基于特征的情感分析在計(jì)算情感傾向性時(shí)可采用基于情感詞組的分類技術(shù)實(shí)現(xiàn)(否定語句等需進(jìn)行特殊處理),主要包含三個(gè)步驟:①利用詞性標(biāo)注方法提取特征項(xiàng)句子中所包含的形容詞或副詞詞組;②使用逐點(diǎn)互信息計(jì)算方法與公式估計(jì)所抽取詞組的語義傾向性;③基于特征項(xiàng)計(jì)算所有提取詞組的平均語義傾向性值。
3.3 應(yīng)用層
采集模型中的應(yīng)用層主要包含兩方面的功能:①實(shí)現(xiàn)用戶與系統(tǒng)的交互,用戶可以根據(jù)實(shí)際任務(wù)的需要自主調(diào)整、維護(hù)情感語料庫、技術(shù)情報(bào)特征庫,并通過一定的軟件環(huán)境指導(dǎo)文本情感挖掘過程以及查看挖掘結(jié)果;②提供導(dǎo)入和導(dǎo)出接口,擴(kuò)充、豐富挖掘功能,實(shí)現(xiàn)與基于主題的技術(shù)競爭情報(bào)采集結(jié)果、商業(yè)競爭情報(bào)采集結(jié)果的集成,并能有機(jī)融入到技術(shù)戰(zhàn)略管理系統(tǒng)中,提供技術(shù)戰(zhàn)略決策支持。從上文有關(guān)情感知識在技術(shù)競爭情報(bào)中的價(jià)值論述可知,對于技術(shù)生命周期分析這類典型技術(shù)競爭情報(bào)決策支持目標(biāo),情感知識在Hype cycle模型生成中發(fā)揮了關(guān)鍵作用。這里可以考慮將情感挖掘和時(shí)間序列挖掘有機(jī)融入到Hype Cycle模型的創(chuàng)建中:①用戶可以通過應(yīng)用層為特定技術(shù)領(lǐng)域選擇或自行構(gòu)建技術(shù)情報(bào)特征庫作為情感挖掘分析的目標(biāo)對象,并同時(shí)指定相關(guān)的情感語料庫或情感詞匯本體;②利用應(yīng)用層接口導(dǎo)入時(shí)間序列挖掘功能,經(jīng)過主觀性句子識別、情感關(guān)系抽取、基于特征的情感分析等環(huán)節(jié)的處理操作,實(shí)現(xiàn)對技術(shù)報(bào)告、專家評論等序列數(shù)據(jù)的挖掘,洞察社會對相關(guān)技術(shù)的情感傾向性及其變化趨勢。這種基于文本情感挖掘模型的技術(shù)競爭情報(bào)采集理念與方式可以為技術(shù)成熟度度量提供定量依據(jù),提升以往完全依靠專家主觀感受進(jìn)行判斷的決策效果與效率。
4 結(jié)語
企業(yè)技術(shù)競爭情報(bào)的挖掘有助于企業(yè)加強(qiáng)對技術(shù)環(huán)境的認(rèn)知。網(wǎng)絡(luò)技術(shù)評論、專家博客等文本信息資源所蘊(yùn)含的情感知識是一類非傳統(tǒng)意義上的技術(shù)競爭情報(bào),對企業(yè)制定技術(shù)戰(zhàn)略決策具有重要價(jià)值。本文對情感知識的技術(shù)競爭情報(bào)價(jià)值特征、文本信息資源的情感特性及情感化途徑、基于語義分析的文本情感挖掘方法等進(jìn)行了簡要分析,并初步構(gòu)建了基于文本情感挖掘的企業(yè)技術(shù)競爭情報(bào)采集模型。在今后的研究中,將進(jìn)一步結(jié)合技術(shù)決策者的業(yè)務(wù)環(huán)節(jié),將分析其情感類技術(shù)競爭情報(bào)需求作為挖掘目標(biāo),根據(jù)采集模型設(shè)計(jì)開發(fā)原型系統(tǒng),并選擇和結(jié)合實(shí)際企業(yè)技術(shù)工作環(huán)境,多方面應(yīng)用企業(yè)技術(shù)管理人員和技術(shù)領(lǐng)域?qū)<业膫(gè)性化知識,評估挖掘效果。
相關(guān)熱詞搜索:采集 挖掘 模型 基于文本情感挖掘的企業(yè)技術(shù)競爭情報(bào)采集模型研究 圖書情報(bào) 圖書情報(bào)專業(yè)
熱點(diǎn)文章閱讀