系統(tǒng)學習機器學習之弱監(jiān)督學習(一)--弱監(jiān)督學習綜述x
發(fā)布時間:2020-09-08 來源: 思想?yún)R報 點擊:
系統(tǒng)學習機器學習之弱監(jiān)督學習(一)-- 弱監(jiān)督學習綜述 摘要:監(jiān)督學習技術通過學習大量訓練樣本來構建預測模型,其中每個訓練樣本都有一個標簽標明其真值輸出。盡管當前的技術已經取得了巨大的成功,但是值得注意的是,由于數(shù)據(jù)標注過程的高成本,很多任務很難獲得如全部真值標簽這樣的強監(jiān)督信息。因此,能夠使用弱監(jiān)督的機器學習技術是可取的。本文綜述了弱監(jiān)督學習的一些研究進展,主要關注三種弱監(jiān)督類型:不完全監(jiān)督:只有一部分訓練數(shù)據(jù)具備標簽;不確切監(jiān)督:訓練數(shù)據(jù)只具備粗粒度標簽;以及不準確監(jiān)督:給出的標簽并不總是真值。
機器學習在各種任務中取得了巨大成功,特別是在分類和回歸等監(jiān)督學習任務中。預測模型是從包含大量訓練樣本的訓練數(shù)據(jù)集中學習,每個訓練樣本對應一個事件或對象。訓練樣本由兩部分組成:一個描述事件/對象的特征向量(或示例),以及一個表示真值輸出的標簽。在分類任務中,標簽表示訓練樣本所屬的類別;在回歸任務中,標簽是一個與樣本對應的實數(shù)值。大多數(shù)成功的技術,如深度學習 [1],都需要含有真值標簽的大規(guī)模訓練數(shù)據(jù)集,然而,在許多任務中,由于數(shù)據(jù)標注過程的成本極高,很難獲得強監(jiān)督信息。因此,研究者十分希望獲得能夠在弱監(jiān)督前提下工作的機器學習技巧。
通常來說,弱監(jiān)督可以分為三類。第一類是不完全監(jiān)督(incomplete supervision),即,只有訓練集的一個(通常很小的)子集是有標簽的,其他數(shù)據(jù)則沒有標簽。這種情況發(fā)生在各類任務中。例如,在圖像分類任務中,真值標簽由人類標注者給出的。從互聯(lián)網(wǎng)上獲取巨量圖片很容易,然而考慮到標記的人工成本,只有一個小子集的圖像能夠被標注。第二類是不確切監(jiān)督(inexact 即,圖像只有粗粒度的標簽。第三種是不準確的監(jiān)督(inaccurate supervision),模型給出的標簽不總是真值。出現(xiàn)這種情況的常見原因有,圖片標注者不小心或比較疲倦,或者某些圖片就是難以分類。
弱監(jiān)督學習是一個總括性的術語,涵蓋了嘗試通過較弱的監(jiān)督來學習并構建預測模型的各種研究。在本文中,我們將討論這一研究領域的一些進展,重點放在以不完整、不確切和不準確的監(jiān)督進行學習的研究。我們將把不同類型的弱監(jiān)督分開,但值得一提的是,在實際操作中,幾種弱監(jiān)督經常同時發(fā)生。為簡單起見,在本文中我們以包含兩個可交換類 Y 和 N 的二元分類為例。形式化表達為,在強監(jiān)督學習條件下,監(jiān)督學習的任務是從訓練數(shù)據(jù)集 D={(X1,y1),...(Xm,ym)}中學習 f:x->y,其中 x 是特征空間,y={Y,N},xi∈x,以及 yi∈y。
我們假設(xi,yi)是根據(jù)未知的獨立同分布 D 生成的;換言之,(xi,yi)是 i.i.d. 樣本。
圖 1 提供了我們將在本文中討論的三種弱監(jiān)督類型的示例。
圖 1:三種典型的弱監(jiān)督類型的示例。長條表示特征向量; 紅色/藍色標記標簽;「?」意味著標簽可能不準確。中間子圖描繪了一些混合類型弱監(jiān)督的情況。
不完全監(jiān)督 不完全監(jiān)督 不完全監(jiān)督考慮那些我們只擁有少量有標注數(shù)據(jù)的情況,這些有標注數(shù)據(jù)并不足以訓練出好的模型,但是我們擁有大量未標注數(shù)據(jù)可供使用。形式化表達為,模型的任務是從訓練數(shù)據(jù)集 D={(X1,y1),...,(Xl,yl),Xl+1,...,Xm}中學習 f:x->y,其中訓練集中有 l 個有標注訓練樣本(即給出 yi 的樣本)和 u = m - l 個未標注樣本;其他條件與具有強監(jiān)督的監(jiān)督學習相同,如摘要最后的定義。為便于討論,我們也將 l 個有標注示例稱為「標注數(shù)據(jù)」,將 u 個未標注示例稱為「未標注數(shù)據(jù)」。
能夠實現(xiàn)此目標的主要兩類技巧,即,主動學習 [2] 和半監(jiān)督學習 [3-5]。
主動學習假設存在一個「神諭」(oracle),比如一位人類專家,能夠向他查詢選定的未標注示例的真值標簽。
相比之下,半監(jiān)督式學習試圖在有標注數(shù)據(jù)之外,自動開發(fā)無標注數(shù)據(jù)以提高學習效果,這個過程不需要人工干預。存在一種特殊的半監(jiān)督學習,稱為直推式學習(transductive learning);直推式學習和(純)半監(jiān)督學習的主要區(qū)別在于,它們對測試數(shù)據(jù),即訓練過的模型需要進行預測的數(shù)據(jù),假設有所不同。直推式學習持有「封閉世界」假設,即,測試數(shù)據(jù)是事先給出的、目標是優(yōu)化測試數(shù)據(jù)的性能;換言之,未標注數(shù)據(jù)正是測試數(shù)據(jù)。純半監(jiān)督式學習則持有「開放世界」假設,即,測試數(shù)據(jù)是未知的,未標注數(shù)據(jù)不一定是測試數(shù)據(jù)。圖 2 直觀地表示了主動學習、(純)半監(jiān)督學習和直推式學習之間的差異。
圖 2:主動學習、(純)半監(jiān)督學習和直推式學習 不確切監(jiān)督 不確切監(jiān)督 不確切監(jiān)督關注于給定了監(jiān)督信息,但信息不夠精確的場景。一個典型的場景是僅有粗粒度的標簽信息可用。例如,在藥物活性預測 [40] 的問題中,其目標是建立一個模型學習已知分子的知識,來預測一個新的分子是否適合制造一種特定藥物。一個分子可以有很多的低能量形狀,而這些分子是否能用于制藥取決于這些分子是否具有某些特殊的形狀。然而即使對于已知的分子,人類專家也僅知道該分子是否適合制藥,而不知道其中決定性的分子形狀是什么。
形式化表達為,該任務是從訓練數(shù)據(jù)集 D={(X1,y1),...(Xm,ym)}中學習 f:x->y,其中 Xi={xil,...,xi,mi}⊆X 被稱為一個包。xij∈x,是一個示例,m_i 是示例 X_i 的數(shù)量,yi∈y={Y,N}。
X_i 是一個 positive 包,即 y_i=Y,如果存在 x_ip 是正的,同時 p∈{1,...,mi}是未知的。其目標是為未見過的包預測標簽。該方法被稱為多示例學習 [40,41]。
已經有許多有效的算法被開發(fā)出來并應用于多示例學習。實際上,幾乎所有的有監(jiān)督學習算法都有對等的多示例算法。大多數(shù)算法試圖調整單示例監(jiān)督學習算法,使其適配多示例表示,主要是將其關注點從對示例的識別轉移到對包的識別 [42];一些其他算法試圖通過表示變換,調整多示例表示使其適配單示例算法 [43,44]。還有一種類型 [45],將算法分為三類:一個整合了示例級響應的示例空間范式,一個把 包 視作一個整體的 包 空間范式,以及一個在嵌入特征空間中進行學習的嵌入空間范式中。請注意,這些示例通常被視為 i.i.d. 樣本,然而,[46] 表明,多示
例學習中的示例不應該被認為是獨立的,盡管這些包可以被視為 i.i.d. 樣本,并且已經有一些有效的算法是基于此見解進行開發(fā)的 [47]。
多示例學習已成功應用于各種任務,如圖像分類/檢索/注釋 [48-50],文本分類 [51,52],垃圾郵件檢測 [53],醫(yī)學診斷 [54],面部/對象檢測 [55,56],對象類別發(fā)現(xiàn) [57],對象跟蹤 [58] 等。在這些任務中,將真實對象(例如一幅圖像或一個文本文檔)視為一個包是很自然的。然而,不同于藥物活性預測這類包中包含天然示例(分子的各種形狀)的例子,需要為每個包生成示例。包生成器制定如何生成示例來構成包。通常情況下,可以從圖像中提取許多小的圖像塊作為其示例,而章節(jié)/段落甚至句子可以用作文本文檔的示例。盡管包生成器對學習效果有重要影響,但最近才出現(xiàn)關于圖像包的全面研究 [59],研究揭示了一些簡單的密集取樣包生成器比一些復雜的生成器性能更好。圖 5 顯示了兩個簡單而有效的圖像包生成器。
圖 5 圖像包生成器。假設每張圖像的大小為 8×8,每個小塊的大小為 2×2。單小塊(SB)生成器將每個由 4 個小塊組成的圖像塊視為一個示例,通過不重疊地滑動為每張圖像生成 16 個圖像示例。有鄰近的單小塊生成器(SBN)將由 20 個小塊組成的圖像塊作為一個示例,通過有重疊地滑動來為圖像生成 9 個示例 多示例學習的初始目標是為未見過的包預測標簽;然而,已有研究嘗試識別那些之所以讓正包變正的關鍵示例(key instance)[31,60]。這在諸如沒有細粒度標記訓練數(shù)據(jù)的感興趣區(qū)域定位的任務中特別有用。值得注意的是,標準的多示例學習 [40] 假定每一個正包必須包含一個關鍵示例,而還有其它研究假定不存在關鍵示例,每一個示例都對包標簽有貢獻 [61,62];甚至假定存在多個概念,而僅當一個包包含滿足所有概念的示例時,該包才是正的 [63]。可以在文獻 [41] 中找到更多的變體。
早期的理論結果 [64-66] 表明多示例學習對于包中每個示例都由不同的規(guī)則分類的異質(heterogeneous)案例來說,是很難的,對于以相同的規(guī)則分類所有示例的同質性(homogeneous)案例就是可學習的。幸運的是,幾乎所有的實際多示例任務都屬于同質性案例。這些分析假定 bag 中的示例是獨立的。而不假定示例的獨立性的分析更具挑戰(zhàn)性,這類研究也出現(xiàn)得較晚,其揭示了在同質性類中,至少存在某些可以用包間的任意分布來學習的案例 [67]。盡管如此,與其在算法和應用上的繁榮發(fā)展相反,多示例學習的理論研究成果非常少,因為分析的難度太大。
某些在包中任意分布的示例是可學習的 [67]。盡管如此,與在算法和應用上的繁榮發(fā)展相反,多示例學習的理論研究成果非常少,因為分析的難度太大。
不準確監(jiān)督 不準確監(jiān)督 不準確監(jiān)督關注于監(jiān)督信息不總是真值的場景,也就是說,有部分信息會出現(xiàn)錯誤。其形式基本和引言最后部分的表示相同,除了訓練數(shù)據(jù)集中的 y_i 可能是不準確的。
一個典型的場景是在有標簽噪聲的情況下進行學習 [68]。目前已有很多理論研究 [69-71],其中大多數(shù)假定存在隨機的分類噪聲,即標簽受隨機噪聲影響。在實踐中,基本的思想是識別潛在的誤分類樣本 [72],然后嘗試進行修正。例如,數(shù)據(jù)編輯(data-editing)方法 [73] 構建了相對鄰域圖(relative neighborhood graph),其中每一個節(jié)點對應一個訓練樣本,而連接兩個不同標簽的節(jié)點的邊被稱為切邊(cut edge)。然后,測量 一個切邊的權重統(tǒng)計量,直覺上,如果一個示例連接了太多的切邊,則該示例是可疑的?梢傻氖纠幢粍h除,要么被重新標記,如圖 6 所示。值得注意的是,這種方法通常依賴于咨詢鄰域信息;由于當數(shù)據(jù)很稀疏時,鄰域識別將變得更不可靠,因此,在高維特征空間中該方法的可靠性將變弱。
圖 6:識別和刪除/重標記可疑的數(shù)據(jù)點 近期出現(xiàn)的有趣的不準確監(jiān)督的場景是眾包模式 [74],這是一種流行的將工作外包給個人的范式。對于機器學習來說,用眾包模式為訓練數(shù)據(jù)收集標簽是一種經濟的方式。具體來說,未標記的數(shù)據(jù)被外包給大量的工人來標記。在著名的眾包系統(tǒng) Amazon Mechanical Turk 上,用戶可以提交一項任務,例如將圖片標注為「樹」或「非樹」,然后職工完成工作以獲取少量報酬。通常這些工人來自世界各地,每個人都可以執(zhí)行多個任務。這些職工通常互相獨立,報酬不高,并通過自己的判斷標記數(shù)據(jù)。這些職工的標記質量參差不齊,但標記質量信息對于用戶來說是不可見的,因為工人的身份是保密的。在這些職工中可能存在「垃圾制造者」,幾乎用隨機的標簽來標記數(shù)據(jù)(例如,用機器替代人類賺取報酬),或「反抗者」,故意給出錯誤的標簽。此外,某些任務可能對一些人來說太難而無法完成。使用眾包返回的不準確監(jiān)督信息來保證學習性能是非常困難的。
很多研究嘗試用眾包標簽推斷真值標簽。多數(shù)人投票策略得到了集成方法 [35] 的理論支持,在實踐中得到了廣泛使用并有很好的表現(xiàn) [75,76],因此通常作為基線標準。如果預期可以對工人質量和任務難度建模,那么通過為不同的工人在不同的任務上設置權重,則可以獲得更好的效果。為此,一些方法嘗試構建概率模型然后使用 EM 算法進行評估 [77,78]。人們也使用了極小極大熵方法 [35]。概率模型可以用于移除垃圾制造者 [79]。近期人們給出了移除低質量工人的一般理論條件 [80]。
在機器學習中,眾包通常用于收集標簽,在實踐中,模型的最終性能,而不是這些標簽的質量,才是更重要的。目前已有很多關于從低能老師和眾包標簽學習的研究 [81,82],這和用帶噪聲標簽學習是很接近的。但其中的區(qū)別在于,對于眾包設定而言,人們可以方便地、重復地對某個示例提取眾包標簽。因此,在眾包數(shù)據(jù)學習中,考慮經濟性和最小化眾包標簽的充分數(shù)量是很重要的,即有效眾包學習的最小代價 [83]。很多研究專注于任務分配和預算分配,嘗試在準確率和標注開銷之間取得平衡。為此,非適應性的任務分配機制(離線分配任務 [84,85])和適應性機制(在線分配任務 [86,87])都得到了在理論支持下的研究。需要注意的是,多數(shù)研究采用了 Dawid–Skene 模型 [88],其假設不同任務的潛在成本是相同的,而沒有探索更復雜的成本設置。
設計一個有效的眾包協(xié)議也是很重要的。在文獻 [89] 中提供了「不確定」選項,從而使工人在不確定的時候不被迫使給出確定的標簽。該選項可以幫助標記的可靠性獲得有理論支持 [90] 的提升。在文獻 [91] 中提出了一種「double or nothing」的激勵兼容機制,以確保工人能提供基于其自己的信心的標注,誠實地工作。在假定每位工人都希望最大化他們的報酬的前提下,該協(xié)議被證實可以避免垃圾制造者的出現(xiàn)。
結論 結論
監(jiān)督學習技術在具備強監(jiān)督信息(如大量具備真值標簽的訓練樣本)的情況中取得了很大成功。然而,在實際任務中,收集監(jiān)督信息需要大量成本,因此,使用弱監(jiān)督學習通常是更好的方式。
本文主要介紹三種典型的弱監(jiān)督:不完全、不確切和不準確監(jiān)督。盡管三者可以分開討論,但是實踐中它們通常同時出現(xiàn),如圖 1 所示,以往研究中也討論過此類「混合」案例 [52,92,93]。此外,還存在其他類型的弱監(jiān)督。例如,主要通過強化學習方法解決 [94] 的延時監(jiān)督也屬于弱監(jiān)督。由于篇幅限制,本文實際上扮演了更多文獻索引而非文獻綜述的角色。對細節(jié)感興趣的讀者請閱讀對應參考文獻。近期越來越多的研究者關注弱監(jiān)督學習,如部分監(jiān)督學習主要關注不完全監(jiān)督學習 [95],同時也有很多關于弱監(jiān)督的其他討論 [96,97]。
為了簡化討論,本文主要關注二分類,盡管大部分討論經過稍微改動就可以擴展到多類別或回歸學習。注意,多類別任務中可能會出現(xiàn)更復雜的情景 [98]。如果考慮到多標簽學習 [99],即每個樣本同時關聯(lián)到多個標簽的任務,則情況更加復雜。以不完全監(jiān)督為例,除了標注/非標注示例以外,多標簽任務可能遇到部分標注示例,即訓練示例中,只有部分標簽是真值 [100]。即使只考慮標注/未標注數(shù)據(jù),其設計選項也比單標簽設置多。如對于積極學習而言,給出一個非標注示例,在多標簽任務中可以要求給出該示例的所有標簽 [101]、特定標簽 [102],或一對標簽的相關性排序 [103]。然而,不管是哪種數(shù)據(jù)和任務,弱監(jiān)督學習都變得越來越重要。
熱點文章閱讀