基于對比學(xué)習(xí)的半監(jiān)督群體情感識別
關(guān)注我們,為您推送更多最新資訊。
文章導(dǎo)讀
群體情感識別 (Group Emotion Recognition, GER) 任務(wù)將群體圖像 (或視頻) 的整體情感狀態(tài)分為積極、中性和消極三類。目前研究人員們已經(jīng)提出了多種基于學(xué)習(xí)的群體情感識別方法,但它們的性能十分依賴于有標簽樣本的數(shù)量。盡管互聯(lián)網(wǎng)上存在眾多包含群體情感信息的圖片,但由于對它們進行標注的操作費時費力,導(dǎo)致可以直接用于群體情感識別的數(shù)據(jù)集通常規(guī)模較小,這極大限制了群體情感識別算法性能的提升。
為了解決這一問題,來自中山大學(xué)的碩士生張嘉毅、博士生王行志以及張東副教授和來自美國楊百翰大學(xué) (Brigham Young University) 的 Dah-Jye Lee 教授在 Electronics 期刊下的特刊“Convolutional Neural Networks and Vision Applications (卷積神經(jīng)網(wǎng)絡(luò)與視覺應(yīng)用)”中發(fā)表了文章。本文提出了一種基于對比學(xué)習(xí)的半監(jiān)督群體情感識別方法,可利用少量的帶標簽圖像和大量的無標簽圖像來提升群體情感識別方法的性能。
研究過程與結(jié)果
本文提出了一種基于對比學(xué)習(xí)的半監(jiān)督群體情感識別方法 (Semi-Supervised Group Emotion Recognition, SSGER),它的框架 (圖1) 主要由 SFNet 和 FusionNet 構(gòu)成。SFNet 為特征提取網(wǎng)絡(luò),它主要由 ResNet-50 和全連接層構(gòu)成,旨在從圖像中提取情感特征;FusionNet 為特征融合網(wǎng)絡(luò),其利用注意力機制對從人臉圖像和場景圖像中提取的情感特征進行融合。
圖1. SSGER 的框架結(jié)構(gòu)圖。
作者提出了一種有效的四階段訓(xùn)練策略:階段一利用對比學(xué)習(xí)的方法預(yù)訓(xùn)練 SFNet,在對提取出的人臉特征和場景特征進行映射后,通過最小化它們之間的余弦相似度對網(wǎng)絡(luò)進行訓(xùn)練,從而在無標簽數(shù)據(jù)中提取圖像中的語義情感信息;階段二利用有限的帶標簽圖像預(yù)訓(xùn)練 SFNet 和 FusionNet;在階段三中,作者利用階段二訓(xùn)練的網(wǎng)絡(luò)為無標簽數(shù)據(jù)打上偽標簽;階段四利用有標簽樣本和打上了偽標簽的樣本進一步訓(xùn)練 SFNet 和 FusionNet,為了抑制不可靠偽標簽對網(wǎng)絡(luò)學(xué)習(xí)的負面影響,作者還提出了一種加權(quán)交叉熵損失 (Weight Cross-Entropy Loss, WCE-Loss) 來平衡各類樣本對網(wǎng)絡(luò)學(xué)習(xí)的貢獻。
作者在 GAF2、GAF3 和 GroupEmoW 等三個主流的群體情感識別數(shù)據(jù)集上開展了實驗。實驗結(jié)果顯示,與其它目前最先進的群體情感識別方法相比,文中所提出的方法具有優(yōu)秀的半監(jiān)督性能 (表1~3)。作者通過消融實驗,驗證了對比學(xué)習(xí)預(yù)訓(xùn)練、打偽標簽操作以及引入 WCE-Loss 等技術(shù)的有效性 (表4)。作者還研究了標簽率對分類性能的影響 (圖2)。實驗結(jié)果表明該文所提出的方法 (SSGER) 僅使用 5%~30% 的有標簽樣本,就可以獲得媲美目前最先進的群體情感識別方法,即使用 100% 有標簽樣本時所達到的識別精度。
表1. 各種方法在 GAF2 數(shù)據(jù)集上分類準確率的對比 (%)。
表2. 各種方法在 GAF3 數(shù)據(jù)集上分類準確率的對比 (%)。
表3. 各種方法在 GroupEmoW 數(shù)據(jù)集上分類準確率的對比 (%)。
表4. 不同配置的 SSGER 方法的性能比較。
圖2. 不同標簽率條件下,各種方法在 (a) GAF2、(b) GAF3 和 (c) GroupEmoW 數(shù)據(jù)集下的分類準確率。
研究總結(jié)
本研究提出了一種基于對比學(xué)習(xí)的半監(jiān)督群體情感識別方法。作者使用無標簽圖像對 SFNet 進行預(yù)訓(xùn)練,并使用有標簽圖像對網(wǎng)絡(luò)進行優(yōu)化。作者使用優(yōu)化后的網(wǎng)絡(luò)給無標簽圖像打偽標簽,并設(shè)計了 WCE-Loss 來補償不可靠偽標簽所帶來的不確定性。由于網(wǎng)絡(luò)的訓(xùn)練過程可以利用到無標簽圖像蘊含的情感線索,本研究提出的群體情感識別算法性能得到了有效提升。在 GAF2、GAF3 和 GroupEmoW 等三個主流數(shù)據(jù)集上的實驗證明了該方法的有效性。實驗結(jié)果表明,SSGER 方法僅使用 5%~30% 的帶標簽樣本,就能獲得相當于現(xiàn)有方法使用 100% 帶標簽樣本得到的總體識別準確率。
原文出自 Electronics期刊
Zhang, J.; Wang, X.; Zhang, D.; Lee, D.-J. Semi-Supervised Group Emotion Recognition Based on Contrastive Learning. Electronics 2022, 11, 3990.
Electronics 期刊介紹
主編:Flavio Canavero, Politecnico di Torino, Italy
期刊涵蓋的研究包括但不限于以下領(lǐng)域:電子材料、微電子學(xué)、光電子電、工業(yè)電子、電力電子、生物電子、微波和無線通信、計算機科學(xué)與工程、系統(tǒng)與控制工程、電路和信號處理、半導(dǎo)體器件、人工智能、電動和自動駕駛汽車、量子電子等。期刊致力于快速發(fā)表與廣泛電子領(lǐng)域相關(guān)的、最新的技術(shù)突破以及前沿發(fā)展。
2021 Impact Factor 2.690
2021 CiteScore 3.7
Time to First Decision 14.4 Days
Time to Publication 34 Days