基于對比學(xué)習的半監督群體情感識別
關(guān)注我們,為您推送更多最新資訊。
文章導讀
群體情感識別 (Group Emotion Recognition, GER) 任務(wù)將群體圖像 (或視頻) 的整體情感狀態(tài)分為積極、中性和消極三類(lèi)。目前研究人員們已經(jīng)提出了多種基于學(xué)習的群體情感識別方法,但它們的性能十分依賴(lài)于有標簽樣本的數量。盡管互聯(lián)網(wǎng)上存在眾多包含群體情感信息的圖片,但由于對它們進(jìn)行標注的操作費時(shí)費力,導致可以直接用于群體情感識別的數據集通常規模較小,這極大限制了群體情感識別算法性能的提升。
為了解決這一問(wèn)題,來(lái)自中山大學(xué)的碩士生張嘉毅、博士生王行志以及張東副教授和來(lái)自美國楊百翰大學(xué) (Brigham Young University) 的 Dah-Jye Lee 教授在 Electronics 期刊下的特刊“Convolutional Neural Networks and Vision Applications (卷積神經(jīng)網(wǎng)絡(luò )與視覺(jué)應用)”中發(fā)表了文章。本文提出了一種基于對比學(xué)習的半監督群體情感識別方法,可利用少量的帶標簽圖像和大量的無(wú)標簽圖像來(lái)提升群體情感識別方法的性能。
研究過(guò)程與結果
本文提出了一種基于對比學(xué)習的半監督群體情感識別方法 (Semi-Supervised Group Emotion Recognition, SSGER),它的框架 (圖1) 主要由 SFNet 和 FusionNet 構成。SFNet 為特征提取網(wǎng)絡(luò ),它主要由 ResNet-50 和全連接層構成,旨在從圖像中提取情感特征;FusionNet 為特征融合網(wǎng)絡(luò ),其利用注意力機制對從人臉圖像和場(chǎng)景圖像中提取的情感特征進(jìn)行融合。
圖1. SSGER 的框架結構圖。
作者提出了一種有效的四階段訓練策略:階段一利用對比學(xué)習的方法預訓練 SFNet,在對提取出的人臉特征和場(chǎng)景特征進(jìn)行映射后,通過(guò)最小化它們之間的余弦相似度對網(wǎng)絡(luò )進(jìn)行訓練,從而在無(wú)標簽數據中提取圖像中的語(yǔ)義情感信息;階段二利用有限的帶標簽圖像預訓練 SFNet 和 FusionNet;在階段三中,作者利用階段二訓練的網(wǎng)絡(luò )為無(wú)標簽數據打上偽標簽;階段四利用有標簽樣本和打上了偽標簽的樣本進(jìn)一步訓練 SFNet 和 FusionNet,為了抑制不可靠偽標簽對網(wǎng)絡(luò )學(xué)習的負面影響,作者還提出了一種加權交叉熵損失 (Weight Cross-Entropy Loss, WCE-Loss) 來(lái)平衡各類(lèi)樣本對網(wǎng)絡(luò )學(xué)習的貢獻。
作者在 GAF2、GAF3 和 GroupEmoW 等三個(gè)主流的群體情感識別數據集上開(kāi)展了實(shí)驗。實(shí)驗結果顯示,與其它目前最先進(jìn)的群體情感識別方法相比,文中所提出的方法具有優(yōu)秀的半監督性能 (表1~3)。作者通過(guò)消融實(shí)驗,驗證了對比學(xué)習預訓練、打偽標簽操作以及引入 WCE-Loss 等技術(shù)的有效性 (表4)。作者還研究了標簽率對分類(lèi)性能的影響 (圖2)。實(shí)驗結果表明該文所提出的方法 (SSGER) 僅使用 5%~30% 的有標簽樣本,就可以獲得媲美目前最先進(jìn)的群體情感識別方法,即使用 100% 有標簽樣本時(shí)所達到的識別精度。
表1. 各種方法在 GAF2 數據集上分類(lèi)準確率的對比 (%)。
表2. 各種方法在 GAF3 數據集上分類(lèi)準確率的對比 (%)。
表3. 各種方法在 GroupEmoW 數據集上分類(lèi)準確率的對比 (%)。
表4. 不同配置的 SSGER 方法的性能比較。
圖2. 不同標簽率條件下,各種方法在 (a) GAF2、(b) GAF3 和 (c) GroupEmoW 數據集下的分類(lèi)準確率。
研究總結
本研究提出了一種基于對比學(xué)習的半監督群體情感識別方法。作者使用無(wú)標簽圖像對 SFNet 進(jìn)行預訓練,并使用有標簽圖像對網(wǎng)絡(luò )進(jìn)行優(yōu)化。作者使用優(yōu)化后的網(wǎng)絡(luò )給無(wú)標簽圖像打偽標簽,并設計了 WCE-Loss 來(lái)補償不可靠偽標簽所帶來(lái)的不確定性。由于網(wǎng)絡(luò )的訓練過(guò)程可以利用到無(wú)標簽圖像蘊含的情感線(xiàn)索,本研究提出的群體情感識別算法性能得到了有效提升。在 GAF2、GAF3 和 GroupEmoW 等三個(gè)主流數據集上的實(shí)驗證明了該方法的有效性。實(shí)驗結果表明,SSGER 方法僅使用 5%~30% 的帶標簽樣本,就能獲得相當于現有方法使用 100% 帶標簽樣本得到的總體識別準確率。
原文出自 Electronics期刊
Zhang, J.; Wang, X.; Zhang, D.; Lee, D.-J. Semi-Supervised Group Emotion Recognition Based on Contrastive Learning. Electronics 2022, 11, 3990.
Electronics 期刊介紹
主編:Flavio Canavero, Politecnico di Torino, Italy
期刊涵蓋的研究包括但不限于以下領(lǐng)域:電子材料、微電子學(xué)、光電子電、工業(yè)電子、電力電子、生物電子、微波和無(wú)線(xiàn)通信、計算機科學(xué)與工程、系統與控制工程、電路和信號處理、半導體器件、人工智能、電動(dòng)和自動(dòng)駕駛汽車(chē)、量子電子等。期刊致力于快速發(fā)表與廣泛電子領(lǐng)域相關(guān)的、最新的技術(shù)突破以及前沿發(fā)展。
2021 Impact Factor 2.690
2021 CiteScore 3.7
Time to First Decision 14.4 Days
Time to Publication 34 Days