近日,我校計算機與信息工程學院趙子平教授團隊聯合浙江大學、清華大學、美國費爾菲爾德大學在期刊IEEE Transactions on Affective Computing發表題為“A Knowledge Distillation-based Approach to Speech Emotion Recognition”的學術論文。
Transformer作為深度學習中的重要架構,憑借其強大的長序列依賴建模能力,在自然語言處理、計算機視覺等多個領域得到了廣泛應用。然而,當前的Transformer架構在語音情感識別任務中表現欠佳,這主要是由于未對齊的時間戳以及不同變量間物理測量的差異,會導致注意力機制的無意義映射。同時,Transformer架構包含大量參數,需要消耗大量的計算資源,這使其難以在資源有限的環境中部署。此外,人類情感具有復雜性和模糊性,而現有的Transformer架構難以有效處理這種復雜的情感信息。為此,研究團隊提出了一種知識蒸餾框架。具體而言,研究團隊首先對教師模型進行微調,使其能夠適應不同的語音情感識別任務。在學生模型中,將單個序列時間點嵌入到變量標記中,以此聚合全局語音表示。同時,結合監督對比損失和交叉熵損失,以增大可學習特征之間的類間距離。最后,采用元知識蒸餾與基于課程的知識蒸餾方法,提升學生模型的性能。實驗結果驗證了該方法的有效性。這一成果為推動語音情感識別領域的進一步發展提供了新的理論框架。
計算機與信息工程學院趙子平教授為該論文第一作者,指導的碩士研究生劉紀新為共同第一作者,天津師范大學為該論文第一署名單位。該研究得到國家自然科學基金資助 (62071330, 61831022, U21B2020等)。

論文鏈接:https://doi.org/10.1109/TAFFC.2025.3574178