基于CNN和LSTM的语音情感识别开题报告

 2023-11-21 09:11

1. 研究目的与意义

近年来,人工智能技术不断发展,为人类的工作和生活做了很大贡献。

为了让机器更好的理解人类,让人机交互更加和谐,情感分析成为研究的重要方向之一。

而语音作为人们日常交流的主要方式之一,蕴含了丰富的情感信息,因此,语音情感分析至关重要。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 课题关键问题和重难点

关键问题:

1.语音情感特征工程的构建问题:传统方法在提取情感特征向量时,主要通过人们手动获取,但在这个过程中,造成误差难免丢失部分有效的情感信息,造成识别率的下降;或者提取了多余的无用信息,造成数据的冗余,进而影响模型的性能。

2.一句语音中不同片段区域在情感识别方面作用的差异性:语音信号是一种时间序列信号,但不同时间上的片段区域对情感识别的作用大小是不一样的,从而限制了深度学习方法的特征表征能力。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 国内外研究现状(文献综述)

文献[1]采用基于度量学习的少样本学习来学习说话人声学表征,综合利用有限实例来提高识别性能。文献[2]介绍了自动语音情感识别是近十年来人机交互领域的研究热点。然而,由于缺乏对语音波形固有时间关系的研究,目前的识别精度有待提高。为了充分利用时间帧之间情绪饱和度的差异,文献[2]提出了一种使用帧级语音特征结合基于注意力的长短期记忆(LSTM)递归神经网络进行语音识别的新方法。从波形中提取帧级语音特征来代替传统的统计特征,可以通过帧序列保留原始语音中的时序关系。文献[4]提出语音情感识别是一项重要且具有挑战性的任务,特征提取在SER性能中起着重要作用。随着深度学习的发展,将目光投向了端到端的结构,验证了异常有效的算法。文献[5]引入了一种新颖的架构ADRNN(带残差块的扩张CNN和基于注意机制的Bi-LSTM(Bi-directional Long Short-Term Memory, Bi-LSTM))应用于语音情感识别,它可以利用不同网络的优势并克服单独利用的缺点,并且在流行的IEMOCAP数据库和柏林EMO-DB语料库中进行了评估。与使用池化层相比,扩张的CNN可以帮助模型获得更多的感受野。然后,跳跃连接可以保留更多来自浅层的历史信息,并采用Bi-LSTM层从学习到的局部特征中学习长期依赖关系。并且利用注意力机制来增强语音特征的进一步提取。此外,还改进了损失函数,将Softmax与中心损失一起应用,从而获得更好的分类性能。

语音情感特征提取,是语音情感识别中的一个关键步骤,目前,大量语音情感识别文献[6-10]采用手工设计的特征用于情感识别,如韵律特征(基频、振幅、发音持续时间)、音质特征(共振峰、频谱能量分布、谐波噪声比),谱特征(MFCC)等。近年来,也出现了一些代表性的包含几千个手工设计特征的声学特征集,尽管这些手工设计的特征参数已经取得了较好的语音情感识别性能,但它们是低层次的,对于情感的判别力还不够高,与人类理解的情感标签还存在“语义鸿沟”问题。为了解决这个问题,近年来新出现的深度学习技术可能提供了线索。一些代表性的深度学习方法,如深度信念网络(Deep Belief Network, DBN),卷积神经网络(Convolutional Neural Networks, CNN)和长短时记忆单元(Long Short-Term Memory, LSTM)都已经用于语音情感识别。当使用深度学习方法时,其输入一般为手工设计的声学特征参数,或者原始的语音频谱。文献[11]采用DBN直接从提取的MFCC等声学特征参数中提取高层次的属性特征,然后使用极限学习机(Extreme Learning Machine,ELM)实现情感的分类任务。文献[12-15]也开始成功使用CNN从原始的语音频谱中提取出合适的特征参数用于语音情感识别。文献[12]采用稀疏自动编码器和1层CNN结构的方法从原始的语音频谱中学习情感语音特征。文献[12-14]采用样本数量非常有限的情感语音数据集来训练自己的浅层CNN模型(1或2个卷积层)。然而,在计算机视觉领域,利用已训练好的深度CNN模型,如AlexNet,在目标图像数据集进行迁移学习往往取得比浅层CNN模型更好的性能。主要原因是,深度CNN模型可以通过采用多层的卷积和池化操作来捕获图像的高层属性特征。为了充分发挥深度CNN模型的优势,之前的一个文献提出将一维的情感语音信号转换成类似于RGB图像的三通道语音频谱片段作为深度CNN模型的输入,然后将在ImageNet图像数据集已训练好的AlexNet模型在目标语音情感数据集进行跨模态的迁移学习,取得了比浅层CNN模型更好的语音情感识别性能。文献[16]提出一种多尺度的CNN LSTM的混合深度学习模型,获得了较好的语音情感性能。

参考文献:

[1]R. Li, J.-Y. Jiang, J. L. Li, C.-C. Hsieh, and W. Wang, “Automatic speakerrecognition with limited data,” in International Conference on Web Search andData Mining, 2020, pp. 340–348.

[2]Xie, Y., Liang, R., Liang, Z., Huang, C., Zou, C., Schuller, B., 2019. Speechemotion classification using attention-based LSTM. IEEE/ACM Trans. AudioSpeech Lang. Process.27 (11), 1675–1685.

[3]Meng, H., Yan, T., Yuan, F., Wei, H., 2019. Speech emotion recognition from3d log-mel spectrograms with deep learning network. IEEE Access 7,125868–125881.

[4]Sebastian, J., Pierucci, P., 2019. Fusion techniques for utterance-levelemotion recognition combining speech and transcripts. In: Proceedings of theInter speech, pp. 51–55.

[5]Tarantino, L., Garner, P.N., Lazaridis, A., 2019. Self-attention for speechemotion recognition. In: Proceedings of the Interspeech 2019, pp. 2578–2582.

[6]Demircan S, Kahramanli H. Application of fuzzy C-means clustering algorithmto spectral features for emotion classification from speech. Neural Computingand Applications, 2018, 29(8): 59–66.

[7]Zhao XM, Zhang SQ. Spoken emotion recognition via locality-constrained kern lsparse representation. Neural Computing and Applications, 2015,26(3): 735–744.

[8]Gharavian D, Sheikhan M, Nazerieh A. et al. Speech emotion recognition usingFCBF feature selection method and GA-optimized fuzzy ARTMAP neural network.Neural Computing and Applications, 2012, 21(8): 2115-2126.

[9]Zhang ZX, Coutinho E, Deng J et al. Cooperative learning and its applicationto emotion recognition from speech. IEEE/ACM Transactions on Audio, Speech,and Language Processing, 2015, 23(1): 115–126.

[10] 朱菊霞,吴小培,吕钊.基于SVM的语音情感识别算法.计算机系统应用,2011.

[11]Han K, Yu D, Tashev I. Speech emotion recognition using deep neural networkand extreme learning machine. 15th Annual Conference of the InternationalSpeech Communication Association. Singapore. 2014. 223–227.

[12]Mao QR, Dong M, Huang ZW, et al. Learning salient features for speech emotionrecognition using convolutional neural networks. IEEE Transactions onMultimedia, 2014,16(8): 2203-2213.

[13]Trigeorgis G, Ringeval F, Brueckner R, et al. Adieu features? End-to-endspeech emotion recognition using a deep convolutional recurrent network. 2016IEEE International Conference on Acoustics, Speech and Signal Processing(ICASSP). Shanghai, China. 2016. 5200–5204.

[14]Huang CW, Narayanan SS. Deep convolutional recurrent neural network withattention mechanism for robust speech emotion recognition. 2017 IEEEInternational Conference on Multimedia and Expo (ICME). Hong Kong, China.2017.583–588.

[15]Zhang SQ, Zhang SL, Huang TJ, et al. Learning affective features with ahybrid deep model for audio-visual emotion recognition. IEEE Transactions onCircuits and Systems for Video Technology, 2018, 28(10): 3030–3043.

[16]Zhang SQ, Zhao XM, Tian Q. Spontaneous speech emotion recognition usingmultiscale deep convolutional LSTM. IEEE Transactions on Affective Computing,2019.

[17] 黎万义,王鹏,乔红,引入视觉注意机制的目标跟踪方法综述.自动化学报,2014,40(4):561–576.

[18] 孙小婉,王英,王鑫,等.面向双注意力网络的特定方面情感分析模型.计算机研究与发展,2019,56(11):2384–2395.

4. 研究方案

实验框架结构:主要包含语音采集模块、语音预处理模块、特征提取模块、cnn模型、lstm模型、情感识别模块。常用的声学特征有梅尔倒谱系数 (mel-scalefrequency cepstral coefficients, mfcc )、振幅、过零率、基音频率、共振峰、短时能量等。此外,基于短时傅里叶方法的语音频谱图可以表征信号的时频变化信息,已成为当前语音情感识别研究的一种趋势。基于多谱特征融合组图,利用三维卷积神经网络提取深层语音情感特征,完成语音情感识别。本课题在iemocap情感语料库上研究并实现基于cnn和lstm的情感语音识别。需要借阅语音信号处理基础知识方面、情感语音识别研究方面的资料和相关情感分类cnn网络和lstm网络设计方面的文章。需要使用praat、cooledit、opensmile等软件来完成实验。搭建一种结合数据平衡和注意力机制的cnn lstm的语音情感识别方法,并且用于自然语音情感类型的识别。

对原始的一维情感语音信号重采样为16khz的单声道格式,然后采用帧移为10ms,时长为25ms的汉宁窗进行短时傅里叶变换,计算出整句语音信号的声谱图。将声谱图映射到64阶mel滤波器组 (filter banks)中计算出mel声谱并取对数,得到稳定的对数mel频谱。

1.首先,采用欠采样和过采样的方式实现情感语音数据集中的样本片段数量的类别平衡。所谓欠采样是在多数类中的语音样本进行部分采样,而过采样是在少数类中的语音样本进行部分重复采样。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

5. 工作计划

2022-2023-1学期

第15-16周:第一阶段:完成选题,查阅相关中英文资料,进行相关技术的学习;第二阶段:完成论文的提纲文献,课题研究背景及其意义和基本概念和理论部分。

第17周:与导师沟通进行课题总体规划;

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

课题毕业论文、文献综述、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。