文章伪原创API接口及伪原创接口说明
最近学习LSTM模型,所以参考了AI大牛的文章伪原创算法,下面来对LSTM模型的实现做一些总结,包括现成的API接口调用,文章是包含情感的,为了比较以下四个情绪被使用:愤怒,幸福,中立和悲伤。我们测试了几十种拓扑和参数的组合。我们评估了卷积式拓扑,范围从2层到8层,具有时间窗口大小和频率网格分辨率的不同组合。我们还评估了具有一至六个卷积层的拓扑结构有一个和两个LSTM层。
说那么多不如来点伪原创API接口代码
接口说明实验结论:
1、窗口大小设置为40毫秒,一个20毫秒的窗口产生了类似的结果,在不同的拓扑结构中降低0-2% 双向LSTM包含128x2节点,使用64x2节点,精度下降1-3%,下图是API的测试结果。
LSTM写作能力还是不错的
3、频率网格分辨率设置为10Hz; 较低分辨率(20Hz)的精度降低1-3%;
4、发现卷积网络的最佳拓扑结构包括5层(我们尝试了2-8层),而最好的混合拓扑结构包括3个卷积层和一个LSTM层(我们尝试了1-6个卷积层和 1-2层LSTM层);
5、对深度网络进行了优化,以最大限度地提高总体精度(这在下面进行了讨论)
IEMOCAP语料库显着不平衡;应对对于不平衡的数据,我们尝试了以下技术:
1、训练网络以最大化类精度而不是整体精度,总体精度的惩罚使得它不太有用;
2、为随机梯度赋予不同的权重,与类大小成反比,它将整体和类别精度都提高了13%;
3、使用统计过采样来获得同等规模的训练类增加了最小类准确度(开心),但不是整体和班级准确度。我们还尝试了两步预测,基于:
演示了一个过滤器,倾向于了解声谱图中较不相关的区域,包括沉默和低能区。这种激活解释了深度网络如何将光谱图的相关部分与不太重要的区域分开。为了进一步提高所提出的解决方案的识别精度,我们试图在LSTM层中增加一个一维的关注机制。基于图像对象识别中二维注意机制的成功[25-26],我们的动机是找到与情感识别相关的语音。
在这项工作中,我们研究了几种技术来增强谱图中的语音情感识别,显示出高度竞争的表现。此外,对结果进行仔细分析可以解释每种应用技术的贡献。
我们的工作涉及超参数优化以及数据的探索。遵循语音分析的现代趋势,我们使用混合CNN-LSTM架构,利用卷积层的能力从原始输入中提取高级表示。有趣的是,我们注意到卷积和LSTM层的参数训练速度非常不同,这阻碍了模型潜能的开发。
因此,学习率调整对于充分利用这种架构至关重要。这项技术占未加权准确度的1.2-1.4%的改善。我们还调查了批量标准化的效果,这是大多数图像识别任务中不可缺少的工具。但是,并不总是建议将批量归一化应用于时间序列数据,并可能导致数据失真。
使用混合CNN-LSTM架构
为了尽可能地保留信号结构,我们按层进行标准化以及批处理。尽管如此,我们并没有设法提高性能,这可能是由于我们必须使用小批量才能适应可用的GPU内存。收集和标记与自动情感识别相关的语音数据是困难的。尽管这项任务是标准和适当的数据集之一IEMOCAP仍然存在缺陷和阶级失衡的缺陷。
因此,正如前面的工作所指出的那样,交叉验证对模型性能的无偏测量是至关重要的,因为根据哪个扬声器支持测量精度,结果会有很大差异。在这里,我们主张支持10倍而不是5倍交叉验证,这样就不会导致结果模糊。我们利用数据增强和次要类别过度抽样,这证明可以成功地增强对代表不足的类别的检测。这两种技术的结合导致1.8%的增长相对于基线的未加权准确度。
最后,除了数据集的局限性之外,任务本身也存在固有的困难,反映在大多数情况下,人类注释者本身并不同意情绪。结果,我们的神经网络经常对模糊样本错误分类。为了克服这个问题,我们试图通过引入软标签来利用各个注释器的可用信息。
然而,这对于未加权的准确性是有害的,因为它仅有利于检测主要类。鉴于用于情感识别任务的混合CNN-LSTM架构的成功,未来工作的可能方向将是使用卷积LSTM(Shi et al。2015),其中定义LSTM分量的矩阵乘积用卷积代替。
鉴于数据增强的重要性,另一个有希望的想法是使用生成对抗网络(Goodfellow等,2014)来实现数据增强。这种方法在图像分类(Shrivastava等,2017)中已被证明是成功的,它将成为VLTP的替代品,用于合成新的现实样本。