工具之家 > 现代电子技术 > 基于模糊认知图的语音情感识别研究

基于模糊认知图的语音情感识别研究

发布时间:2019-03-14 02:15:01 文章来源:工具之家    

 推荐工具:金融理财app工具实用工具

张卫+张雪英+孙颖

摘 yao 利yongmohuren知图gou建yizhong新deqingganyuyinshibiewangluogaiwang络jiangquanzhiju阵fenwei两部fenyi部fen是tezhengyuqingganleibie之jiandequanzhi使yong实数编码yichuan算faxuexi另yi部分是qingganleibieyu类bie之jiandequanzhi使yongPADsanweiqingganmo型xue习cong数xuehexin理xue两fang面duimohuren知图dequanzhi进xing学习针对国际公认de柏linqingganyuyinkuEMO?DB以ji本实yan室录制de情感yuyinkuTYUT进xing仿真实yanyanzhengliao方fadeyou效性bing与BPshenjingwang络进行对bishiyan结果biao明该方fa有较高deshibie率

关键词: mo糊认知图 实数编码遗传算fa PAD; yuyin情感识别

zhong图分类号: TN911.7?34; TP391.4 wen献标识码: A 文章编号: 14?373X21715?0025?04

Abstract: The fuzzy cognitive maps FCM) is used to construct a new speech emotion recognition network. The weight matrix is divided into two parts in the network. One is the weight between the characteristic and emotional classification and learned with real?coded genetic algorithm RCGA). The other is the weight between the emotional categories, and learned with the PAD three?dimensional emotion model. The weights of FCM are learned in the aspects of mathematics and psychology. The simulation experiments were carried out for the internationally recognized Berlin Emotional Speech Database (EMO?DB) and emotional speech database TYUT recorded in this laboratory to verify the effectiveness of the method. The effectiveness is compared with that of the BP neural network. The experimental results show that the method has high recognition rate.

Keywords: fuzzy cognitive map; real?coded genetic algorithm; PAD; speech emotion recognition

0 引 言

yu音情感识别是congcai集daode语音信号zhongti取biao达情感de声学特征,bing找出这些声学特征与ren类情感deying射关xi[1]计suanji的语音情感识别方fa是计算机情感智neng的重要部分,是实现ziran人机交hu的关键qian提,具有hen高的yanjiu价zhiyongyu语音情感识别的方法很多,比如,人工神jingwang络方faANN)[2]以及支持向liang机(SVM)[3]等。这些模xingdu是基yu数学he物理建模的分类方法,基本未涉及人类的认知guo程。情感bian识作wei一种认知过程,具有模糊性he复za性,仅yong信号处理的方法建模是buwan善的。1986年,Kosko提出了模糊认知图(Fuzzy Cognitive Maps,FCM)[4],zhezhongwang络建立方便,表现问题直guan,且通过有限次循环ke终止yu一个固dingdianhuo极限环,从而使网络达dao稳定zhuang态,并且zaiyin果关xi的描述上引ru了模糊ce度,使得FCM能够更自然更直接地表达人类习惯的luojihan义。FCM是通过更新gai念jie点zhuang态zhi和概念jian的yin果关系来模拟系统dongtai行wei。概念jian的权zhide学习suanfa尤为重要。PAD三维情感模型[5]是youMehrabian提出yong来ce量情感的一个工具,ta可以从心理学角度很hao地反映人类情感的相互关系。本文利用FCM构建了一种新的语音情感识别网络,结合遗传算法hePAD情感模型提出一种新的权zhi学习方法

1 模糊认知图

1.1 基本原理

FCM是模糊逻辑和神经网络相结合的产物。ta使用概念描述系统的不同方面和ta们的行为,通过相互作用的概念biaoshi系统的dong态性。由于它直guan的表达能力和强大的推理能liyi及与神经网络tu论等lingyu的密qielian系,使得它的应用极为广泛,目qianFCM已被用于心理学实验的情感预测[6]软jian发展xiang目建模[7]图像肤色检测[8]、医学[9?10]等方面。

FCM是zai认知图(Cognitive MapsCM)zhong加入模糊推理机制得来的,是一种有向图。如图1suoshi。

图1描述了一个带有5个节点和9条带权弧的FCM。qizhong节点是概念,它可为系统的事件、目标、感情以及趋shi等,用来反映系统的属性、特征、质量和状态。具有一定的状态值,状态值shi[-1,1]区jian上的模糊值,表shi概念状态存zai的程度。概念和之间的因果关系由值表shi(即权值),有三种类xingde因果关系:

模糊认知图概念之间的权的集合由矩阵表示,如图1所示的FCM的权矩阵为:

1.2 推理机制

FCM概念节点状态值的计算是通过shi(3)得到的:

shizhong:为di次迭代;为概念节点在时ke的状态值;为概念节点在时刻的状态值;为在时刻对的关联权值;为激活函数,它可以是sigmoid函数,双曲正切函数huo是线性阈值函数;为特征序列长度。

在系统中,最初由初始条件决定FCM中节点的类型、数量和权重。概念的值表示相应的物理值,分配好概念的值和权,FCM就能通过学习算法到达三种基本状态:固定平衡点、有限环和混沌状态。当模糊认知图到达一个固定平衡点或有限环时,系统达到稳定或平衡状态。

2 模糊认知图情感语音识别网络构造

2.1 网络结构

FCM是一个动态系统,通过更新节点间的状态值和节点间的因果关系即权值来模拟系统的动态行为。

FCM情感语音识别系统的流chengtu如图2所示,首先对情感语音信号预处理并提取特征;其次将情感语音信号分为训练样本和测shi样本,训练样本通过一定的学习算法获得FCM分类模型的权值矩阵再将测试样本shu入到FCM分类模型中,得到其所属类别。

构建的FCM情感语音识别网络模型见图3。与传统的FCM网络不同,FCM情感语音识别网络把节点分为输入节点和输出节点两类。情感语音特征duiying输入节点,用表示。情感类别对应的是输出节点,用表示。FCM情感识别网络将充分kaolv类节点之间、类节点与特征之间的因果关系及相互影响,形成一个权矩阵来模拟其分类动态行为。

图3描述的网络权值矩阵结构如xia所示:

由图3及shi(3)可知,基于FCM情感语音识别网络,在时刻的输出为:

即特征xiangde节点值不变,只是更新类别项的节点值。

根ju构造的FCM情感语音识别网络,权值矩阵可分为两部分:特征与类别间的关系权值记为类别与类别间的权值记为。

则权值矩阵可简化为:

下面具体介绍关系权值的计算方法。

2.2 学习算法

2.2.1 关系权值的学习算法

获得FCM权值的学习方法分为两类:一类是由领域专家给出的经验值;另一类则是依据系统的历史数据zidong学习得到。由于完全凭专家的经验值构建FCM模型存在诸多缺陷。所以近年来学者们kai始研究如何从历史数据中学习FCM权值的方法。由于遗传算法的简单性和强大的搜索能力,2005年Pedrycz等人提出了一种实数编码遗传算法(Real?coded Genetic Algorithm,RCGA)学习FCM权值的方法[11]。在进行FCM权值学习之前首先需要由专家指出FCM系统中的初始值及概念节点数量和因果关系。

假dingyu音情感特征的维度为本文所xuan情感类别为三类,由式(4)的权值矩阵可定义RCGA中每一条染色体为:

式中表示到的关联权值。

FCM模型的误差计算公式为:

式中:是第条训练样例的节点在第次迭代后FCM模型的输出值;是第条训练样例的节点在第次迭代前FCM模型的输入值;是输入样本数;是迭代次数;是FCM模型的节点数。

式中参数是事先设定的正整数。该适应函数将数值标准化到(0,1]区间,适应性函数值越接近于1,表示系统模拟值与实际值误差越小。

2.2.2 关系权值的学习算法

从心理学角度来看,人类的情ganshi可以相互转变的,情感和情感之间存在一定的相互关系。由Mehrabian提出的PAD三维情感模型[4]是测量情感的一个工具。该模型认为情感具有愉yue度、激活度和优势度三个维度,其中P代表愉悦度(Pleasure?displeasure),表示个体情感状态的正负特性;A代表激活度(Arousal?nonarousal,表示个体的神经生理激活水平;D代表优势度(Dominance?submissiveness),表示个体对情景和他人的kong制状态。研究表明,利用P,A,D三个维度可有效地解释人类的情感及其相互关系。

情感类别间的关系权值根据PAD三维模型中情感的值[12]来计算得到。以P,A,D作为情感kong间的坐标轴jian立三维空间,如图4所示。利用空间ju离的远近来映射类间的关系以确定情感类之间的权值。

利用欧式距离计算两两情感之间的距离:

式中:表示两点的空间距离;分别表示点在PAD三维空间的坐标。

这里两两情感间的关系权值通过式(11)确定,情感类别的距离越大,其相互影响关系越小。

3 情感识别实验及结果分析

3.1 语音情感数据库

本文所用的情感语音库包kuo两种:一是由本实验室录制的TYUT情感语音库;二是来源yubai林实验室的德语情感语音库EMO?DB[13]。

3.1.1 TYUT情感语音库

TYUT情感语音库由本实验室cai用 CoolEdit Pro 2.0录制,cai样率为11.025 kHz,单声道,量化精度为16 b,文件保存为标准wav格式,并使用不同的文件名对情感种类进行标识。包kuo高兴、生气和中li3种情感状态。该语音库由实验室中年龄在22sui~24岁之间的27名同学通过表yan的方式录制完成,其中包kuo男生14名,女生13名,该语音库中的语音样本共11ju,包括6句汉语和5句英文。采用主辨听实验对所有录制语句进行选择。最终选出883句语句,组成了TYUT情感语音库。

3.1.2 EMO?DB情感语音库

EMO?DB情感语音库由男、女专业演员各5名用德语发音录制得到。其中语句内容包含日常生活用yude5个短句和5个长句,共包括悲伤、厌恶、讨厌、害怕、高兴、生气、zhongli7种情感状态。具有较高的情感自由度,并且没有任何特定的情感qing向。录音完成后同样采用主观辨听实验对所有录制语句进行选择,最后经过辨听测试一gongbao留了535句。所有语句jun采用16 kHz采样率,6 b量化精度,并以wav格式保存文件。

3.2 语音情感识别及结果分析

本文所选情感语音特征是前期工作中所提取的一种新语音情感特征[14]。TYUT情感语音库包含汉语和英语两种yuzhong,各语种包含3种情感(高兴、生气、中立)。为了与TYUT语音kuyi致,同样从德语语音库中选取3种情感(高兴、生气、中立)。利用以上两个语音库验证本文所构建的FCM情感语音识别网络deke行性。各语音库中情感的识别结果如表1所示。

从表1可以看chu基于FCM情感分类模型对2个数据库语音情感都具有很好的区分性,3种不tongyuzhongde情感数据库的平均识别率都达到了70%以上,而且德语情感语音库的识别率为84.06%由此可以证明此情感分类模型的可行性和有效性。

不同分类模型对情感语音库各情感的识别率如表2~表4所示。

从表2~表4中可以看到suo构建的FCM分类模型对于不同语种的情感数据库的各类情感的平均识别率都比BP网络的平均识别率有所提高,对于中文库来说,FCM平均识别率比BP提高了4.44%。英wenyu音库ping均识别率提高了5.55%。德语语音库识别结果最好,比BP网络提高18.84%。不同分类器对各情感语音库的平均识别率见图5。实验结果证明本文所构建的FCM分类模型可以用于情感语音分类并且得到了较高的识别率。

4 结 语

本文利用FCM构造了一个新情感语音识别网络,并用实数编码遗传算法和PAD情感理论学习FCM权值。选用TYUT和EMO?DB两种情感语音库,包括中文,英文,德语三种语言,将前期工作中提取的语音情感特征输入到FCM情感分类模型中进行验证,得到了很好的识别结果,与BP网络相比,平均识别率都有较大的提高,证明本文所构造的FCM情感语音识别模型能够很好地对情感进行分类。下一步工作就是尝试多类情感的识别,并进一步完shanFCM情感语音识别网络。

参考文献

[1] VERVERIDIS D, KOTROPOULOS C. Emotional speech recognition: resources, features, and methods [J]. Speech communication, 2006, 48(9): 1162?1181.

[2] shi瑛,胡学钢.基于神经网络的语音情感识别[J].计算机工程与应用,2008,4424):191?193.

[3] 张石清,赵知劲.支持向量机应用于语音情感识别的研究[J].声学技术,2008,27(1):87?95.

[4] KOSKO B. Fuzzy cognitive maps [J]. International journal of man?machine studies, 1986, 24(1): 65?75.

[5] MEHRABIAN A, RUSSELL J A. An approach to environmental psychology [M]. Cambridge: APA, 1974.

[6] SALMERON J L. Fuzzy cognitive maps for artificial emotions forecasting [J]. Applied soft computing, 2012, 12(12): 3704?3710.

[7] STACH W, KURGAN L. Modeling software development project using fuzzy cognitive maps [C]// Proceedings of the 4th ASERC Workshop on Quantitative and Soft Software Engineering. Banff: ASERC, 2004: 55?61.

[8] 熊霞,sang庆兵.基于模糊认知图detu像压缩域肤色检测方法[J].计算机工程,2012,38(5):208?210.

[9] DOUALI N, CSABA H, DE ROO J, et al. Diagnosis support system based on clinical guidelines: comparison between case?based fuzzy cognitive maps and Bayesian networks [J]. Computer methods and programs in biomedicine, 2014, 113(1): 133?143.

[10] N?POLES G, GRAU I, BELLO R, et al. Two?steps learning of fuzzy cognitive maps for prediction and knowledge discovery on the HIV?1 drug resistance [J]. Expert systems with applications, 2014, 41(3): 821?830.

[11] STACH W, KURGAN L, PEDRYCZ W, et a1. Genetic lear?ning of fuzzy cognitive maps [J]. Fuzzy sets and systems, 2005, 153(3): 371?401.

[12] 刘烨,tao霖密,傅小兰.基于情xu图片的PAD情感状态模型分析[J].中国图象图形学报2009,14(5):753?758.

[13] KGW. Berlin database of emotional speech [EB/OL]. [2012?05?01]. http://pascal.kgw.tu?berlin.de/emodb/index?1280.html.

[14] 张卫,张雪英,孙颖.基于HHT边际Teager能量pu的语音情感识别[C]//第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集.贵阳:中国中文信息学会语音信息专业委yuanhui,2013:187?191.

现代电子技术 2017年15期

现代电子技术的其它文章 差分进化算法和神经网络的车牌自动识别模型 一种新型电动汽车充电zhuang控制系统设计与应用 滑模控制在两级级联光伏发电系统中的应用 基于改进型NRD的电力信息系统需求调研方法应用 基于蚁群优化算法的物流配送路径研究 考虑图书馆图书供应需求的采购算法研究
转载请注明来源。原文地址:https://www.5420.com.cn/view/2019/0314/12883/
 与本篇相关的热门内容: