工具之家 > 现代电子技术 > 语谱图傅里叶变换的二字汉语词汇语音识别

语谱图傅里叶变换的二字汉语词汇语音识别

发布时间:2019-03-11 02:15:01 文章来源:工具之家    

 推荐工具:金融理财app工具实用工具

潘迪 梁士利 魏莹 许廷发 王双维

摘 要 以yuyin信haodeyuputuzuowei处lidui象tichuyi种jiyu宽zhaidaiyuputufuliye变换pinyutuxiangerjin宽dufendai投yingtezhengronghedeer字hanyucihuiyuyinshibiesuanfa首先dui宽zhaiyuputufuli叶变换pin域tudetuxiang意义以及xiangyingdeyuyintexingjinxingfenxi;然houfen别dui宽窄daiyuputupin域tu像jin行二进宽dufendailie投yinghe行投影jiang投影zhizuoweiyuyinshi别de第一getezheng参shujihehe第二getezheng参shu集hejiang以shang两ge特征集进行特征ronghezuowei二字cihui语yinshibiede特征liang以zhi持向liang机为fen类qishi现二字汉语词汇语yinshi别shiyan结guo表minggaifangfadui特dingren二字汉语词汇语yindeshi别lvke达96.8%对非特dingren二字汉语词汇语yindeshi别lvke达98.8%为解决汉语词汇zhengtiyuyinshi别ti供liao一种xinde思路

关键词 傅里叶变换; 语pu图; 特征融合; 支持向量机

zhong图fen类hao: TN912?34 文献标识ma: A 文章bian号: 14?373X217)16?13?6

Abstract: A speech recognition algorithm of two?word Chinese vocabulary is proposed which takes the spectrogram of speech signals as a processed object and is based on binary width zoning?band projection feature fusion of the broad?band and narrow?band spectrogram images in Fourier transform domain. First, the image significance of Fourier transform domain image in the broad?band and narrow?band spectrogram and their corresponding speech characteristics are analyzed. Then, the binary width zoning?band column projection and line projection of the broad?band and narrow?band spectrogram frequency domain image are carried out respectively. The projected value is taken as the first and second feature parameter sets for speech recognition. The above two feature sets are fuzed according their features as the feature value of two?word vocabulary speech recognition. Taking the support vector machine SVM) as a classifier to realize the speech recognition of two?word Chinese vocabulary. The experiment results show that the recognition rate of this method can reach to 96.8% for specific persons and 98.8% for non?specific persons. The proposed method provides a new way for vocabulary recognition.

Keywords: Fourier transform; spectrogram; feature fusion; support vector machine

引 言

语yinshi别jishujiu是让相yingdeshe备通过识别和理解两ge过程把语yin信号zhuan变为相应的命令或文件的高科技技术近几年lai,yuyin识别技术的理lunyanjiudedao了飞速的发展,相应的应yong实现ye越来越贴近ren们的生活,conger大大tigaoliao相应的gongzuo效率和生活品质[1]。

一般来说,语音识别的fangfa有四种:基yu声道模型和语音知识的方fa、模ban匹配的fangfa、随机模型的方法和利yongrengongshen经网络的方法。22年,孙光民yanjiu了基yushen经网络的中文孤li词语音识别技术,将shi间guizheng算法yu神经网络相jiehe,zu成一个混合级联神经网络语音识biexitong。利yong该方法对小词表汉语孤立词进行语音识别shiyan,获deliao98.25%的正确识别率[2]。205年,林遂芳dengren提出一种基于动态shi间规zhengDTW)和xue习矢量量化(LVQ神经网络deyu音识别方法。该方法用动态shi间规zheng算法先对语音信号进行shi间规整,然后通过学习矢量量化神经网络进行语音的fen类识别。大量实验表明,cai用DTW/LVQ混合模型的识别的正确率[3]为97.9%。2009年,张军dengren针对动态shi间规整(DTW)对孤立词端点检ce准quexing过du依赖的问题,采用fangkuanduan点和限定动态规整ji算范围结合的算法解决ci问题,该算法bujin更准确di放松前后端点降di端点检测的敏感度,er且结hedui动态规整计算范围的限定,减少计算量,提高执行效率。实验结guo发现采用gai进后的DTWsuan法,pingjun识别率[4]达dao91.8%tong年,吴金南等人针对传统LVQ算法计算量大,fan化nengli不强的缺点,采用改进的LVQ算法(LoPLVQ),以缩短训lian时间,提高识别率,增强fen类器的泛化能力,并且DTW的时间规整能liqiang,zong合了两者的优点,使得新xi统在语音识别方面效果显著。实验结果表明,常用汉字发音识别率[5]最高可达99.1%。2010年,肖利君提出了整体路径约束DTW算法(ADTW),并用Matlab语言将改进的语音识别算法编程,仿真表明该算法能有效地提高识别率并有着极好的鲁棒xing。对于一定的孤立词汇,整体路径约束DTW算法的识别率[6]达dao97.5%。2014年,陈孟元在tiquMFCC的基础上,整合差分倒pu参shu作为语音的特征参shu,并对现有的DTW算法加以改进,节省了系统匹配的计算时间,使其juyou一定的鲁棒xing。分别对普通话语音、湖北话语音、安徽语音和闽南语音进行测试,每种语音有5个测试模板组,每个模板组将0~9zhe10ge数字语音zhong复10bian,bao括100ge测试语音,系统对suo有测试模板组的平均识别率[7]为94.55%。endprint

yiwang基于语谱图的语音识别工作,仅在语谱图ben身的kong域结构中直接寻找特征,并没有充分利用语谱图作为可视化图像的性质。考虑到语谱图表征语音特性体现在纹络结构上,而图像纹络结构更容易you图像的pin域描述。yin此,ben文对语谱图进行zai次傅里叶变换,将其图像空域转换至图像pin域,分别对宽窄带语谱tupin域图像进行二进宽度分带lie投影和行投影,将投影zhi进行融合作为语音识别的特征量,以支持向量机为分类器。实验表明:ben方法对特定人二字汉语词汇语音的识别率可达96.8%以及对非特定人二字汉语词汇语音的识别率可达98.8%,为解决汉语词汇整体语音识别tigong了一种新的思路。

1 宽窄带语谱图意义

语谱图(Spectrogram)是表shi语音pin谱随时间变化的图xing,它采用erwei平面来表达三维信息,其zongzhou为pin率,横轴为时间,任一gei定频率成分在给定时刻的qiangruo用相应点的灰度或色调的浓dan来表示。语谱图中显示了大量的yu语音的特性有关的信息,它zong合了频谱图和时域波形的特性,明显地显示出语音频谱随时间的变化情况suo以,语谱tusuo承载的信息量远远大于单纯时域和单纯频域承载信息量的总和[8]。

窄带语谱图有较高的频率分bian率,zaipu图上能显示出两个纯音,但其时间分辨率较差,kanbu出两个纯音suo产生的pai音[9]。因此,作为词汇的窄带语谱图,可以反映词汇整体的基频及各次谐波的时间变化。窄带语谱图中基频及各次谐波体xianwei等间隔的横杠,从图像角度,这些等间隔的横杠反映了图xiangshu直方向上的周qi特征。如果将语谱图进行傅里叶变换,即you语谱图的空域转换到语谱图的频域,则上述横杠的周期性表现为语谱图频域shu直方向上的基频。

宽带语谱图有较高的时间分辨率,在谱图上能显示两个纯音所产生的拍音,但其频率分辨率较差,看不出两个纯音。因此作为词汇的宽带语谱图,可以观察频谱包络,以便确定共振峰,同时也可以给出精确的时间结构。从图像角度,这些等间隔的竖条反映了图像水平方向上的周期特征。如果将语谱图进行傅里叶变换,即由语谱图的空域转换到语谱图的频域,则上述竖条的周期性表现为语谱图频域水平方向上的基频。

ben文以宽窄带语谱图作为研jiu对象,语音的频率特征和时间特征都得到深入体现。所以,更好地反映语音信号的整体特性,为解决汉语词汇整体语音识别提供了一种新的思路。

2 特征级图xiangrong合

特征级图像融合是指从各个信源图像中提qu特征信息,并将其进行综合分析和处理的过程[10]。特征级图像融合主要包含两个步骤:

(1) 提取特征,提取的特征信息应是像su信息的充分表示量huochong分统计量,如边缘、形状、轮kuo角、纹理、相si亮度区域、相似jing深区域等;

(2) 对提取的特征进行融合,在进行融合处理时,所关心的主要特征信息的具tixing式和nei容yu多源图像融合的应用目的和场合密切相关。

ben文将宽带语谱图频域图像进行二进宽度分带lie投影得到的特征量与窄带语谱图频域图像进行二进宽度分带行投影得到的特征量进行融合,以此对二字汉语词huijin行语音识别。

3 语谱图频域图像juzhen的特征提取

3.1 语谱图yang本构成

使用Cool Edit Pro 2.0软件进行语音录制,采yang率为44.1 kHz ,使得语谱图频域表达范围为0~22 kHz,单声道16 b量化。共10ren(男nv各5人)10个词汇的读音yang本,10个词汇均为二字词汇,zhong复10遍,即每个词汇有10个yang本。一个词汇的语音时chang约为1.2 s,10人的10个词汇共为1 000个语音yangbenwen件。所有语音样本文件转化为Matlab数juwen件,即语音样本xulie。

3.1.1 窄带语谱图样本构成

窄带语谱图样本构成是通过对每个样本序列进行分帧,帧长1 024点,为了保持其连续性,采用重叠率为25%的帧yi量;另外,为了移去直流分量和加权高频分量,采用汉明窗(Hamming)对信号进行加权,每个样本分为54zheng,构造出1 024行54列时域分帧juzhen对时域分帧矩zhenzuoFFT,生成1 024行54列时频分析矩zhen,频域分辨率为43 Hz。时频分析矩zhen的模矩zhenji为样本所对应的语谱图矩zhen。youyu傅里葉变换具有对称性,取该矩zhen的上banbu或下ban部作为语谱图即可,因此,每一幅语谱图的矩zhen为512行54列,共1 000幅灰度图像。

3.1.2 宽带语谱图样本构成

宽带语谱图样本构成是通过对每个样本序列进行分帧,帧长128点,窗函数采用汉明窗,每个样本分为410帧,构造出128行410列时域分帧矩zhen对时域分帧矩阵做FFT,生成128行410列时频分析矩阵,频域分辨率为344 Hz。时频分析矩阵的模矩阵即为样本所对应的语谱图矩阵。由于傅里叶变换具有对称性,取该矩阵的上半部或下半部作为语谱图即可,因此,每一幅语谱图的矩阵为64行410列,共1 000幅灰度图像。以上过程本文形成了canshu可调的Matlab语谱图生成程序,以备随时调用。为了消除由于音量不同造成的各个样本幅度差异,对每个图像矩阵均进行归一化处理。

3.2 语谱图特征提取

语谱图图像中像素的灰度值dai表了信号在相应频率、相应时刻的幅度比重。基于图像处理思路,对其进行频谱分析,将语谱图图像进行再次傅里叶变换,形成语谱图图像频域特性矩阵,并将频谱di频bufen移到中心处。通guofen析其幅频特性,可发现图像的频域矩阵是转置对称矩阵,其可完全描述图像幅频特征的独立zi阵是上半zi阵,或下banzi阵,或zuoban子阵,或右半子阵,这里选择对窄带语谱图上半子zhenjin行二进宽度分带行投影,宽带语谱图左半子阵进行二进宽度分带列投影方法提取特征量。这种投影反映了词汇发音全过程中语音基频及其谐波关系的总体特性,同时还反映了yutu条纹边缘梯度的整体特性。实验表明,不同词汇其相应的上shuzong体特性具有显著性差异。

4 实验仿真与结果分析

4.1 系统设置endprint

本次语音样本采用10人的10个二字词汇进行录制而成,采样频率为44.1 kHz,单声道,16 b量化,其中每个词汇10duan重复录音,一共是1 000个语音数ju样本。为了采样数ju的准确性和可说服性,jiangmei个人的10个二字词汇的每前5遍作为xunlian集,后5遍作为测试集,即前500个语音shuju作为训练集,后500个语音数据作为测试集。在训练jie段,为了后面的数据处理的方便和保证程序运行时收敛加快而进行了归一化处理,将前500个语音训练样本特征数据cun入数据库,作为支持向量机的训练模板,对其进行训练。zaijian测阶段,将后500个语音样本中提取出的特征数据放入到训练好的网络中,对相应的二字词汇进行语音检测。

4.2 仿真结果

4.2.1 特定人二字汉语词汇语音识别defang真结果

对窄语谱图矩阵进行二次傅里叶变换之后,构造每个词汇的上半子阵的左半部分7行10列二进宽度分带投影矩阵和每个词汇的上半子阵deyou半部分7行10列二进宽度分带投影矩阵。将上半子阵的左半部分小矩阵和上半子阵的右半部分小矩阵合在一起形成一个14行10列的大矩阵。同时,对宽带语谱图矩阵进行二次傅里叶变换之后,构造每个词汇的右半子阵的上半部分10行2列二进宽度分带投影矩阵和每个词汇的右半子阵的下半部分10行2列二进宽度分带投影矩阵。将右半子阵的上半部分小矩阵和右半子阵的下半部分小矩阵分别转置后合在一起形成一个4行10列的大矩阵,将两个大矩阵合成一个18行10列的矩阵,作为特定人二字词汇语音识别特征量。一个人的10个词汇10遍得到10组数据,10个人即可得到100组数据,分别相应地将每个人的10个词汇前5遍作为训练样本数据,后5遍作weijian测样本数据benwenzhi选择一组训练样本数据和检测样本数据给予显示,训练样本数据见表1,检测样本数据见表2。支持向量机的参数是tong过支持向量机来实现10人的10个词汇的语音识别,由yute征向量的维数是18维,因此shu入维度是18维,中间ceng内积核函数维度是18维,本文是对10人的10個词汇的语音识别,所以采用基数词1~10的编码方式,即1维十进制输出。通过前50组数据对支持向量机进行反复训练,得到最佳适用模板,将后50组数据放入训练好的模板中,对10个特定人的二字词汇的语音识别正确率达到96.8%。

4.2.2 非特定人二字汉语词汇语音识别的仿真结果

对窄语谱图矩阵进行二次傅里叶变换之后,构造每个词汇的上半子阵的左半部分6行10列二进宽度分带投影矩阵和每个词汇的上半子阵的右半部分6行10列二进宽度分带投影矩阵。

将上半子阵的左半部分小矩阵和上半子阵的右半部分小矩阵合在一起形成一个12行10列的大矩阵。同时,对宽带语谱图矩阵进行二次傅里叶变换之后,构造每个词汇的右半子阵的上半部分10行3列二进宽度分带投影矩阵和每个词汇的右半子阵的下半部分10行3列二进宽度分带投影矩阵。将右半子阵的上半部分小矩阵和右半子阵的下半部分小矩阵分别转置后合在一起形成一个6行10列的大矩阵,将两个大矩阵合成一个18行10列的矩阵,作为非特定人二字词汇语音识别特征量。一个人的10个词汇10遍得到10组数据,10个人即可得到100组数据,分别相应的将每个人的10个词汇前5遍作为训练样本数据,后5遍作为检测样本数据。

本文只选择一组训练样本数据和检测样本数据给予显示,训练样本数据如表3所示,检测样本数据如表4所示。

支持向量机的参数是:通过支持向量机来实现10人的10个词汇的语音识别,由于特征向量的维数是18维,因此输入维度是18维,中间层内积核函数维度是18维。本文是对10人的10个词汇的语音识别,所以采用基数词1~10的编码方式,即1维十进制输出。通过前50组数据对支持向量机进行反复训练,得到最佳适用模板,将后50组数据放入训练好的模板中,对10个非特定人的二字词汇的语音识别正确率达到98.8%。

5 结 论

本文提出了一种基于宽窄带语谱图傅里叶变换特征融合的二字汉语词汇识别算法。以宽窄带语谱图作为研究对象,语音的频率特征和时间特征都得到深入体现,所以,更好地反映了语音信号的整体特性。实验结果表明,采用宽窄带语谱图融合得到的特征值对特定人二字词汇语音的识别率可达96.8%,而采用宽窄带语谱图融合得到的特征值对非特定人二字词汇语音的识别率可达98.8%,为解决汉语词汇整体语音识别提供了一种新的思路。

参考文献

[1] 何湘智.语音识别的研究与发展[J].计算机与现dai化,2002(3):3?6.

[2] liyong健.基于DTW和HMM的语音识别算法仿真及软件设计[D].哈尔滨:哈尔滨工程大学,2009.

[3] 陈立伟.基于HMM和ANN汉语语音识别[D].哈尔滨:哈尔滨工程大学,2005.

[4] 王伟臻.基于神经网络的语音识别研究[D].杭州:浙jiang大学,2008.

[5] 王山海,景新幸,杨海燕.基于深度学习神经网络的孤立词语音识别的研究[J].计算机应用研究,2015,32(8):2289?2291.

[6] 田岚,陆小珊bai树忠.基于快速神经网络算法的非特定人语音识别[J].kong制与决策,2002(1):65?68.

[7] 孙光民,董笑ying.基于神经网络的汉语孤立词语音识别[J].北京工业大学学报,2002,28(3):289?292.

[8] 赵力.语音信号处理[M].2ban.北jing机械工业出版社,2009.

[9] 张家.汉语人机语音通信基础[M].上海:上海科学技术出版社,2010.

[10] 何友,王国宏,关xin.信息融合理论及应用[M].北京:dian子工业出版社,2010.endprint

现代电ziji术 2017年16期

现代电子技术的其它文章 基于5G系统与WLAN的共存电源干扰控制方法研究 dianjiao多媒体设备的节能电源设计与实现 具有仲裁机制的RS 485总线设计 光xiantong信局域网断点故障检测方法研究 混合动力汽车用电池包结构分析及改进 三电平逆变器中点电位平衡的综合控制策略
转载请注明来源。原文地址:https://www.5420.com.cn/view/2019/0311/12726/
 与本篇相关的热门内容: