您好, 访客   登录/注册

探究语音识别系统相关技术

来源:用户上传      作者: 杨皴

  [摘要]各个部门和领域对语音识别系统的需求不同,使得语音识别系统的特性和指标表现出的差异性非常大,所以语音识别系统要依据特定的指标和需求进行相关的设计。本文就语音识别系统相关的技术进行了分析,供大家借鉴与参考。
  [关键词]语音识别系统;差异性;指标需求
  
  一、引言
  
  语音作为语言的声学体现,也是人类进行信息交流最自然、和谐的手段。与机械设各进行语音的沟通,让机器可以明白人类在说什么,并理解这是人类长期的梦想。语音识别技术,也被称为自动语音识别Automatic Speech Recognition,(ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。
  
  二、语音信号分析与特征提取
  
  1.基于发音模型的语音特征。(1)发音系统及其模型表征。其发声过程就是由肺部进行收缩,并进行压缩气流由支气管通过声道和声门引起的音频振荡所发生的。气流通过声门时使得声带的张力刚好使声带发生比较低的频率的振荡,从而形成准周期性的空气脉冲,空气脉冲激励声道便会产生一些浊音;声道的某处面积比较小,气流冲过时便会产生湍流,会得到一种相似噪声的激励,对应的则是摩擦音;声道完全闭合并建立起相应的气压,突然进行释放就是爆破音。(2)语音信号线性预测倒谱系数。被广泛应用的特征参数提取技术的就是线性预测分析技术,很多成功的应用系统都是选用基于线性预测技术进而提取的LPC倒谱系数作为应用系统的特征。LPC倒谱就是复倒谱。复倒谱就是信号通过z进行变换以后再取其对数,求反z变换所得到的谱。线性预测分析方法其实就是一种谱的估计方法,所以其声道模型系统函数H(z)反映的就是声道频率激励和信号的谱包络,对IHg(z)作反z变换就可以得出其复倒谱系数。改复倒谱系数是依据线性预测模型直接获得的,而又被称为LPC倒谱系数(LPCC)。
  2.基于听觉模型的语音特征。(1)听觉系统模型。一是人类的听觉系统对于声音频率高低和声波实际的频率高低不是线性的关系,它对不同声音频率信号的敏感度是不一样的,也可看成是对数关系。二是关于掩蔽效应指的就是声音A感知的闭值因为另外的身影的出现出现增大的现象。其生理依据主要是频率群,对频率群进行划分会出现许多的很小的部分,每一个部分都会对应一个频率群,掩蔽效应就发生在这些部分过程中。所以在进行相应的声学测量时,频率刻度一般取非线性刻度。语音识别方面,主要的非线性频率刻度有Mel刻度、对数刻度和Kon~nig刻度。其中Mel刻度被广泛的应用,其是最合理的频率刻度。(2)语音信号Mcl频率倒谱系数。Mel频率倒谱系数利用人们耳朵的听觉特性,在频域将频率轴变换为Mcl频率刻度,再变换到倒谱域得到倒谱系数。MFCC参数的计算过程:
  一是对语音信号进行相应的预加重,从而确定了每一帧的语音采样的长度,语音信号通过离散FFT变换得到其频谱。二是求频谱幅度的平方,得到能量谱,并选用一组三角滤波器在频谱域对能量进行带通滤波。带通滤波器中心频率一般是按照Mcl频率刻度排列的(间隔为150Mel,带宽为300Mel),其每个三角形滤波器的两个底点频率和相邻的两个滤波器的中心频率相等,频率响应之和为l。滤波器的个数一般和临界带数比较相近,设滤波器数是M,滤波后得到的输出为:X(k),k=1,2,…,M。
  
  3.语音的端点检测。语音的端点检测就是对语音的起点和终点的确认,由于汉语语音的声母是清声母,有着送气和不送气的塞音,和环境噪声接近比较进行分辨。语音信号有短时稳定性的特性,可选用平稳过程的分析方法进行相应的处理,对语音端点检测进行分帧的处理,再依次对每一帧是否正确进行处理。每一帧的帧长如果比较大,计算量比较小的,可进行端点检测就比较快,但其误差会相应的增加。
  语音识别技术发展到今天,对特定人语音识别系统的识别精度就更高。调查统计表明多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。可以预测在近五到十年内,语音识别系统的应用将更加广泛。各种各样的语音识别系统产品将出现在市场上。人们也将调整自己的说话方式以适应各种各样的识别系统。在短期内还不可能造出具有和人相比拟的语音识别系统,要建成这样一个系统仍是人类面临的一个大的挑战。


转载注明来源:https://www.xzbu.com/2/view-609245.htm