大家好,今天小编关注到一个比较有意思的话题,就是关于plp编程入门教程的问题,于是小编就整理了1个相关介绍plp编程入门教程的解答,让我们一起看看吧。
关于语音识别特征提取该如何入门?
语音识别和语音对话入门是靠数据收集。就像语言翻译一样,正确率目前已达90%以上,人脸识别正确率达99%,都可进入商业应用。要想突破语音识别,必须使用云计算和大数据处理,从而找到语音共同点和不同点,有针对性开发相应软件,而且在调试中不断完善,从而从语音识别到语音对话,最终实现语音控制到语音思维。
特征提取是自动语音识别(ASR)系统的一部分。这个组件应该从窗口和增强的语音信号中导出描述性特征,以便对声音进行分类。特征提取是因为原始语音信号包含除语言消息之外的信息并且具有高维度。原始语音信号的两个特征对于声音的分类是不可行的并且导致高的字错误率。因此,特征提取算法导出具有较低维度的特征特征向量,其用于声音的分类。
特征向量应该强调关于特定任务的重要信息并且抑制所有其他信息。由于自动语音识别的目标是转录语言信息,因此需要强调关于该信息的信息。由于这些特征不包含关于语言信息的任何信息,因此应该抑制说话者的特征,环境特征和记录设备。包括这些非语言信息会引入额外的可变性,这可能对电话类别的可分性产生负面影响。此外,特征提取应该减少数据的维数以减少计算时间和训练样本的数量。
迄今为止,学者已经提出了突出语音信号不同方面的许多不同特征。这些功能主要可以分为语言和声学功能。声学特征仅与非言语性爆发(如笑声或叹息)的分类有关。语言特征与ASR系统更相关,因为这些系统试图转录语言信息。例如,一些的语言特征是强度,线性预测编码(LPC),中理念的线性预测系数(PLP),梅尔频率倒谱系数(MFCC) ,线性预测倒谱系数(LPCC), 基于小波的功能 和非负矩阵分解功能。由于它们的准静态特性,许多先前提到的低级特征使用范围从10ms到30ms的语音信号帧。此外,这些功能中的许多功能都是受到生物启发的,并从频谱中提取特征,因为人类语音产生控制着信号的频谱,而耳朵则充当频谱分析仪。
到此,以上就是小编对于plp编程入门教程的问题就介绍到这了,希望介绍关于plp编程入门教程的1点解答对大家有用。