【论文摘要】语音控制是智能化设备的重要控制手段,而语音识别是实现语音控制的关键技术。为了设计一种可靠的、抗干扰性强的产品,提出了一种基于双麦克风降噪技术的语音识别系统。该设计运用ROHM公司的BU8332KV芯片作为语音识别前端处理的核心,利用其双麦克风降噪技术来解决语音识别中的噪声问题,结合单片机和语音识别芯片,应用于按摩椅的语音控制系统中。经过非特定人的语音识别系统的静态和噪声环境下测试,结果表明在噪声环境下,该系统有较高的识别率,适用于按摩椅的应用环境,也适合在其他有环境噪声干扰的语音识别系统中推广应用。
【论文关键词】语音识别;语音控制;双麦克风降噪;BU8332KV
Speech recognition system based on dual?microphone noise reduction technology
PAN Lijie, XU Benliang, ZHU Qi, WANG Lifeng, MIAO Huigen
Abstract: With the speech control as an important control means of intelligent device, and speech recognition as a key technology to realize the speech control, a speech recognition system based on double?microphone noise reduction technology is proposed for the design of a reliable, strong anti?interference product. In the design of a voice control system in massage chair, BU8332KV chip of ROHM Company is taken as the core of speech recognition front?end processing, the dual?microphone noise reduction technology is adopted to solve the problem of noise in speech recognition, and MCU and speech recognition chip are combined. The testing result of speaker independent speech recognition system in static and noise environment test proves that the system has a high recognition rate, and is suitable for the application environment of massage chair. It is also suitable for popularization and application to other speech recognition systems working in environmental noise interference.
Keywords: speech recognition; speech control; dual?microphone noise reduction; BU8332KV
0引言
近年来,随着语音识别技术的日益发展,语音输入系统广泛应用于以汽车导航仪及智能手机为首的移动设备上,今后还将要扩展到其他智能电气产品。语言是人类传递信息的主要手段,语音识别技术是目前世界上最热门和最具发展前景的新型信息技术之一[1?2]。采用语音识别作为人机接口的设备能够具有简便、快捷、灵活的优点,其在军事、民用和商业领域都发挥了巨大的作用,在未来会成为新一代操作系统的接口[3?5]。
在语音识别过程中,不可避免会受到其他噪声影响,比如周围环境中的噪声,别人讲话的声音等,这样,最终接收到的已经不是纯净的语音信号,而是有干扰的带噪语音,常规的做法就是通过增强、增大语音信号来解决,比如提高嗓门,或近距离说话,这样极大地影响了使用效果。所以在前端对语音进行降噪处理非常必要,也是语音识别的最重要部分,能够为整个语音识别系统提供可靠的稳定性,提高其识别率。
本文以ROHM公司的BU8332KV芯片作为语音识别前端处理的核心,利用其双麦克风降噪技术来解决语音识别中的噪声问题。
1双麦克风降噪技术
1.1技术原理
BU8332KV芯片采用波束赋形技术形成指向性,因为将指向轴转向声源的方向,所以大大降低了环境噪音。这里的波束赋形技术是利用多个麦克风的相位差,降低目标方向以外的语音的技术。其降低了环境噪音,提高了目标声源的清晰度。通过噪音抑制的功能,进一步降低残留在指向轴方向的固定噪音。这个技术和仅仅使用噪音消除的技术不同,可以更加强调声源。而且,由于它能够在仅仅10mm的窄间距上安装2个麦克风,所以能够内置于以智能手机为代表的各种小型设备上。通过最优化处理,波束赋形技术可以将使用时的处理延迟时间控制在10ms以下,使得将其他应用程序的影响控制在最小限度内。通过这些措施,有助于提高各种设备的语音识别率和改善免提的通话质量,双麦克风降噪工作示意图如图1所示。
图1双麦克风降噪工作示意图
使用两个麦克风形成指向性的技术早已被应用,但现有技术为了提高指向性,必须拉长麦克风间距,所以不能适应小型便携式设备的搭载要求。另外,数字信号处理的延迟时间及音质劣化,也是今后继续要攻克的研究课题。而如今,利用波束赋形技术形成指向性,并且通过把指向轴转向声源方向,从而衰减了声源以外的语音。在指向轴方向残留的固定噪音通过噪音抑制的功能得以降低,因而使得声源变得清晰。其结果是使得背面方向的衰减量较传统的麦克风改善30dB以上。
1.2技术特点
(1)敏锐指向性可以更加清晰地拾取声源。独有的信号处理技术与以往麦克风比较,实现了敏锐的指向性,进行声音的清晰度处理。声源方向(0°)对于背面方向(180°)的衰减量与以往的麦克风比较大幅度改善30dB以上。此外,还可以实现10mm安装间距,如图2所示。
图2BU8332KV?M与以往麦克风指向性特点的比较
(2)大幅度提高语音识别率。可以使语音不劣化,能降低环境噪音。因此,提高在环境噪音条件下的语音识别率。通过检测,在环境噪音等级55dBSPL的环境下的语音识别精度从5%提高到90%。未使用时,噪音等级为55dBSPL,识别率急剧下降;使用时,即使噪音等级为65dBSPL,也可以实现45%的识别率。
图3使用BU8332KV?M时的语音识别精度
2硬件电路设计
2.1总体结构设计
整个系统的硬件电路主要包括语音处理和语音识別两个模块。语音处理模块主要为BU8332KV芯片电路,语音识别模块主要为STC10L08XE单片机和LD3320语音识别芯片电路。系统的实现方框图如图4所示。
图4系统总体结构框图
2.2语音处理部分
该部分采用ROHM公司的BU8332KV芯片。该芯片采用波束赋形技术形成指向性,因为将指向轴转向声源的方向,所以大大降低了环境噪音。通过噪音抑制的功能,进一步降低残留在指向轴方向的固定噪音。这个技术和仅仅使用噪音消除的技术不同,可以更加强调声源,通过最优化处理,然后将降噪后的语音输入到LD3320中。该技术的其他功能如下:使用波束赋形技术功能时的处理延迟时间为10ms以下;搭载降低残留在轴向指向方向的固定噪音的噪音抑制功能;模拟输出(LINEOUT)或者数字输出(PCM接口);可用3.3V的单系统工作(内置核心电源调节器);内置有麦克风用偏压、前置放大器的电路;双线主机接口;可以单机工作(内置E2PROM用SPI接口)。
2.3语音识别模块
LD3320内部通过快速而稳定的优化算法,完成非特定人语音识别,不需要用户事先训练和录音,不需要外接任何辅助的FLASH芯片,RAM芯片和A/D芯片[6?7],就可以完成语音识别功能;因此LD3320的语音识别率准确率比较高,也比较稳定。LD3320芯片内部的语音识别原理框图[5?6]如图5中的圆角矩形框内所示。
图5语音识别原理框图
LD3320芯片与STC10L08XE单片机采用并行方式相接,单片机先将关键词列表发送给LD3320。语音识别的过程也是语音识别芯片完成的工作:把通过语音处理模块的语音流进行频谱分析,提取其中的语音特征,再和列表中的关键词语进行匹配,找出得分最高的关键词语作为识别结果输给单片机,单片机播放对应的提示音。
3性能测试与应用
本文所设计的语音识别系统主要用在语音控制按摩椅,在应用中最主要关注的是识别率以及实时性。为了检测识别效果,实验中选取几个不同音色的人在实验室安静环境下和加60dB噪音环境下分别进行多组词语测试,每个测试50遍。两种环境下部分语音命令测试的正确识别数据比例如表1、表2所示。
由表1、表2可知在实验室安静环境下,对于测试的语音命令平均识别率可达91.5%,在噪音环境下可达68%。两种环境下对单个语音命令处理后的波形如图6、图7所示。
4结语
噪声环境中的语音识别是当前语音信号处理领域的研究难点。本设计运用ROHM公司的BU8332KV芯片作为语音识别前端处理的核心;利用其双麦克风降噪技术来解决语音识别中的噪声问题;运用单片机和非特定人语音识识别芯片LD3320,完成了语音控制系统的语音识别模块的软硬件设汁。实验结果表明,基于双麦克风降噪技术的语音识别系统,对于语音命令的平均识别率可达90%,在噪音干扰下也有着65%以上的识别率。本系统抗噪声能力强,其双麦克风可以近距离安装,可以使系统小型化,通用化,随着智能产品的普及,该系统将有广泛的应用前景。
【参考文献】
[1]刘幺和,宋庭新.语音识别与控制应用技术[M].北京:科学出版社,2008.
[2]赵力.语音信号处理[M].2版.北京:机械工业出版社,2009.
[3]张晨燕,孙成立.非特定人孤立词语音识别系统的片上实现[J].计算机工程与应用,2007,43(13):194?196.
[4]关胜平,何培宇,刘珂含,等.基于TMS320VC5509A的语音识别与控制系统[J].电子技术应用,2007,33(7):36?39.
[5]孙兵.基于单片机的机械手声控系统设计[J].机械工程与自动化,2007(6):113?114.
[6]佚名.LD332X语音识别芯片[EB/OL].[2010?07?01].http://www.icroute.com/web_cn/LD332X.html.
[7]佚名.LD3320芯片简明调试步骤[EB/OL].[2010?07?01].http://www.icroute.com/web_cn/LD332X_DebugProcess.html.
(www.fabiaoba.com),是一个专门从事期刊推广期刊发表、投稿辅导、发表期刊的网站。
本站提供如何投稿辅导、发表期刊,寻求论文刊登合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级论文刊登/国家级论文刊登/
CSSCI核心/医学投稿辅导/职称投稿辅导。
投稿邮箱:fabiaoba365@126.com
在线咨询:
275774677、
1003180928
在线咨询:
610071587、
1003160816
联系电话:18796993035
期刊简介: 《文化产业》杂志以关注文化、关注产业为创刊宗旨,坚持用财经理性融合文...
期刊介绍: 《吉林广播电视大学学报》是由吉林省教育厅主管、吉林广播电视大学主办的...
主管单位:湖北省教育厅 主办单位:湖北第二师范学院 出版地:湖北省武汉市 国际标准...
主管单位:中华全国总工会 主办单位:中国工人报刊协会 出版地:北京 国际标准刊号:I...
主管单位:山西出版集团 主办单位:山西出版集团 出版地:山西省太原市 国际标准刊号...
主管单位:集美大学 主办单位:集美大学 国内统一刊号:35-1189/G8 国际标准刊号:100...
近来发现有些作者论文投稿存在大量剽窃、抄袭行为,“发表吧”对此类存在大量剽窃、抄袭的论文已经停止编辑、推荐。同时我们也提醒您,当您向“发表吧”投稿时请您一定要保证论文的原创性、唯一性,这既是对您自己负责,更是对他人的尊敬。
此类投稿的论文如果发表之后,对您今后的人生和事业将造成很大的麻烦,后果不堪设想,请您一定要慎重,三思而后行。
如因版权问题引起争议或任何其他原因,“发表吧”不承担任何法律责任,侵权法律责任概由剽窃、抄袭者本人承担。