VoLTE语音质量评估的POLQA算法研究(2)
时间:2016-08-25 14:01
来源:发表吧
作者:陈明
点击:
次
对齐的目的是计算宏帧时延,时间对齐分为以下几个步骤:滤波、预校准、粗校准、细校准、分部合并。
(1)滤波
POLQA算法根据音频范围的不同,有两套操作模式。在时间对齐阶段,为最大限度地减少噪音对时间对齐的影响,参考信号和劣化信号首先都要通过一个带通滤波器,形状取决于是窄带模式还是超宽带模式。超宽带模式的带通滤波器范围是320—3400 Hz;窄带模式的带通滤波器范围是290—3300 Hz。时间校准阶段加入带通滤波器的主要原因是由于300—3500 Hz范围内语音信号的延迟估计可靠性比较高。
(2)预校准
预校准目的是计算每对宏帧的初始时间延迟,并预估延迟搜索范围。首先确定劣化信号的解析点,解析点表示语音信号从停顿到活动的转换位置,通过计算解析点的初始延迟得到宏帧的延迟信息。本步骤产生4个向量:宏帧延迟、延迟的可靠性指示以及延迟搜索范围的上下限。
(3)粗校准
粗校准是基于每个宏帧预校准结果计算的,首先将宏帧细分为更小的8个特征帧,对第一个特征帧计算出第一个初始特征向量后,根据迭代算法不断计算出新的特征向量,其精度随迭代次数的增加不断提高,由此得到与特征帧时延有关的相关系数矩阵,最后得到宏帧延迟信息。
(4)精确校准
精确校准在前一步宏帧粗对齐的基础上,计算出每个宏帧的精确延迟。精确校准的过程类似于粗校准,最大差别是没有使用迭代算法,而是采用回溯算法找出最精确的延迟。
(5)分段合并
所谓分段合并是基于宏帧延迟结果,将每段的延迟、可靠性、起止点、语音活动情况等信息存储起来,然后和下一段信息进行比较后决定是否合并。如果下一段信息包含语音活动信息且两段的延迟都不超过3 ms,或者是一段信息包含语音停顿信息且两段信息的延迟时间都不小于15 ms,就将这相邻的两段信息合并在一起,然后再和下一段信息进行比较。有关语音信号的起止点、延迟信息的合并结果被送入感知模型。
3.2 劣化信号采样率估计及重新采样
根据时间对齐的宏帧延迟结果预估劣化信号的采样率。如果劣化信号的采样率与标准信号采样率的偏差大于0.5%,就需要对采样速率较高的信号采样,然后重新执行上一步的时间对齐的计算步骤。
3.3 核心模型
核心模型包括感知和认知两部分,分别对语音做客观感知描述和认知评分。人对声音的主观感知主要用响度表示,客观描述指标主要涉及到音调、音色、音量等方面。其中音调由基音决定,音色由泛音决定,音量与波形振幅有关[9]。
(1)感知模型
感知模型主要是模拟人耳的感觉器官,根据听觉的掩蔽效应将声音响度映射为巴克域响度指标[10],然后用客观指标表述语音感知。POLQA感知模型[2]输出的客观性指标主要有频率响应指示、噪音指示、混响指示以及三个描述语音内部差异的指标:时间-音调-响度,另外还有6个与音量/噪声/音色等有关的补偿性指标。POLQA感知模型的主要计算步骤如下:
1)首先设定窗口长度和语音的起止点,将音频通过FFT变换到频域,然后音高功率振幅被归一化到频率为1 kHz正弦波,声压等级为40 dB SPL的基准刻度;
2)语音信号从频域映射到巴克域音高功率密度的计算;
3)计算频率响应、噪音和室内混响的指标;
4)对参考信号和劣化信号进行电平、噪音等方面的补偿;
5)响度密集度计算,主要将音高的功率密度转换为听觉的响度密度;
6)内部感知差异的计算,并根据相关结果计算响度扰动密度,用于认知模型评分。
(2)认知模型
认知模型基于感知模型输出的扰动密度、客观性指标(频率响应指示、噪音指示、混响指示)以及6个补偿性指标计算出原始POLQA值,用一个三阶多项式再映射为MOS-LQO值。在窄带模式下,MOS-LQO分值最大为4.5,在超宽带模式下,MOS-LQO分值最大为4.75。
4 POLQA在VoLTE语音质量测试中的表现
在无线通信中影响通话质量的有编码、误码、信噪比、传输质量等诸多因素,本文采用定点测试法,所处VoLTE网络环境基本稳定(商用网络在合理范围内会有波动),测试环境符合要求。
4.1 测试环境说明
测试点位于室内9楼,与VoLTE商用基站A距离100 m,基站B距离340 m左右,在视距范围内,信号覆盖良好,网络结构及配置如图3所示。测试软件为华星FlyWireless6.0,测试设备包括2部HTC M8终端手机、1台电脑、1部MOS盒。测试手机可根据测试需要锁频LTE频段。
手机根据测试需求打开或关闭VoLTE语音功能,通话时有4种网络占用状态:
(1)主被叫手机均占用VoLTE网络互拨,简写为L2L;
(2)主被叫手机均占用GSM网络,简写为G2G;
(3)主叫手机占用VoLTE网络,被叫手机回落到GSM网络,简写为L2G;
(4)主叫手机回落到GSM网络,被叫手机占用VoLTE网络,简写为G2L。
测试前选择48k和8k两种采样速率的标准语料备用。
4.2 PESQ和POLQA测试对比
测试手机占用基站A第2小区LTE-F频段(RSRP约为-84 dBm),测试PESQ和POLQA两种算法的评分差异。结果对比表明POLQA算法的MOS分值较低,如表3所示。每种测试取20次MOS值平均,下同。
两种算法的评分结果差异不大,主要由于两者都支持50—7000 Hz的音频处理范围,但是POLQA算法在原理上考虑了线性失真、响度丢失等影响因素,且根据文献[3]的研究,POLQA算法的MOS值均方根误差更小,准确度更高。
(www.fabiaoba.com),是一个专门从事期刊推广期刊发表、投稿辅导、发表期刊的网站。
本站提供如何投稿辅导、发表期刊,寻求论文刊登合作,快速投稿辅导,投稿辅导格式指导等解决方案:省级论文刊登/国家级论文刊登/
CSSCI核心/医学投稿辅导/职称投稿辅导。
投稿邮箱:fabiaoba365@126.com
在线咨询:
275774677、
1003180928
在线咨询:
610071587、
1003160816
联系电话:18796993035