VoLTE语音质量评估的POLQA算法研究(2)

时间:2016-08-25 14:01 来源:发表吧作者:陈明点击: 次

　　对齐的目的是计算宏帧时延，时间对齐分为以下几个步骤：滤波、预校准、粗校准、细校准、分部合并。
　　（1）滤波
　　POLQA算法根据音频范围的不同，有两套操作模式。在时间对齐阶段，为最大限度地减少噪音对时间对齐的影响，参考信号和劣化信号首先都要通过一个带通滤波器，形状取决于是窄带模式还是超宽带模式。超宽带模式的带通滤波器范围是320—3400 Hz；窄带模式的带通滤波器范围是290—3300 Hz。时间校准阶段加入带通滤波器的主要原因是由于300—3500 Hz范围内语音信号的延迟估计可靠性比较高。
　　（2）预校准
　　预校准目的是计算每对宏帧的初始时间延迟，并预估延迟搜索范围。首先确定劣化信号的解析点，解析点表示语音信号从停顿到活动的转换位置，通过计算解析点的初始延迟得到宏帧的延迟信息。本步骤产生4个向量：宏帧延迟、延迟的可靠性指示以及延迟搜索范围的上下限。
　　（3）粗校准
　　粗校准是基于每个宏帧预校准结果计算的，首先将宏帧细分为更小的8个特征帧，对第一个特征帧计算出第一个初始特征向量后，根据迭代算法不断计算出新的特征向量，其精度随迭代次数的增加不断提高，由此得到与特征帧时延有关的相关系数矩阵，最后得到宏帧延迟信息。
　　（4）精确校准
　　精确校准在前一步宏帧粗对齐的基础上，计算出每个宏帧的精确延迟。精确校准的过程类似于粗校准，最大差别是没有使用迭代算法，而是采用回溯算法找出最精确的延迟。
　　（5）分段合并
　　所谓分段合并是基于宏帧延迟结果，将每段的延迟、可靠性、起止点、语音活动情况等信息存储起来，然后和下一段信息进行比较后决定是否合并。如果下一段信息包含语音活动信息且两段的延迟都不超过3 ms，或者是一段信息包含语音停顿信息且两段信息的延迟时间都不小于15 ms，就将这相邻的两段信息合并在一起，然后再和下一段信息进行比较。有关语音信号的起止点、延迟信息的合并结果被送入感知模型。
　　3.2 劣化信号采样率估计及重新采样
　　根据时间对齐的宏帧延迟结果预估劣化信号的采样率。如果劣化信号的采样率与标准信号采样率的偏差大于0.5%，就需要对采样速率较高的信号采样，然后重新执行上一步的时间对齐的计算步骤。
　　3.3 核心模型
　　核心模型包括感知和认知两部分，分别对语音做客观感知描述和认知评分。人对声音的主观感知主要用响度表示，客观描述指标主要涉及到音调、音色、音量等方面。其中音调由基音决定，音色由泛音决定，音量与波形振幅有关[9]。
　　（1）感知模型
　　感知模型主要是模拟人耳的感觉器官，根据听觉的掩蔽效应将声音响度映射为巴克域响度指标[10]，然后用客观指标表述语音感知。POLQA感知模型[2]输出的客观性指标主要有频率响应指示、噪音指示、混响指示以及三个描述语音内部差异的指标：时间-音调-响度，另外还有6个与音量/噪声/音色等有关的补偿性指标。POLQA感知模型的主要计算步骤如下：
　　1）首先设定窗口长度和语音的起止点，将音频通过FFT变换到频域，然后音高功率振幅被归一化到频率为1 kHz正弦波，声压等级为40 dB SPL的基准刻度；
　　2）语音信号从频域映射到巴克域音高功率密度的计算；
　　3）计算频率响应、噪音和室内混响的指标；
　　4）对参考信号和劣化信号进行电平、噪音等方面的补偿；
　　5）响度密集度计算，主要将音高的功率密度转换为听觉的响度密度；
　　6）内部感知差异的计算，并根据相关结果计算响度扰动密度，用于认知模型评分。
　　（2）认知模型
　　认知模型基于感知模型输出的扰动密度、客观性指标（频率响应指示、噪音指示、混响指示）以及6个补偿性指标计算出原始POLQA值，用一个三阶多项式再映射为MOS-LQO值。在窄带模式下，MOS-LQO分值最大为4.5，在超宽带模式下，MOS-LQO分值最大为4.75。
　　4 POLQA在VoLTE语音质量测试中的表现
　　在无线通信中影响通话质量的有编码、误码、信噪比、传输质量等诸多因素，本文采用定点测试法，所处VoLTE网络环境基本稳定（商用网络在合理范围内会有波动），测试环境符合要求。
　　4.1 测试环境说明
　　测试点位于室内9楼，与VoLTE商用基站A距离100 m，基站B距离340 m左右，在视距范围内，信号覆盖良好，网络结构及配置如图3所示。测试软件为华星FlyWireless6.0，测试设备包括2部HTC M8终端手机、1台电脑、1部MOS盒。测试手机可根据测试需要锁频LTE频段。
　　手机根据测试需求打开或关闭VoLTE语音功能，通话时有4种网络占用状态：
　　（1）主被叫手机均占用VoLTE网络互拨，简写为L2L；
　　（2）主被叫手机均占用GSM网络，简写为G2G；
　　（3）主叫手机占用VoLTE网络，被叫手机回落到GSM网络，简写为L2G；
　　（4）主叫手机回落到GSM网络，被叫手机占用VoLTE网络，简写为G2L。
　　测试前选择48k和8k两种采样速率的标准语料备用。
　　4.2 PESQ和POLQA测试对比
　　测试手机占用基站A第2小区LTE-F频段（RSRP约为-84 dBm），测试PESQ和POLQA两种算法的评分差异。结果对比表明POLQA算法的MOS分值较低，如表3所示。每种测试取20次MOS值平均，下同。
　　两种算法的评分结果差异不大，主要由于两者都支持50—7000 Hz的音频处理范围，但是POLQA算法在原理上考虑了线性失真、响度丢失等影响因素，且根据文献[3]的研究，POLQA算法的MOS值均方根误差更小，准确度更高。

（www.fabiaoba.com），是一个专门从事期刊推广期刊发表、投稿辅导、发表期刊的网站。
　　本站提供如何投稿辅导、发表期刊，寻求论文刊登合作，快速投稿辅导，投稿辅导格式指导等解决方案：省级论文刊登/国家级论文刊登/ CSSCI核心/医学投稿辅导/职称投稿辅导。

投稿邮箱：fabiaoba365@126.com
　在线咨询： 275774677、 1003180928
　在线咨询： 610071587、 1003160816
　联系电话：13775259981