VoLTE语音质量评估的POLQA算法研究

时间:2016-08-25 14:01 来源:发表吧作者:陈明点击: 次

　　【论文摘要】为了研究POLQA算法在VoLTE语音质量评估中的表现，首先介绍了POLQA算法的原理，然后通过VoLTE语音实测法，对比了POLQA算法和PESQ算法的评分差异以及影响POLQA评分结果的相关因素。测试结果表明，POLQA评分结果优于PESQ但会受到语料、网络制式、话音回落2G等情况的影响。
　　【论文关键词】MOS PESQ POLQA VoLTE 语音质量
　　[Abstract] To investigate the performance of POLQA algorithm in VoLTE speech quality test， the paper first introduced the principle of POLQA algorithm， then through actual VoLTE speech test compared the scoring differences POLQA and PESQ as well as influential factors. The results showed that the POLQA score is better than that of PESQ and was influenced by speech material， network type， return to 2G， etc.
　　[Key words]MOS PESQ POLQA VoLTE speech quality
　　1 引言
　　2G/3G无线通信中经常采用的PESQ（Perceptual Evaluation of Speech Quality，客观语音质量评估算法）存在一定的缺陷，不太适合VoLTE等通信新技术的语音质量评估[1]。POLQA（Perceptual Objective Listening Quality Assessment，客观感知语音质量评估算法）作为PESQ的升级技术，适用于VoLTE语音质量评估且更为准确[2]，实验结果也表明POLQA评分结果离散程度更低[3]。
　　VoLTE作为全IP的4G语音移动通信技术，具有比2G/3G更宽的音频范围和更高的采样速率与编码速率，话音更自然舒适。现在VoLTE商用网络覆盖深度和广度都还不足，在VoLTE覆盖空洞通话时仍会回落或者切换到2G网络[4]，这些情况对用户感知的影响需要进一步量化和比较，因此需要有效且可靠的评估算法。
　　本文对语音质量评估方法做了回顾，重点研究了新一代评估算法POLQA。通过实测对比VoLTE和PESQ的评估表现，分析语料、网络制式、语音回落等情况下对POLQA算法评分结果的影响，具有实际的参考意义。
　　2 语音质量评估方法介绍
　　语音质量评估方法分为主观评估和客观评估两种类型，早期的语音质量评估采用人工主观打分的方法得到MOS（Mean Opinion Score，平均主观意见值），后来逐渐发展到基于听觉感知模型的客观语音质量评估。
　　2.1 主观语音质量评估及MOS值
　　国际电信联盟ITU-T发布的P.800建议书采用的MOS评分法将人对语音质量的主观感受分为1～5个等级标准，由不同的人分别对原始语音样本和经过被测系统的劣化语音样本进行主观对比打分（如表1所示），然后取平均值[5]。这种主观语音质量评估方法耗时费力且可重复性差，但是语音质量的等级划分为客观语音质量评估提供了评分依据。
　　区别于主观MOS评分，客观语音质量评估算法得到原始分值和主观MOS分值有差别。比如P.862算法提供的PESQ原始分值需要映射为MOS-LQO（MOS Objective Listening Quality，客观语音质量）值；POLQA算法根据音频率范围的不同要映射为MOS-LQOn（窄带）和MOS-LQOw（宽带）。
　　2.2 客观语音质量评估方法
　　ITU-T提出的P.862 PESQ[6]和P.863 POLQA两种客观语音质量评估方法都基于感知模型，原理基本一致，主要差别在于认知模型，在算法细节上有了明显的改进。PESQ和POLQA的原理如图1所示。
　　PESQ算法主要工作流程首先是将参考信号和劣化信号做电平调整和滤波，然后通过时间对齐得到延迟信息，并且参考信号和劣化信号经过感知模型的处理得到两者的感知差异，最后计算MOS评分结果。
　　P.862算法提供的PESQ分值范围是-0.5～4.5，和主观MOS分值还有差距。因此P.862.1提供了一个PESQ分值向MOS分值映射的函数[7]。该映射得到的MOS-LQO分值范围是1.02～4.56。映射公式如下，其中y为MOS-LQO分值，x为PESQ分值。
　　为适应宽带语音质量测量的需要，P.862.2对PESQ算法适用的音频范围扩展到50—7000 Hz[8]。但是PESQ算法仍存在缺陷，如对采用噪声抑制和回声消除技术语音编码方案的测试结果不可靠，不适应更高的编码速率以及超宽带音频范围等。为此ITU-T推出了P.863 POLQA语音质量评估算法，其适用于50—1400 Hz的音频处理范围和更高的语音编码速率，可提供更准确的语音质量评估。
　　3 POLQA算法概述
　　ITU-T P.863 POLQA算法流程如图2所示。参考信号和劣化信号经过滤波、时间对齐、采样率估计、客观感知、评分得到POLQA分值，最后映射到MOS-LQO分值。参考信号称为语料，一般有8k/16k/48k三种采样速率。
　　3.1 时间对齐
　　时间对齐时需要将参考信号和劣化信号分割为很小的时间片，称为宏帧。根据参考信号采样频率的不同，宏帧的长度也有所不同，如表2所示：

（www.fabiaoba.com），是一个专门从事期刊推广期刊发表、投稿辅导、发表期刊的网站。
　　本站提供如何投稿辅导、发表期刊，寻求论文刊登合作，快速投稿辅导，投稿辅导格式指导等解决方案：省级论文刊登/国家级论文刊登/ CSSCI核心/医学投稿辅导/职称投稿辅导。

投稿邮箱：fabiaoba365@126.com
　在线咨询： 275774677、 1003180928
　在线咨询： 610071587、 1003160816
　联系电话：13775259981