性能好的图像质量评价(IQA)算法,其质量评测分数会与主观质量分数高度一致,IQA 有许多评价指标,为了衡量方法测试结果与主观评价之间的一致性,视频质量专家组VQEG(Video Quality Experts Group,目前国际上对视频质量进行标准化及性能测试的权威组织)提出了四个可以验证客观评价结果和主观评价结果之间的紧密程度的四个指标:PLCC、SROCC、KROCC 和 RMSE ,也是目前最常用的 IQA 算法性能的评价指标。
皮尔逊线性相关系数(Pearson linear correlation coefficient,PLCC)用于评估 IQA 模型预测的准确性,也有一些文献写成线性相关系数(Linear correlation coefficient,LCC)。PLCC评价的是主观分值(MOS)与非线性回归后的客观分值的相关性,在计算PLCC前,需对客观分数和主观分数进行非线性回归操作(非线性拟合),建立客观分值与主观分值的非线性映射。
用于非线性回归的 logistic 函数计算为式1, 其中Q表示原始的客观质量分数,β1、β2、β3、β4、β5为模型参数(需要拟合的参数),p是经过回归操作的客观质量分数。式2 计算PLCC,si 和 pi 分别表示第 i 幅图像的主观质量分数和客观质量分数,sˉ 和pˉ 分别表示主观质量分数平均值和客观质量分数平均值。
PLCC 描述两组数据之间的线性相关性,其取值范围为 -1~1。当 PLCC 的值为零时,表示两组数据完全不相关(图像的客观质量分数和主观质量分数相差很大);当 PLCC 值为 1 或 -1 时,表明两组数据完全相关(图像的客观质量分数和主观质量分数一样)。PLCC 描述算法的客观评价分与人眼主观打分之间的相关性,衡量了IQA算法预测的准确性。
斯皮尔曼等级相关系数( Spearman rank-order correlation coefficient,SROCC) , 也有一部分文献写成SRCC或 “斯皮尔曼秩相关系数” ,用于衡量IQA算法预测的单调性。其计算式如式3,N 表示样本数量,di 表示第 i 幅图像主观质量分数排名与客观质量分数排名的差值(假设主观评价值数组为 x,客观评价值数组为 y,首先将 x、y按照从大到小的顺序进行排列,记 xi、yi 为第 i 幅图像在排序之后各自数组中的位置,则 di = xi - yi )。
SROCC对两个目标数组的秩次大小作线性相关分析(两组数据的等级相关性),常被认为是两个对象分别经过排列后的皮尔逊线性相关系数,适用范围比较广泛。取值范围为 0~1,性能值等于 1 时,表明两组数据完全一致。
肯德尔等级相关系数(Kendall rank-order correlation coefficient,KROCC),在一些文献中写作 “肯德尔秩相关系数” ,与SROCC一样用来衡量 IQA 模型预测结果的单调性。计算式如式4,其中N 表示样本数量,Nc 是数据集中的一致对的个数(也叫作 “和谐对” ,指变量大小顺序相同的两个样本观测值,即 x 等级高低顺序与 y 等级高低顺序相同,否则称为 “不和谐” 或 “不一致” ),Nd 是数据集中的不一致对个数。两个数据序列中任何一对数据(xi, yi)和 (xj , yj ),当 xi > xj 且 yi > yj 或 xi < xj 且 yi < yj ,则数据对一致(高低顺序一致);当 xi > xj 且 yi < yj 或 xi < xj 且 yi > yj , 则数据对不一致(高低顺序不一致);当 xi = xj 或 yi = yj , 则既不是一致的,也不是不一致的。
KROCC的数值越大, 说明两个信号数据之间的相关性越好,值越小说明相关性越差。
均方根误差 (root mean square error,RMSE)用于评估 IQA 模型预测的一致性。计算式如式5,si 和 pi 分别表示第 i 幅图像的主观质量分数(MOS值)和客观质量分数(算法预测得分),衡量两组数据之间的绝对误差。
均方根误差越接近于 0,表明算法的性能越好。均方根误差用来比较算法预测得分与人眼主观打分之间的绝对误差,不同类型的质量指标取值范围可能不同,许多算法MOS输出值在 [0, 100] 区间,但也有部分MOS值取 [0, 9] 或其它(此处可点击翻看上一篇学习笔记:图像质量评价学习笔记01:IQA的基本概念及分类),所以在计算RMSE前需要先进行归一化。
【后续跟进,如有不足请批评指正】