知觉H.265/HEVC视频编码研究进展外文翻译资料

2022-11-10 14:42:26

英语原文共 4 页，剩余内容已隐藏，支付完成后下载完整资料

知觉H.265/HEVC视频编码研究进展

陈振中、李一鸣

武汉大学遥感与信息工程学院

摘要

H.265/最新的高效视频编码（HEVC）由ITU-T和视频编码联合协作小组的ISO/IEC（JCT-VC）已经显示出比上一个视频编码标准H.264/AVC有显著的压缩改进。随着H.265/HEVC的建立，人们越来越关注如何进一步提高视频质量。这样就可以获得更好的编码效率。本文综述了基于H.265/HEVC的视频编码系统的主观优化研究，总结了感知H.265/HEVC的最新视频编码进展，参照我们之前的工作，我们将当前感知H.265/HEVC视频编码技术分为两类：基于视觉模型的方法和信号驱动的方法。此外，由于新技术作为编码树单元（CTU）的结构和样本自适应偏移量（SAO）。知觉的未来研究方向讨论了H.265/HEVC视频编码。

索引项：H.265/HEVC，感知编码，主观优化

1.引言

H.265/高效视频编码（HEVC），由ITU-T SG 16 Q.6联合开发并发布，也称为视频编码专家组（VCEG）和ISO/IEC JTC 1/SC 29/WG11，又称动画片专家组（MPEG）在联合视频编码协作小组（JCT-VC）中，2013[1]成功将H.264/AVC作为下一代视频压缩标准。与H.264/AVC或其他现有标准H.265/HEVC显示出显著的性能改进。尽管它遵循混合编码结构上，它采用了一些新的编码工具，如四叉树编码结构、样本自适应偏移（SAO）、高级运动矢量预测等作为新的组成部分，编码树单元（CTU）取代16x16像素宏块早期标准。在H.265/HEVC中，图片分为CTU的尺寸从64x64到16x16不等。

CTU适应内容的差异显示了对于高分辨率的视频的重要性。用于预测编码和变换，相应地。另外，样品自适应偏移（SAO）设计成能够提高处理图片质量的H.265/HEVC。尽管H.265/HEVC是最先进的视频压缩标准，并且拥有许多先进的编码工具。它有基于主观优化的若干思考人类视觉系统的特征，即去块效应，更好地利用人类的优势。因此，视觉系统可以进一步消除视觉冗余提高压缩效率。基于H.265/HEVC视频压缩框架，一些感知优化已经开发了一些方法，例如将感知特征与CTU等新的编码工具相结合[2]或SAO[3]。本文的其余部分将详细地描述感知H.265/HEVC视频编码技术的最新进展。第2节简要介绍H.265/HEVC的提出。第3节总结了感知H.265/HEVC视频编码。第4节通过一个示例的方法说明H.265/HEVC感知优化的优点。在第5节中，我们总结了全文。

2. H.265/HEVC的介绍

H.265/HEVC成立于2013年1月。相比对于早期的标准H.264/AVC，H.265/HEVC有一些新功能，如编码单元的四叉树结构，样本自适应偏移（SAO）、高级运动矢量预测（AMVP）等[1]。在H.265/HEVC中，框架被分割编码树单元（CTU），它可以使用一个大的块结构高达64x64像素。这个分区可以划分使用四叉树语法连续转换为编码单元（CUS）。因此，H.265/HEVC可以适应高分辨率视频编码。铜可以进一步分解成PUs和TUs，其中h.265/hevc定义pu（预测单位）预测编码和转换单元。在图像间预测中，H.265/HEVC允许高级运动矢量预测（AMVP）提高编码效率同时使用运动矢量编码的合并模式。此外，H.265/HEVC中增加了样本自适应偏移量（SAO）来重建信号。H.265/HEVC还包含几个使之更加并行友好的技术[1]。基于这些新技术，与H.264/AVC相比在同一视觉质量水平下的比率，H.265/HEVC使压缩量加倍。

3. 感知H.265/HEVC视频编码

随着人类视觉系统研究的进展和视频压缩系统的发展，新的感知优化模块已集成到视频编码系统中。随着最新H.265/HEVC视频编码标准的建立，以及对H.265/HEVC视频编码系统的主观质量进行了优化。总结不同的感知视频编码算法在H.265/HEVC框架中的应用，我们参考[4]将它们分为两类，基于视觉模型方式和信号驱动方式。

3.1基于视觉模型的方法

3.1.1基于ROI的视频编码

众所周知，当人们观看视频或图片时，他们可能只关注视觉场景，而不是整个画面或图像。因此，兴趣区域（ROI）或兴趣对象（OoI）研究了基于感知视频编码的方法。然而，随着H.265/HEVC引入了新的四叉树编码结构这在设计和实现基于ROI的H.265/HEVC带来了一定的挑战。一种基于人脸的层次感知模型已在[2，5]中提出。考虑到眼睛、嘴巴和其他面部区域具有不同的兴趣级别，针对不同的面部区域设置不同的权重。在这个ROI视频编码方案中，区域的重量越大，分割的LCU深度越大允许并使用更精细的量化参数（qp）。称为基于权重的统一速率量化（URQ）方案而不是基于像素的URQ方案[2]。

ROI不仅指照片中的人脸，还指背景区域对比的一般前景区域。梁等人。[6]通过场景重构提出一种场景感知感知视频编码，用于识别前景区域以及背景区域。运动结构（SFM）技术用于重建每个场景的三维点对帧进行聚类，然后采用K均值算法对前景和背景进行聚类。此外，为了保护对象边界，作者建议使用通过距离信息调整QP值，获得较好的主观品质。

3.1.2基于注意的视频编码

计算视觉注意模型技术近年来得到了广泛的探索。当人类观察场景时，视觉注意力受到两种方式的影响：自下而上的视觉关注和自上而下的视觉关注。自上而下的注意力依赖于任务、意志控制和基础知识，而自下而上的注意力是独立的任务和非条件反射的。ITTI等。[7]提出了一种基于特征整合理论在关注区域分析中的应用视觉场景。之后，人们提出了不同的注意力模型，并将其用于感知图像或视频编码中。

将这些研究成果纳入H.265/HEVC框架，为了更好的感知质量，Li、米拉尼等人[8]使用根据调整位分配的计算视觉注意模型。[9]使用目标检测算法生成显著性度量并优化对象边缘位分配。如这两种方法所示，基于注意力的感知视频编码通常包括以下步骤：第一步是预先生成显著性通过显著性模型映射/度量每个帧，然后添加视频压缩循环中的这些显著性映射/度量根据不同的编码单元自适应分配比特率到显著性地图/矩阵。更具体地说，这个想法是根据编码单元的概率，由显著性地图/指标。这样，我们就可以保留好的细节区域（ROA）的详细信息，并通过保存其他区域来降低比特率。

3.2信号驱动方法

3.2.1基于感知度量的视频编码

结构相似性指数（SSIM）是一种较好的评价方法。与峰值信号相比的感知视频质量噪声比（PSNR）或平方误差之和（SSE）。所以在一些工作中，SSIM被用于速率失真优化。Yo等人 [10]提出基于SSIM的RDOH.265/HEVC。它们计算SSIM和MSE之间的转换关系，然后在RDO中使用SSIM值替换MSE。通过这种方式，他们声称他们可以获得更好的主观视频性能，因为SSIM可以更好地测量重建视频的视觉质量。也有在H.265/HEVC中执行受SSIM启发的基于除数归一化[11]RDO的作品。

3.2.2.基于灵敏度的视频编码

只是明显差异（JND）定义了两个信号之间最小的可检测差异，因此可以用于量化噪声中可感知的失真被污染的图像。由于视频编码的目的是获得最高的感知质量，JND阈值可以用于确定最佳量化步长用于视频帧的不同部分。有一些计划H.265/HEVC使用JND型号[3，12]。基姆等人[13]将JND模型用于转换跳过模式（TSM）和通过调整RDO转换非跳跃模型（非TSM参数）。对于TSM，它们重置不同根据亮度掩蔽（lm）效应的JND模型确定变换单元（TU）块的尺寸，其尺寸范围为4x4到32times;32。对于非TSM，他们使用时间的JND模型掩蔽（TM）效应、对比度掩蔽（CM）效应和产生对比度灵敏度函数（CSF）除了LM效应。杨等人。[3]提出基于JND的SAO RDO方法在SAO中引入JND模型，可以大大降低计算复杂度。这两个提议感知视频编码方法使用JND模型H.265/HEVC框架中的两个不同模块，即一个用于变换和量化，另一个是SAO。基于这些方法，H.265/HEVC的感知质量可以改进。

图1 基于注意的H.265/HEVC视频编码[9]

3.2.3.基于纹理的视频编码

Ndjiki Nya等人[12]在基于纹理分析和合成的视频编码中使用了基于内容的视频编码。这项工作已进一步扩展到H.265/HEVC[14]。基于这种视频编码技术，编码器可以跳过自纹理分析和存储后的一些区域而解码器可以参考纹理合成来重构区域。

3.2.4。基于时间优化的视频编码

除上述信号驱动方法外，Adzic等人[15]还提出了一种时间感知编码。基于最大空间锐度与视网膜速度的关系，建立了一个时间视觉锐度模型，通过消除基于频率和速度的信号系数需求，提高H.265/HEVC的感知编码性能。

图2 原始视频帧（公园图景）192x1080和相应的显著性地图

4.知觉h.265 / hevc的例子

在本节中，提供了一个示例来演示感知H.265/HEVC视频编码的优点。这个例子来自于作者先前基于关注的H.265/HEVC[4]。感知H.265/HEVC视频编码框架如图1所示。

为H.265/HEVC输入显著性信息，确定铜的量化参数。越高注意概率，量化参数越小。原始的HM方法用于比较。视频序列由原始序列或HM 11.0，QP值为32或感知方法，其中根据注意权重，QP值在32到37之间。图2显示了由现场。不同注意区域或不注意区域的结果如图3所示，以说明主观质量比较的效果。

对于注意力区（A）和（C），就像使用同一个QP，不会出现什么不同。不注意地区（b）和（d），虽然最大的QP是在注意：基于H.265/HEVC的高客观质量损失对本地区，感知质量的影响整个视频帧不受客观质量影响在不注意的地区降解。原始HM11.0压缩后的图像消耗位为499016位，另一位为409640位。更多详情请参见[8]。

5.结论和未来方向

本文综述了H.265/HEVC感知优化的研究进展。具体来说，我们将当前的H.265/HEVC视频编码技术分为两类：基于视觉模型的方法和信号驱动的方法。除了传统的知觉优化将混合视频编码结构应用于H.265/HEVC，针对H.265/HEVC中的编码树单元（CTU）结构和样本自适应偏移（SAO）等新工具，设计了一种新的面向特征的感知优化方法。随着我们对HVS的深入了解，预计将对HVS特性和H.265/HEVC进行更深入的研究。

图3 从HM方法和基于注意的方法得到注意区域和非注意区域的编码结果。上面：hm结果；下面：基于注意的结果。

此外，尽管我们已经见证了将感知质量度量用于H.265/HEVC视频编码的尝试，但仍有许多方面。在人类感知及其对视频表示的影响中，可以将先进的视频质量指标集成到H.265/HEVC系统中，以获得更好的视觉质量。进一步研究解决人类视觉和信号处理中的多学科问题，有望取得新的突破和巨大的影响。

剩余内容已隐藏，支付完成后下载完整资料

资料编号：[19139]，资料为PDF文档或Word文档，PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容！立即支付

注册

找回密码