基于HEVC的全景视频编码文献综述

2020-05-04 09:05

1．目的及意义

随着消费级虚拟现实技术的不断完善，Oculus RIft、HTC VIVE（VR）、三星Gear VR等VR设备得到井喷式发展。全景视频也随之进入公众的视野，在视频会议、景观展示、机器人自动导航、远程监测控制等领域得到广泛应用。全景视频，也称为球面视频或沉浸式视频，是通过全景摄像机在同一时刻捕获360°范围内的场景来获得，观看者在观看过程中能看到全方位的视频，产生身临其境的感受。然而，为了达到沉浸式的视觉体验，全景视频需要有极高的分辨率（至少4K）和极高的帧速率（例如90fps甚至更高），这将导致它消耗的数据量非大，这也给全景视频的存储和传输带来了巨大的挑战。但是，现有的编解码技术都是针对二维的平面视频所设计的，目前还没有为全景视频量身定制的编解码方法。现有的视频编码方法通常是将球形视频利用某种投影方法[1](例如ERP、CMP等)投影到二维平面上，再利用现有的编码方案（例如H.265/HEVC[2]、H.264/AVS[3]等进行编码。

从球面到二维平面的投影变换将引人为误差，如冗余样本，形状失真和不连续的边界。冗余样本会导致许多无效像素被编码，增大了要处理的数据量。不连续的边界会影响预测性能，而形状失真导致视频编码中低效的运动估计（ME）和运动补偿（MC）[4]。一般来说，不同的投影方法会导致不同类型的人为误差。例如，等矩形投影（ERP）在极点区域附近存在冗余样本和水平拉伸的问题。立方体投影（CMP）会产生不连续的边界，严重影响运动估计和运动补偿的效果。所以针对这些问题，提出一种有效的全景视频编码方法十分有意义。

目前针对全景视频的压缩主要分两类：一种是针对用户观看时的视口(Viewport)进行高效压缩；一种是对投影平面的高效压缩，比如对等矩形投影视频、立方体投影视频进行压缩。Zare 等 [5]提出了针对视口的编码方案，将整幅图像分成若干个 Tile 块,根据视口观看位置分别编码传输该位置所对应的 Tile块的数据，这样避免了因传输整幅图像而占用过多带宽的问题，但由于对图像中部区域分配较大的码率而上下两部分区域采用较低的码流，会导致观看上下两部分时出现画面质量较差的情况。J. Zheng等[6]提出了一种自适应的运动模型选择方法，以解决全景视频在投影平面的复杂的非线性运动。针对不同类型的运动，选择不同的运动模型。虽然这种方法可以对全景视频有效的压缩，但是针对复杂的运动的运动模型，需要得到过多的运动参数。Budagavi 等[7]提出将等矩形格式视频基于不同区域采用不同尺度的高斯滤波后再进行编码，但由于采用了低通滤波会一定程度造成画面模糊，对于图像细节部分损伤较大。Li 等[8]提出将等矩形格式视频按照高度分成三部分，中间部分保持原始宽度，将等矩形投影上下两部分内容压缩成两个圆形。这是旨在通过降低等矩形投影面中冗余像素面积达到提高编码性能的目的，但是没有考虑将图像部分压缩成圆形对人眼较为关注区域画面质量造成了影响。

最近，也有不少专家学者针对形状失真导致视频编码中低效的运动估计（ME）和运动补偿（MC）提出了改进方案。针对全景视频出现的大量非平移运动，[9]提出了一种全新的运动补偿和预测的模式，用于提高 360°全景视频的时域编码效率。为避免几何失真对运动预测带来的影响，首先将当前编码块的像素投影到三维球面坐标，利用球面运动一致性的特点，在球面坐标系中找相对应的参考像素，并最终将三维球面坐标投影回二维坐标。它提出了基于球面坐标的运动向量预测方法，避免了投影变换带来非平移运动的影响。[10]提出了一种用于立方体投影的3D平移运动模型。在这种方法中，当前编码块和参考块的中心被映射到球体，并且计算这些向量之间的3D位移。然后当前编码块的其他像素也映射到球面上，并按照由块中心得到的3D位移向量平移。[9]和[10]都是旨在利用球面上的大部分像素分布均匀的特点，在球面上利用平移运动模型进行运动向量预测，但是这些平移后的向量不能保证在球体上，因此需要重新投影。所以物体形状和尺寸不被保留，并且引入了一些失真。

1.1 研究目的及意义

随着消费级虚拟现实技术的不断完善，Oculus RIft、HTC VIVE（VR）、三星Gear VR等VR设备得到井喷式发展。全景视频也随之进入公众的视野，在视频会议、景观展示、机器人自动导航、远程监测控制等领域得到广泛应用。全景视频，也称为球面视频或沉浸式视频，是通过全景摄像机在同一时刻捕获360°范围内的视频来获得，观看者在观看过程中能看到全方位的视频，产生身临其境的感受。然而，为了达到沉浸式的视觉体验，全景视频需要有极高的分辨率（至少4K）和极高的帧速率（例如90fps甚至更高），这将导致它消耗的数据量非常大，这也给全景视频的存储和传输带来了巨大的挑战。由于全景视频所消耗的数据量极大，实现高效压缩对存储和传输至关重要。

现有的编解码技术都是针对二维的平面视频所设计的，目前还没有为全景视频量身定制的编解码方法。现有的视频编码方法通常是将球形视频利用某种投影方法[1](例如ERP、CMP等)投影到二维平面上，再利用现有的编码方案（例如H.265/HEVC[2]、H.264/AVC[3]等）进行编码。但是，从球面到二维平面的投影变换将引入人为误差，如冗余样本，形状失真和不连续边界。冗余样本会导致许多无效像素被编码，增大了要处理的数据量。不连续的边界会影响预测性能，而形状失真导致视频编码中低效的运动估计（ME）和运动补偿（MC）[4]。一般来说，不同的投影方法会导致不同类型的人为误差。例如，等矩形投影（ERP）在极点区域附近存在冗余样本和水平拉伸的问题。立方体投影（CMP）会产生不连续的边界，严重影响运动估计和运动补偿的效果。

所以，针对全景视频在投影域出现的非线性运动（如形状失真和不连续的边界），提出一种合理的运动模型来提高运动估计和运动补偿的效果，进而提高视频编码效率，是非常有意义的。本文提出了一种基于球面旋转的运动模型，利用此模型进行MV预测将有效提高帧间预测编码效率，实现码率节省。

1.2国内外研究现状

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码