基于HEVC的全景视频编码毕业论文

2020-04-10 04:04

摘要

近年来，随着虚拟现实和增强现实领域的热潮，人们对全景视频的关注也逐渐提高。全景视频（又称为沉浸式视频或球形视频）是通过全景相机同时刻捕获360°范围的场景而获得。观看者在观看过程中能看到全方位的视频，产生身临其境的感受。鉴于全景视频所消耗的大量数据，实现高效压缩对存储和传输至关重要。

常用的全景视频编码方法是将全景视频投影到平面上（通过不同的几何形状），以便用传统的2D视频编码标准（如HEVC/H.265等）进行处理。然而，由于标准视频编码器仅允许在帧间预测的运动补偿过程中使用块平移模型，这与投影后的球形视频中的运动不兼容，所以这些方法显然是次优的。具体而言，有效采样密度在球面上变化，并且所产生的局部变化的翘曲在投影域中产生复杂的非线性运动。因此，投影域中的平移不会保留球体上的对象的形状和大小，并且其对应的运动矢量不具有实质性的物理意义。

为此，本文提出用旋转运动模型直接在球体上表征运动，具体来说，该旋转运动模型中的旋转指的是沿着测地线的球体旋转。该模型可以保留球体上物体的形状和大小。此模型中的运动矢量隐式指定了旋转轴和围绕该轴的旋转角度，以表达球体上物体的实际运动。作为对新型运动模型的补充，我们进一步提出了一种有效的运动搜索技术，该技术适合球体的几何形状。实验结果表明，与普通的运动模型相比，所提出的编码框架具有明显的性能改善。

关键词：全景视频，视频编码，运动补偿，帧间预测，HEVC

Abstract

The recent boom in the field of virtual and augmented reality has dramatically increased the prevalence of spherical video. Panoramic video (also called spherical video or immersive video) is obtained by capturing a 360-degree scene at the same time with a panoramic camera. The viewers can dynamically control the viewing direction when enjoying the videos, resulting in an immersive experience. Given the enormous amount of data consumed by spherical video, it is critical to achieve efficient compression for storage and transmission.

Prevalent approaches simply project (via different geometries) the spherical video onto planes for processing with traditional 2D video coding standards. However, such approaches are significantly sub-optimal as standard video coders only allow for block translations in the critical tool of motion compensated prediction, which is incompatible with the expected motion in projected spherical video. Specifically, the effective sampling density varies over the sphere and the resulting locally varying warping yields complex non-linear motion in the projected domain. Hence, translation in the projected domain does not preserve an object’s shape and size on the sphere, and its corresponding motion vector does not have a useful physical interpretation.

Instead, we propose to characterize the motion directly on the sphere with a rotational motion model, specifically, in terms of sphere rotations along geodesics. This model preserves object shape and size on the sphere. A motion vector in this model implicitly specifies an axis of rotation and the degree of rotation about that axis, to convey the actual motion of objects on the sphere. Complementary to the novel motion model, we further propose an effective motion search technique that is tailored to the sphere’s geometry. Experimental results demonstrate that the proposed framework achieves significant gains over prevalent motion models.

Key words:Panoramic video, Video coding, Motion compensation, Inter prediction，HEVC

第1章绪论

研究背景及意义

随着消费级VR技术的不断完善，HTC Vive（VR）、Oculus Rift、Gear VR等VR设备得到井喷式发展。全景视频也随之进入公众的视野，在视频会议、景观展示、机器人自动导航、远程监测控制等领域得到广泛应用。全景视频（又称为沉浸式视频或球形视频）是通过全景相机同时刻捕获360°范围的场景而获得，观看者在观看过程中能看到全方位的视频，产生身临其境的感受。然而，为了达到沉浸式的视觉体验，全景视频需要有极高的分辨率（至少4K）和极高的帧速率（例如90fps甚至更高），这将导致它会消耗大量的数据，这也对全景视频的存储和传输构成巨大挑战。

全景视频为用户提供沉浸式的体验是通过在球体上以360°视角捕捉场景来实现的。为了简化存储和传输以及高效访问全景视频的所需部分，数据通过不同的投影方法投影到平面上，例如等距形投影（ERP），立方体投影（CMP），正八面体投影（OHP）或正二十面体投影（ISP）^[1]。在每种情况下，均匀的平面采样会在球面上产生随位置变化的采样密度，从而引起严重的翘曲，这种翘曲的大小会根据位置而变化。

随着视野的增加，360°视频所消耗的数据量比标准2D视频大得多，因此这种视频的应用可行性主要取决于针对360°视频特性量身定制的强大压缩算法。现有的视频编解码器（如AVC^[2]、HEVC^[3]）的核心组件是运动补偿预测，也常称为“帧间预测”，其主要目的是消除视频在时域的像素冗余^[4]。标准视频编解码器使用平移运动模型进行帧间预测，而一些非标准方法则考虑了仿射运动模型的扩展，这些模型可能能够处理更复杂的运动，但是算法的复杂度很高（请参见^{[5 ,6]}）。尽管如此，在360°视频中，由于投影而引起的翘曲量在球面的不同位置是不相同的，并且这种不均匀的翘曲会在投影平面上产生不规则的运动，所以难以用平移运动模型及仿射运动模型来准确描述该运动。请注意，即使是单位球体上物体的简单平移，也会导致投影域中出现复杂的非线性运动。因此，需要一种新的运动补偿预测技术，以适应360°视频信号的特性。

由于360°视频展示的是单位球体上捕获的场景，因此在该球体上表征运动是最自然的。因此，我们提出了旋转模型来表征球体上的角运动。在所提出的编码框架中，我们将运动定义为球体表面上像素块沿着测地线的旋转，并且将表示该旋转的信息定义为“运动矢量”而不是2D投影几何体中的块位移。由于旋转是同意的变换，所以提出的运动模型保留了球体上物体的形状和面积。该模型还可以保证，只要给定运动矢量，就将块上的所有像素都旋转相同角度，而不管编码块在球体上的位置如何。由于这一特点，运动搜索的模式、范围和精度与编码块在球体上的位置无关，这可以解决当前方法的运动搜索次优性的问题。作为运动模型的补充，我们提出在球体上编码块的中心周围采用新的“辐射状”搜索模式，以进一步提高性能。在球体上执行运动补偿并且具有固定的运动搜索模式，使得所提出的方法普遍适用于所有投影几何体。

国内外研究现状

目前，对全景视频编码方案的研究主要有两类：一类是针对全景视频的投影方式的研究，使得投影域的视频更适合现有的视频编解码器；另一类是针对全景视频在投影域的特点，改进现有的视频编解码器，以实现高效的视频压缩。

王悦名等^[7]提出多种面向全景视频的投影方法，例如双极方形投影、双环带投影、非对称圆形投影和等角金字塔投影等，这些投影方法可以有效的解决在球体两极区域存在的过采样问题，使得投影域的采样密度均匀，可有效降低码率，提高编码性能。Li等^[8]提出将ERP格式视频按照高度分成三部分，中间部分保持原始宽度，将等矩形投影上下两部分内容压缩成两个圆形。这是旨在通过降低等矩形投影面中冗余像素面积达到提高编码性能的目的，但是没有考虑将图像部分压缩成圆形对人眼较为关注区域画面质量造成了影响。L. Li等^[9]提出一种基于3D填充的联合投影平面，旨在解决多面体投影时出现的面边界不连续的问题，使得投影域的视频在利用标准视频编码器编码时获得更多的比特节省。Kammachi-Sreedhar^[10]等提出了一种嵌套多边形链的映射方法来解决ERP投影时出现的采样密度不均匀的问题，该方法可以有效降低码率，但是算法复杂度较高。以上几种方案都是通过改变或优化全景视频的投影方法，使得全景视频在投影域更接近普通的2D视频，以提高全景视频的编码效率。

针对全景视频出现的大量非平移运动，Li等^[11]提出了一种二阶仿射运动模型，并将6个运动参数缩减为4个，在可以有效应对全景视频出现的复杂运动的同时，还适当减少了算法复杂度。胡强等^[12]提出了一种全新的运动补偿和预测的模式，用于提高 360°全景视频的时域编码效率。为避免几何失真对运动预测带来的影响，首先将当前编码块的像素投影到三维球面坐标，利用球面运动一致性的特点，在球面坐标系中找相对应的参考像素，并最终将三维球面坐标投影回二维坐标。它提出了基于球面坐标的运动向量预测方法，避免了投影变换带来非平移运动的影响。Budagavi等^[13]提出了一种用于立方体投影的3D平移运动模型。在这种方法中，当前编码块和参考块的中心被映射到球体，并且计算这些向量之间的3D位移。然后当前编码块的其他像素也映射到球面上，并按照由块中心得到的3D位移向量平移。以上方法都是针对全景视频在投影域的特点，例如出现大量的非线性运动、边界不连续等，提出改进的运动模型，以提高运动估计和运动补偿的效果，最终实现编码效率的提升。

研究内容

目前，针对全景视频的编码方法大多为将球面视频通过某种几何形状投影到平面，再利用标准视频编码器（例如：HEVC参考软件HM16.16^[14]）进行编码。然而，由于标准视频编码器仅使用平移运动模型进行运动估计和运动补偿，这与投影域的全景视频中的运动不兼容，所以这些方法显然是次优的。具体而言，有效采样密度在球体上变化，并且所产生的局部变化的翘曲在投影域中产生复杂的非线性运动。因此，投影域中的平移不会保留球体上的对象的形状和大小，并且与其对应的运动矢量不具有有用的物理意义。因此，本文提出一种旋转运动模型，直接在球体上表征运动，具体地说，就沿着测地线的球体旋转而言。该模型保留了球体上的物体的形状和大小。此模型中的运动矢量隐式指定了旋转轴和围绕该轴的旋转角度，以表达球体上物体的实际运动。作为对新型运动模型的补充，我们进一步提出了一种有效的运动搜索技术，即辐射状的运动搜索技术，该技术适合球体的几何形状。

章节安排

本文共六个章节，具体安排如下：

第一章首先介绍本文的研究目的和意义，然后简要介绍了国内外的研究现状，最后，介绍了本文的主要研究内容和本文的章节安排。

第二章首先说明了视频的概念，然后概述了主流的视频编码标准的发展历程，最后详细介绍了HEVC编码框架和帧间预测编码技术。

第三章首先阐述了全景视频的概念，然后介绍了各种现有的全景视频的投影方案。

第四章介绍了本文所提出的基于旋转模型的编码框架。首先介绍了辐射状的运动搜索算法，然后介绍了旋转运动模型。

第五章首先介绍了实验的测试条件和实验流程，然后展示并分析了实验结果。

第六章总结全文，分析设计中的不足之处并对未来的学习和研究方向作出规划。

第2章 HEVC编码原理概述

2.1 HEVC的编码框架

HEVC的编码原理如图2. 1所示，编码过程为：首先将输入视频序列像素值与该序列的预测像素值对应相减，得到残差序列，然后对残差序列进行变换和量化处理，最后对量化后的符号序列进行熵编码。HEVC采用了混合编码框架，下面将详细介绍各个编码模块的功能。

（1）帧内预测

该模块的作用是降低视频的空域冗余。它主要是利用视频的空间相关性，根据当前帧中已完成编码的块去预测与之相邻块的像素值，从而到达减少比特消耗、提高编码效率的目的。相比AVC标准，HEVC支持更多种类的帧内预测方式。

（2）帧间预测

该模块的作用是降低视频的时域冗余。它主要利用视频的时域相关性，为当前块在参考帧（已编码）中找到一个匹配块，然后用匹配块来预测当前块的像素值，这样可以有效节省码率，提升编码效率。在HEVC中，帧间预测可分为单向的和双向的，P帧只能进行单向的预测，即前向预测，而B帧则可以进行前向预测和后向预测，每一个B帧可以有两个MV。

（3）变换量化

该模块的作用是通过对残差数据进行变换量化处理，降低图像的频域相关性，以实现对数据的更好压缩。图像的能量在空间域的分布较为分散，通过变换编码后，能量在变换域的分布比较集中，便于进行量化和熵编码。量化模块可以减小图像变换系数的动态范围，进而获得更好的编码效果。变换编码和量化处理本身属于两个相互独立的过程，但是HEVC中将两个过程合并在一个模块里，其目的是为了减少了计算复杂度。

（4）去方块滤波

该模块的作用是提高重建视频的质量。由于HEVC中的编码是以块为单位的，所以得到的重构图像中的相邻块之间会存在不连续，这会造成“马赛克”显现，即方块效应。去方块滤波采用边界补偿技术，可以有效消除“马赛克”，提高视频的质量。

（5）样点自适应补偿

作为HEVC视频编码标准中新增加的模块，其作用是进一步的提高重建视频的质量，通过分析去方块滤波之后的图像像素的特点，然后选择合适的模式对像素进行补偿，其作用是减少振铃效应、提高视频质量。

（6）熵编码

熵编码模块是视频编码框架的最后一环，属于无损编码，它的输出码流即为编码器的最终输出。视频经过前面众多环节的处理后，变成一个用来描述视频信息（包括预测信息、变换系数等）的符号序列。为了进一步的降低最终输出的码率，我们利用熵编码模块来去除输入元素符号的统计冗余，以保证视频编码压缩效率。

图2. 1 HEVC标准的编码框架

2.2 预测编码原理

预测编码是HEVC标准中的核心技术之一，它是根据某种预测模型，利用已编码的样本值来得到待编码样本的预测值，然后对样本的真实值和预测值之间的差值进行编码。通常，视频帧中邻近像素之间的空域相关性很强，并且时间上相邻的帧之间的时域相关性也很强。因此，先进的视频编码标准里，都利用预测编码的方法来减少视频空域和时域的相关性。帧间预测和帧内预测是HEVC中的两种预测方法，前者利用已编码图像来预测当前图像，后者是利用图像中已编码的像素预测邻近像素。

由于视频图像的像素间存在很强的相关性，所以可以将视频看作是一个有记忆信源。通常，我们利用条件编码来编码有记忆信源，因此预测编码技术是一种改进的条件编码，它采用专用的预测模型来处理像素间的多重相关性。图2. 2描述了一种简单的预测模型，当前像素只将位于它之前的一个已编码像素作为参考像素，利用这种预测模型，我们可以根据参考像素的值直接得到当前像素的值，然后对当前像素真实值与预测值的差值进行编码。

以上是毕业论文大纲或资料介绍，该课题完整毕业论文、开题报告、任务书、程序设计、图纸设计等资料请添加微信获取，微信号：bysjorg。

注册

找回密码

基于HEVC的全景视频编码毕业论文

Abstract

目录

第1章绪论

研究背景及意义

国内外研究现状

研究内容

章节安排

第2章 HEVC编码原理概述

2.1 HEVC的编码框架

2.2 预测编码原理

您可能感兴趣的文章

最新文档

推荐栏目

登录

注册

找回密码

基于HEVC的全景视频编码毕业论文

Abstract

目 录

第1章 绪论

研究背景及意义

国内外研究现状

研究内容

章节安排

第2章 HEVC编码原理概述

2.1 HEVC的编码框架

2.2 预测编码原理

您可能感兴趣的文章

最新文档

推荐栏目

目录

第1章绪论