随着超高清视频、直播短视频、元宇宙、全景视频、AIGC视频生成、监控安防等应用视频领域的迅速发展,音视频产业正迎来了前所未有的黄金时代,而视频压缩(视频编码)技术作为视频产业的技术基础,是整个未来视频大数据时代的技术制高点。本文将对视频编解码技术进行简要说明以及对当前主流的视频编码技术标准进行介绍并对其性能进行对比分析,期冀为未来视频编码技术方案选型提供参考

1. 视频内容本质

视频是由一系列的连续图像帧序列组成,图像帧的连续播放则呈现出动态影像(见Fig_1)。所谓视频压缩即视频编码技术,其目的是通过压缩算法来去除视频信息中的冗余,达到减少视频文件空间占用的效果。比如监控摄像头经过采集后生成原始视频,不经视频压缩编码处理,其源视频数据量非常庞大,在进行传输和存储时,带宽通道和存储设备无法对如此巨大的数据量进行有效支撑(见Fig_2),因此需要将源数据进行视频压缩编码处理。

Fig_1连续视频帧

Fig_2 视频采集编码和视频重压缩技术示范

2. 视频业务流程

区别于传视频处理流程(见Fig_3),智能流程加入了更多人工智能处理技术,是的视频的呈现方式出现了多元化的变化,除了最初的屏幕呈现外,数字孪生,智能化应用,虚拟现实等场景变化对视频最终呈现形式提出了更高的要求,也推动着视频产业进入新的发展阶段,并广泛应用于视频通信、远程医疗、智能制造、智能安防、广电传媒等诸多行业中。视频编码技术的蓬勃发展和视频多元化应用需求推动整个视频产业链的重大变革,然而目前视频编码技术发展仍然滞后于视频发展的需求,推动视频技术迭代更新仍是整个产业的迫切需求。

Fig_3 视频业务流程说明图(传统流程VS.智能流程)

3. 视频产业链

视频产业链由元器件层,设备层,服务层和应用层组成(如Fig_4)。元器件层包括显示面板,光学器件,图像传感器,镜头等等元器件以及存储芯片、图像处理、视频编码芯片,处理器芯片、以太网口、PHY等,是整个视频产业的基础支撑。设备层包括4G/WiFi等无线、有线宽带、卫星传输等网络传输设备以及手机/PC/平板、NVR/解码器、TV/机顶盒、投影显示、VR/AR头显等终端呈现设备。服务层包括视频云服务、视频方案服务、安全服务、增值服务、集成服务等,服务层是视频产业链的核心环节,也是国内各大厂商竞争最激烈的行业,根据服务的提供方式可分为服务提供与方案自研两大类。应用层的细分场景是视频产业链的生命力所在,目前已经渗透到广播电视、监控安防、教育办公、医疗健康、智能交通、智能制造等诸多行业中,基于该领域的创新是千行百业数字化转型的重要赋能力量。

Fig_4 视频产业链结构图

4. 视频压缩本质

视频数据之所以能够内编码压缩是因为视频数据中存在大量信息冗余,视频本质是连续的图像帧序列,由于人眼的短暂停留效应产生了运动感,连续图像帧之间相似度极高,存在大量的信息冗余。而通过算法去除数字化视频数据中信息冗余,以最精简的方式予以表达的过程即为视频编码。

空间冗余:视频图像在水平方向相邻像素之间、垂直方向相近像素之间的差别很小,具有较高的相似度;

时间冗余:视频中相邻帧之间存在很多相似的图像序列,可利用帧之间的相似性进行压缩来减少存储空间;

空间冗余和时间冗余是视频编码中最常见的信息冗余,特别是在静止场景或缓慢移动的场景中,编码过程中可以通过运动估计、时间预测和变换编码等技术来去除。

信息熵冗余:人们用于表达某一信息所需要的比特数总比理论上表示该信息所需要的最少比特数要大,我们可以根据不同像素的出现概率不同,概率高的像素分配较少字节,概率低则分配较多的字节;

视觉冗余:人的视觉系统对于某些细节信息的感知能力是有限的,例如在低分辨率或低帧率的情况下,人眼无法分辨某些细节。编码时可以一定程度舍弃这部分信息冗余,而几乎不影响人眼视觉效果。

数据冗余:在视频数据中,可能存在一些数据冗余,例如在某些场景中,物体的颜色或纹理等属性是固定的,可以通过对这些属性进行编码来减少数据冗余。

5. 视觉效果概念

随着电子信息技术的快速发展,视频的呈现形式和视觉效果也出现了多元化变化,从开始标清,高清,全高清发展到蓝光、超高清,另外对视频帧率、色域、色位深也提出了更高要求。

Tab_1 图像清晰度定义

6. 有损压缩和无损压缩

有损压缩:解码还原出来的图像/视频/语音和原始文件会存在部分信息丢失或被替换的压缩方式。由于有损压缩往往压缩的部分是人类视觉感知不明显的区域,压缩比相对较高,能够很好适应当前的网络传输和存储现状,被广泛用于互联网、安防、教育等行业。 目前我们在互联网和安防领域看到的绝大部分视频图像文件(JPEG/JPG/WebP等)和视频文件(H.264/HEVC/AVS)都是有损压缩范围。

无损压缩:解码还原出来的图像/视频/语音文件和原始文件完全一致。无损压缩通常用于需要保留原始文件质量的情况下,应用范围较窄,仅适用于医学图像(DCM)、遥感图像(TiFF)、高清图像处理(BMP,PNG)等少数领域。

Fig_5 图像压缩展示

7. 模拟视频和数字视频

模拟信号是指用可连续变化的物理量所表达的信息,在特定范围内有无数多个连续取值。而数字信号则在取值上是离散的、不连续的信号。模拟信号信息密度比数字信号更高,不存在量化失真,能够真实物理量尽可能逼近的表达。

Fig_6 模拟和数字信号表达

(图左为模拟信号表达,图右为数字信号表达)

模拟视频则是由连续的模拟信号组成的图像视频,是一种随着时间变化连续的电信号。在早期我们接触到视频影响资料都是模拟视频,由于其不适宜进行长期存放,难以多次复制,且图像信号强度会随着时间迁移而逐渐衰减,难以保持原有图像视频画质而逐渐倍淘汰。

数字视频:以数字形式记录的视频,可以通过摄像头直接采集得到的数字信号,数字视频可进行无数次复制而不失真,可长期存放,并可以对视频进行非线性编辑处理等优点而成为当前视频最主流形式。

作者:贾春华  

裕瀚科技产品总监,多项发明专利,多次从0到1主持或深度参与B端产品开发和设计经验,10+年视频安防技术和产品经验。


0 Comments

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

XML 地图