多媒体技术基础课程笔记

 

多媒体技术基础多媒体技术概论多媒体硬件环境数字声音和语音编码MPC (MultimediaPersonalComputer 多媒体个人电脑)软件系统: 多媒体应用软件 多媒体创作软件 多媒体处理软件

多媒体技术基础

多媒体技术概论

多媒体硬件环境

数字声音和语音编码

MPC (MultimediaPersonalComputer 多媒体个人电脑)

软件系统:

  1. 多媒体应用软件
  2. 多媒体创作软件
  3. 多媒体处理软件
  4. 多媒体操作系统
  5. 多媒体驱动软件

硬件系统

  1. 多媒体硬件
  2. 多媒体 I/O 控制卡及接口
  3. 多媒体外围设备

image-20230920083332695

MPC 技术标准与特征

标准: MPC 1、MPC 2、MPC 3

特征: 数字光盘存储设备;高质量的数字声音设备;高分辨率的图形、图像显示;带有多媒体管理如软件

音频接口

音频卡:处理音频信号的 PC 插卡是音频卡,又称声音卡,声音卡处理的媒体有:合成音乐(MIDI),数字化声音(WAVE),CD 音频

功能: 音频的录制与播放,编辑与合成 MIDI 接口 CD_ROM 接口游戏接口

MIDI 接口规范

MIDI (Musical Instructment Digital Interface)乐器数字接口标准

MIDI 的音乐符号化的过程实际上就是产生 MIDI 数字信号的过程。

  1. MIDI IN: 接受其他 MIDI 装置传来的消息
  2. MIDI OUT(输出口):发送某装置生成的原始 MIDI 消息
  3. MIDI Thru 传送从输入口接受的信息到其他 MIDI 装置

image-20230920093642230

声卡

  1. 声音卡的技术标准
    1. 采样频率和量化位数
    2. MIDI 合成方式
    3. DSP 数字信号处理器
    4. 音频压缩
  2. 声卡的声道数
    1. 单声道与立体声
    2. 四声道环绕
    3. 5.1 声道

数字压缩技术

压缩的可能性

各种媒体数据内部存在冗余(相关性) 所以可以采用不同编码与解码算法以减弱冗余,达到压缩目的

数据冗余类型:

  1. 空间冗余

image-20230922101314346

  1. 时间冗余

    image-20230922101404868

  2. 熵冗余

    编码符号的序列中码字冗余,信息熵冗余

  3. 其他冗余: 结构冗余,结构冗余

压缩指标

  1. 压缩比:输入数据和输出数据之比

  2. 压缩质量:压缩后在多大程度上接近压缩前的
    1. 有损压缩、无损压缩
    2. 信噪比,主观感受
  3. 压缩速度和解压缩速度
  4. 压缩和解压缩的标准化

压缩的过程

一、 压缩的基本思想 针对数据冗余类型采用合适的压缩方法; 建立以少代多或以局部代全体的数据变换关系; 从而以最少的数码表示信号。 (1) 空间压缩: 把相同视觉区当作一个整体进行表示。 (2) 时间压缩: 把连续帧间的相同部分或渐变过程中的相似部分当作一个整体,用极少的数据量表示。

二、压缩的过程

(1)编码

原始数据符号化; 体现压缩算法及正变换 (有内容信息→无内容的信号序列) 信源编码器:完成大部分压缩任务; 信道编码器:

  1. 侧重解决传输可靠性的问题

  2. 把压缩的位流转译成既适应存储又适合传输的信号
  3. 降低信号调制/解调过程中的误码率

(2)解码

码元恢复与信号合成; 体现解压算法及逆变换 (无内容的编码数据→有内容的还原数据)

(3)对称和非对称

压/解实时; 压缩非实时,解压实时

  • 实时解压缩是指在接收数据的同时进行解压缩,以还原原始数据

  • 对称加密:在对称加密中,相同的密钥用于加密和解密数据。这意味着发送方和接收方都必须共享相同的密钥。对称加密算法通常比非对称加密算法更快速,因此在实时通信和数据传输中很有用。但是,对称加密存在一个安全性挑战,即如何安全地共享密钥。
  • 非对称加密:在非对称加密中,存在一对密钥:公钥和私钥。公钥用于加密数据,而私钥用于解密。这种加密方式更安全,因为不需要共享私钥,但通常比对称加密慢得多,因此在实时通信中可能不太适用。

压缩的方法分类

压缩类型 编码技术  
无损压缩 统计编码 行程编码
    霍夫曼
    算术编码
有损压缩 变换编码 快速傅里叶变换(FFT)
    离散傅里叶变换(DCT)
    离散小波变换(DWT)
  重要性 自带编码
     

1. 哈夫曼编码

编码方案的效率的评判

信息量:某信息消除不确定性的度量。设信源 X 的符号集为 $\huge X_i(i=1,2,…N)$,X.出现的概率为 $\huge P(X_i)$

则 X 的信息量为: \(S(X_i)=-log_{2}P(X_i)\) 式中底为 2 则单位为bit (binarydigit) 信息熵: 信源数据所携带的平均信息量。故信源 X 的熵定义为: \(S(X) = -\sum_{i=1}^{n} P(X_i) log_2 P(X_i)\) 若信源 X 的熵为 2 bit,意味着为 X 编码需要的平均码长为 2。

然后计算编码的平均码长 $l_i$ 是对应编码的长度 $P (X_i)$ 是对应出现的概率 \(\sum_{i=1}^n l_i P (X_i)\) 这就是熵编码原理的数学依据:信源符号集的平均码长→S (X)(最理想情况下会接近平均信息熵,一般情况下是平均码长比平均信息量要大)。 按熵值定义信源符号集的最小平均码长,设计编码方案。

哈夫曼编码总结

  1. 适用场合: 可用于非均匀概率分布的信源编码 只要码表以大量统计数据为基础,就能获得好的压缩效果。 注意: 均匀概率的信源,编码会产生定长码 - 失效。
  2. Huffman 树及编码不唯一,与信源初始条件和左右节点赋值{(0,1), (1,0)}有关; 但平均码长应相等,故压缩效率相同。

2. 行程编码

行程: 具有相同灰度值的连续符号的长度;

示例:

image-20230922111959222

编码结果: 用 13 对 (NL)数值取代了 64 个像元的灰度值以少代多思想

编码后,只要存储或传输两个数值 (NL),就可取代 L 个像元 的相同灰度值 N; 从而代替大量邻域冗余。

适用场景:适用于二值图像压缩,是传真编码的压缩方法; 在 JPEG 编码中,用于处理 DCT 交流系数。 扫描方式:行程越长压缩率越高。 应选择行程长的扫描方向: 水平,垂直,之字形 (Zig-Zag)

3. 算术编码

在 JPEG 扩展系统中取代 Huffman 编码。优点: ①用在数据概率分布较均匀的场合; 与 Huffman 编码形成互补; ②压缩效率高出 Huffman 编码约 5%。 (1)算术编码的基本原理 基本思想: 基于递归概率区间划分的二进制编码。

具体过程:

  1. 把信源符号序列{X i=1,2,…, n}发生的概率用实数区间[0,1]上的间隔 (X 的取值范围)来表示;
  2. 按符号概率大小来分配符号间隔
  3. 使[0,1]随迭代计算次数的增加而逐次变窄;
  4. 最后范围便是替代{X.}符号串编码的取值范围

    声音编码压缩技术

一些概念

音频信号的分类:语音信号和非语音信号 声音的频谱:线性频谱,连续频谱 线性频谱是具有周期性的单一频率的声波。 连续频谱是具有非周期性的带有一定的频带所有频率分量的声波。 声音的 A/D(模数转换)D/A 转换(数模转换)(A 是 Analog ,模拟;D 是 digital ,数字)

模拟音频数字化的过程

  1. 音频采样
  2. 量化
  3. 编码 采样和量化的过程可由 A/D 转换器实现。 A/D 转换器以固定的频率去采样,即每个周期测量和量化信号一次,经采样量化后声音信号经编码后就成为数字音频信号,可以将其以文件的形式保存在计算机的存储介质中,这样的文件一般成为数字声波文件。

过程示意图:

数字音频的文件格式

1. WAV 文件 WAV 文件又称为波形文件,是对声音模拟波形的采样,WAV 文件由文件头文件数据块组成,文件头包括标志符,语音特征值,声道特征以及 PCM(脉冲编码调制)格式类型标志等。WAV 格式支持多种压缩算法、多种音频位数,采样频率和声道,但其文件尺寸较大,多用于存储简短的声音片段。 未压缩声音大数据量可用下式计算: 数据量(KB)=(采样频率 KHz * 采样位数 bit * 声道数 * 时间秒)/8 2. MPEG 音频文件——. MP 1/. MP 2/. MP 3 MP 3 是 MPEG 标准中的音频部分,是一种有损压缩,根据压缩质量和编码复杂程度的不同可分为三层(MPEG Audio Layer 1/2/3), 即 MP 1, MP 2 和 MP 3 MPEG 音频压缩率很高,MP 1 和 MP 2 的分别为 4:1 何 6:1~8:1, 而 MP 3 的压缩率高达 10:1~12:1。一分钟 CD 音质的音乐未经压缩 10 MB,压缩后只有 1 MB,同时其音质基本不失真

  1. VOC 文件
  2. AIFF 文件(Audio Interchange File Format)
  3. RealAudio 文件——. RA/. RM/. RAM

    声音质量的评价

    三种方法可以衡量声音的质量。

  4. 带宽衡量声音质量 DAT(48 KHz), CD (44.1 KHz), FM (2.05 KHz), AM (11.025 KHz)和数字电话(8 KHz)。 示意图:
  5. 信噪比(singal to noise ratio, SNR) 声音信号与噪音强度之间的比,信噪比越高表示音频质量越好 \(SNR=20 lg (\frac{V_{signal}}{V_{nosie}})\) 单位是 (dB) 分贝:以$20\mu Pa$为基准,这是人耳能听到的最小的声音,大致相当于 3 米外一直蚊子在飞
  6. 声音主观质量的度量

    脉冲编码调制(Pulse Code Modulation,PCM)

    它将模拟信号通过一系列固定时间间隔的采样得到离散样本,并将每个样本量化成一个二进制数字,然后通过串行传输将这些数字发送到接收端。它是一种将模拟音频信号转换为数字形式的过程,也称为音频数字化。 (1)PCM 编码的原理 ·波形编码:使重构语音信号的波形与原始信号波形尽量接近。 ·概念上最简单、理论上最完善的编码系统,质量最好。

(2)步骤: 第一步是采样,每隔一段时间间隔读一次声音的幅度; 第二步是量化,把采样得到的声音信号幅度归属到量化电平。量化可归纳为两类:一类称为均匀量化,另一类称为非均匀量化。量化方法不同量化后的数据量也不同。因此,可以说量化也是一种压缩数据的方法; 第三步是编码,按一定格式记录采样和量化后的数据。

均匀量化:采用均匀的时间间隔度量采样得到的电平 非均匀量化:非均匀量化在某些情况下可以提高信号的编码效率。例如,在人类听觉系统中,对于低幅度信号的敏感度比高幅度信号要高,因此在音频信号编码中使用非均匀量化可以提高信号的编码效率,减少编码所需的位数,从而节省传输和存储空间。 大的输入信号采用大的量化间隔,小的输入信号采用小的量化间隔。这样就可以在满足精度要求的同时用较少的位数来表示。数据还原时采用相同的规则。

增量调制(DM)

PCM 编码的变形,是一种预测编码技术。如果实际的采样信号与预测信号之差极性为“正”(就是实际的比预测的大),则用 1 表示,相反则用 0 表示

  • 增量调制器的输出不能跟踪输入信号的快速变化称为斜率过载
  • 在输入信号缓慢变化部分,输出交变的“0”和“1”。称为粒状噪声(granular noise),这种噪声是不可能消除的。

    自适应脉冲编码调制(Adepted Pluse Code Modulation ,APCM)

  • 根据输入信号幅度大小来动态改变量化阶大小的一种波形编码技术。这种自适应可以是瞬时自适应,即量化阶的大小每隔几个样本就改变,也可以是非瞬时自适应,即量化阶的大小在较长时间才发生变化。
  • 改变量化阶大小的方法有两种:前向自适应后向自适应。前者是根据未量化的样本值的均方根值来估算输入信号的电平,以此来确定量化阶的大小,并对其电平进行编码作为边信息(side information)传送到接收端。后者是从量化器刚输出的过去样本中来提取量化阶信息

    线性预测编码(LPC)

    基本思想: 声音是惰性腔体不可突变,因而语音信号具有短时间内的相关性,通过分析话音波来产生声道参数,对声音的编码就替代了为了对于这些参数的编码,这样声音编码就会大大减少为参数编码。 过程: 使用过去 P 个样本来预测当前时刻的采样值,预测值可以用过去 p 个采样值表示

音频编码标准

数字图像与视频

可见光,波长 350~750 nm ,大多数可见光是由不同波长的光组合而成 频段应用 颜色空间

  1. RGB 显示器信号
  2. HSI 人眼识别
  3. YUV 电视信号
  4. CMY 彩色印刷

    色彩空间

    RGB 色彩空间

    Red Green Blue 颜色=R (红色的百分比)+G (绿色的百分比)+B (蓝色的百分比)

HSL

HSL 模型(hue-saturation-lightness, HSL)颜色模型 H 定义颜色波长,称为色调,S 定义颜色强度,表示颜色的深浅的程度,L 定义参入白光的量,定义为亮度

CMY 彩色空间

青色 (Cyan), 品红 (Magenta), 黄(yellow) \(C=255-R \newline\) \(M=255-G\)

\[Y=255-B\]

彩色打印机用的是青,品红,黄和黑色 因为 cmy 更节省,每种颜料吸收了一种颜色反射了两种颜色,然后用来配置一种颜色花费的颜料就更少

YUV,YIQ,YCbCr 色彩空间

他们的色彩空间是为电视系统开发的。 \(\begin{pmatrix}Y \\ U \\ V \\ \end{pmatrix}=\begin{pmatrix}0.3 \ \ \ \ \ \ \ \ 0.59 \ \ \ \ 0.11 \\ -0.15 \ \ \ \ -0.29 \ \ \ \ 0.44 \\ 0.16 \ \ \ \ -0.52 \ \ \ \ -0.96\end{pmatrix} \\ \begin{pmatrix} R \\ G \\ B\end{pmatrix}\)

数字图像属性

分辨率

图像中的每个像素的颜色、亮度等信息按照矩阵的形式紧密的排列构成

图像深度

每个像素的二进制数字位数 24 位($2^{24}$种颜色) 32 位(RGB 个 8 位,剩下的 8 位称为 alpha channel 可在图像上叠加文字

显示器与颜色

$显示数据容量=水平分辨率\times 垂直分辨率\times 显示深度$

真彩色和伪彩色

图像格式

  1. 位图 图像中每个像素用一个数组组成 每个数组包括:颜色、亮度、属性

  2. 矢量图(bmp) 每个矢量图时是一个图像实体,它具有颜色、形状、轮廓大小位置属性 矢量属性可以调整
  3. Bmp
  4. GIF
  5. JPEG

    JPEG 压缩标准

    JPEG 算法: 连续色调, 多级灰度, 静态图像的压缩编码方法 (彩色、灰度、静止图像) 应用场景 a.静态图像压缩; b.图像序列的帧内压缩 设计目标 a.压缩比与图像保真度达到较高技术水平; b.能适用于任何种类的连续色调的图像; 长宽、内容、复杂度、统计特性是不受限的; c.计算复杂性是可控制的: 软件可完成, 硬件实现算法. jpeg 的压缩流程: 熵编码不损失信息 量化器损失信息

    正向离散余弦变换(FDCT,forward Discrete Cosine Transform)

    (1)对每个单独的图像分量,把整个分量图像分成 8 X 8 的图像块,对每个图像块进行离散余弦变换的输入。通过 DCT变换,把能量集中在少数几个系数上。

    量化(损失信息)

    Z 字扫描

    差分脉冲编码调制

    行程长度编码

    熵编码

Jpeg 标准的可选压缩操作(JPEG 静态图像压缩国际标准体系)

多媒体通信和网络

多媒体通信性能需求

吞吐量

可靠性

延时

多媒体通信的Qos

多媒体通信协议

互连网早期主要用来提供可靠的数据传送服务,对延时几乎没有什么要求。TCP/IP 协议就是为这种类型的通信设计的,而且工作得很好。然而,多媒体应用却具有不同的特性,因此就需要不同的协议来提供所需要的服务。与多媒体应用密切相关的协议包括应用层的 RTP、RTCP、RTSP 和传输层的 RSVP 等。

实时运输协议 RTP(Real Time Trainsport Protocol )

应用: RTP 广泛应用于流媒体通信,电话、视频会议、电视。

RTP 的特点:

  • RTP 为实时应用提供端到端的运输,但不提供任何服务质量的保证。
  • 多媒体数据块经压缩编码后先送给 RTP 封装为 RTP 分组,再装入运输层的 UDP 用户数据报,然后再交给 IP 层。
  • RTP 是一个协议框架,只包含了实时传输的一些共同功能。
  • RTP 并不对多媒体数据块做任何处理,而只是向应用层提供一些附加的信息,让应用层知道应当如何进行处理。

RTP 的层次

  • 从应用开发者的角度看,RTP 应当是应用层的一部分。
  • 在发送端,开发者必须编写用 RTP 封装分组的程序代码,然后把 RTP 分组交给 UDP 套接口。
  • 在接收端,RTP 分组进入应用层后,要利用开发者的程序代码从 RTP 分组中把数据块提取出来。
  • RTP 封装了多媒体应用的数据块。由于 RTP 向多媒体应用程序提供了服务 (如时间戳和序号),因此也可以将 RTP 看成是在 UDP 之上的一个传输层的子层。

示意图:

RTP 的首部格式

P 是表示是否补充了数据的长度,因为可能需要让包的长度一样的(但不是必须要一样的) M:对于视频(由于视频比较大一帧数据传不完)表示一帧是这一幅图传输的结束,对于音频是标志为对话的开始 有效载荷类型:音频压缩的标准,或是视频压缩的标准 序号:提供分组的先后顺序(是因为 udp 中没有序号这一个字段,rtp 的下层是 udp),可以用来检测报文的丢失情况,可以用来排序 时间戳:提供分组产生的时间,单位是采样的周期(时间是相对的)(音频一秒钟采 8000 次)就是要保证的视频的时间正常(就是真实发生的要和播放的速度要一致的) 同步源标识符:就是指的是产生该数据的源(例如话筒,例如摄像头),每一个不同的源对应一个唯一的标识 参与源标识符:标识有多少个源参与了这个数据的产生,最多允许 16 个,与参与源数配合

有效载荷类型:

实时运输控制协议 RTCP(RTP Control Protocol)

封装的统计报表的

  • RTCP 是与 RTP 配合使用的协议。
  • RTCP 为应用程序提供会话质量或者广播性能的信息。
  • RTCP 不封装声音或者视频数据,而是封装发送端和/或者接收端的统计报表。包括发送的信息包数目、丢失的信息包数目和信息包的抖动等,这些信息对发送端、接收端或者网络管理员都很有用。
  • RTCP 没有指定使用这个反馈信息做什么,这取决于应用程序开发人员。例如,发送端可以根据反馈信息来修改传输速率; 接收端可以判断问题是本地的、区域的还是全局的;
  • 网络管理员可以评估网络用于多目标广播的性能。

RTCP 内容示例

  • RTCP 告诉另外一方,在一段时间 (如 5 秒)内它发送多少数据包给对方,接收到了多少对方的包。
  • RTCP 发送 64 位的绝对时间戳和 32 位的相对时间戳。64 位绝对时间戳的前 32 位是从 1900-1-1 日 0 时开始到现在的以秒为单位的整数部分,后 32 位是此时间的小数部分。32 位的相对时间戳和 RTP 中的时间戳没有区别。
  • 当应用程序建立一个 RTP 会话时,目的传输地址由一个网络地址和一对端口。RTP 数据发向偶数 UDP 端口,而 RTCP 数据发向偶数+1 UDP 端口。

发送:

  • 每个参与者周期性地发送 RTCP 控制信息包,它带有发送端和接收端对服务质量的统计信息报告。
  • RTCP 分组与 RTP 均使用 UDP 传送可将多个 RTCP 分组封装在一个 UDP 用户数据报中。
  • RTCP 一般控制在会话带宽的 5%内。

  • 发送端报告分组 SR 周期性地向所有接收端用多播方式进行报告。
  • 接收端报告分组 RR 周期性地向所有的点用多播方式进行报告。
  • 特定应用分组 APP 使应用程序能够定义新的分组类型。
  • 源点描述分组 SDES 给出会话参加者的描述。
  • 结束分组 BYE 表示关闭一个数据流。

实时流播协议 RTSP

RTSP 协议以客户/服务器方式工作,它是一个多媒体播放控制协议,使得用户在播放从因特网实时数据时能够进行控制,如: 暂停/继续、后退、前进等。因此 RTSP又称为“因特网遥控协议”。 RTSP 在体系结构上位于 RTP 和 RTCP 之上,它使用 TCP (UDP 也可实现)完成数据传输。

**

  • 应用层协议 RTSP 描述了与 RTP 间的交互操作。RTSP 控制 RTP 会话的协议,使得实时流媒体的受控和点播变得可能。
  • RTSP 可以对流媒体提供播放、暂停、快进等 12 种操作,它定义具体的控制消息、操作方法、状态码等。
  • RTSP 参考了 HTTP/1.1 协议。HTTP 传送 HTML,而 RTSP 传送的是多媒体数据。
  • 用来控制具有实时性的数据传输,但它本身并不传输数据,而是依赖于下层传输协议的服务。

RSVP 协议

当前因特网主要是为 IP 数据报提供服务,而对吞吐率和时延不提供任何保证。 QoS 需要一种机制,这种机制允许应用程序保留网上的资源。资源保留协议 (Resource Reservation Protocol, RSVP)就是这样一个标准。 RSVP 协议允许应用程序为它们的数据流保留带宽。主机使用 RSVP 向网络请求保留一定带宽,路由器也使用 RSVP 转发带宽请求。为了执行 RSVP 协议,在接收端、发送端和路由器中都必需要支持 RSVP 协议。

工作原理

  1. 发送方发送一个 RSVP 的路径消息给接收方;
  2. 接收方接收到该消息;
  3. 接收方沿相反的方向申请预留资源; 路由器查看是否能够满足该请求;
  4. 发送方收到一个资源预留消息;
  5. 发送方开始台发送数据。

RSVP 的特点:

RSVP 是传输层的协议 RSVP 是信令 (signaling)协议,传输的是命令而不是有效载荷。 RSVP 是接收端启动的协议 说明: RSVP 标准没有指定网络如何为数据流保留资源。一旦提出要求保留资源,实际上是路由器来为数据流保留带宽。

区分服务 DiffServ

区分服务的基本概念

  • 由于综合服务 IntServ 和资源预留协议 RSVP 都较复杂,很难在大规模的网络中实现,因此 IETF 提出了新的策略,即区分服务 DiffServ。在网络边界将数据流按 QoS 要求进行简单分类,不同的类别在内部节点的转发中实现不同的转发特性。
  • 区分服务有时也简写为 DS,具有区分服务功能的结点就称为 DS 结点。

与 IntSer 相比的 DiffServ 的优点

  1. 首先,路由器无须维护每个连接的信息,对系统资源要求低;
  2. 其次,对网络上的多种业务进行优先级归类合并成有限的几个优先级类别,网络设备处理更简单;
  3. 再次,采用 IP 包中的 ToS 字段进行优先级标示,没有附加的标签,这种做法兼容性好,易于实现。
  4. 另外,随着网络的扩展,优先级类别无须扩展。

区分服务的实现(略) 对应字段的划分 把负担放在了边界路由器上了

只要知道概念和区分服务对比的优点

超媒体与 Web 系统