menu

Ikegami TECH

2024.12.11

Ikegami TECH vol.38 画像圧縮Part2 ~動画を圧縮する技術~

画像圧縮Part2 ~動画を圧縮する技術~

前回の静止画の画像圧縮技術に引き続き、今回は動画の画像圧縮技術について解説します。
前回示したように、FHDの1秒間のデータは約187MByteと静止画像と比較して情報量(データ量)はとても多くなります。例えば10分の動画を記録する場合、単純に計算してデータ量は約113GByteに達します。つまり、動画を簡便に記録、伝送するためには静止画よりも更に圧縮(情報量を削減)する必要があります。

ここで、左から右に動いている車を撮影した動画を思い浮かべて下さい。動画は図1に示すように車が少しずつ移動した静止画(フレーム)が連続している構造となります。各静止画(フレーム)は少しづつ変化していますが、背景や移動している車など多くの共通した画像を含んでいます。動画像の圧縮は、このフレーム間で共通する画像情報(時間的冗長性)を削減することで大幅な圧縮を実現しています。

図1 動画データの構造

動画圧縮の流れ

動画圧縮も静止画のときと同様、次の3つのステップで行われます。

① 冗長度抑制(フレーム間予測、動き補償、直交変換(DCT))
② 量子化
③ エントロピー符号化

フレーム間で共通する画像情報(時間的冗長性)の削減処理は①の「フレーム間予測」、「動き補償」の2つの技術で行われます。ここでは、動画圧縮に特化した、これらの技術について概要を解説します。

フレーム間予測

フレーム間予測とは、動画は時間的に近接しているフレーム間では共通する画像情報を多く含むことを前提に、その共通する画像情報の冗長性(時間的冗長性)を削除することで動画圧縮を向上させる技術の総称になります。ここでは次の3つのフレーム間予測について解説します。

①単純なフレーム間予測
②前方向動き補償フレーム間予測
③双方向フレーム間予測

①単純なフレーム間予測

図2に圧縮対象のフレーム(t)と時間的に前のフレーム(t-1)との差分による、単純なフレーム間予測の例を示します。ここではわかりやすいように、便宜上、差分画像を上書画像として表現しています。
図2のフレーム間の差分で得られる差分画像(e)は、動きのある車と飛行機のみが現れ、両フレーム共通の背景は消えて情報量が削減されていることがわかります。つまり、この差分画像(e)の情報のみから、対象フレーム(t)は前フレーム(t-1)に加算することで復元できますので、大幅な圧縮を実現できます。

図2 単純なフレーム間予測

ただし、この単純なフレーム間予測ではカメラワークによる背景の動きや、動きの早い物体が多く撮影されている動画では、差分画像の情報量が多くなり時間的冗長性の削減効果が低くなります。そこで、一般的には次の動き補償を伴ったフレーム間予測が利用されています。

②前方向動き補償フレーム間予測

図3に前フレームからの動き補償フレーム間予測の例を示します。

前フレーム(t-1)と圧縮対象フレーム(t)で左から右に移動して写っている車に注目します。車は両フレームで形状が同じ共通の画像情報ですから、次の手順で移動後の車を削除した差分画像により更に圧縮の向上が図れます。

  • 前フレーム(t-1)の車が圧縮対象フレーム(t)でどこに移動したかの「動きベクトル」(動いた方向と量)を求める。
  • 動きベクトルをもとに前フレーム(t-1)で車を移動させた予測画像(t':前方向動き補償フレーム)を作成する。
  • 圧縮対象フレーム(t)と前方向動き補償フレーム(t')との差分をとり差分画像(e')を求める。

図2と図3の差分画像を比較すると、図3では移動先の車の情報が削減され圧縮の向上が図れることがわかります。

図3 前方向動き補償フレーム間予測
③双方向動き補償フレーム間予測

図4に双方向動き補償フレーム間予測の例を示します。これは、前述の動き補償フレーム間予測を拡張し、時間的に進んだ後のフレームも参照して動き補償を行う技術です。
図4の例で作成されている双方向動き補償フレーム(t'')では、図3の前方向動き補償フレーム(t')に、圧縮対象フレーム(t)と後フレーム(t+1)から共通の画像情報の飛行機の時間的に逆の動きベクトルを求めて作成した予測画像を加えています。さらに、前フレーム(t-1)の車で隠されていた背景も予測画像として加えられます。これにより、圧縮対象フレーム(t)と双方向動き補償フレーム(t'')との差分画像(e'')は、ほとんどの情報が削減され、効果的な圧縮を実現できることがわかります。

図4 双方向動き補償フレーム間予測

以上から動画を最も圧縮する理想的な構造として、最初に基準となる画像(フレーム)があり、その後に続くすべてのフレームを差分画像で構成することが考えられます。しかし、この構造では常に再生は最初から行わなくてはならず、任意フレームからの再生はできません。また、フレーム(差分画像)の一部データが失われた場合、失われたフレームが正しく復元できないばかりか、画像再生が終了するまで影響が続いてしまします。そこで、一般的には次に示すようなフレーム構造が取られています。

動画圧縮のフレーム構成

動画圧縮のフレーム構成の一例を図5に示します。各フレームは次の3種類から構成されています。

  • I(Intra Coded Picture)
    フレーム間予測を行わず、静止画圧縮のようにフレーム内の情報のみで圧縮されているフレーム。ランダム再生の開始点や編集点として利用。さらに、動画復元時にデータ・エラーや欠損の影響を伝搬させない働きもある。
  • P(Predictive Coded Picture)
    時間的に以前のIフレームまたはPフレームを参照して前方向動き補償フレーム間予測により圧縮されるフレーム。
  • B(Bidirectionally Predictive Coded Picture)
    時間的に以前、以後の両者のIフレームまたはPフレームを参照して双方向動き補償フレーム間予測により圧縮されるフレーム。
図5 動画圧縮のフレーム構成

また、一つのIフレームと複数のPおよびBフレームをまとめたものをGOP(Group of Picture)と呼び、ランダム再生やトリックモード再生(高速再生、逆再生など)時に、このGOP単位にアクセスを行い処理することで可能にしています。

このように、動画圧縮技術はフレーム間で共通する画像情報(時間的冗長性)を巧みに削減し、フレーム構成の工夫で大幅な圧縮と再生時の利便性の両立を実現しています。

関連記事を読む

Contact Us

お問い合わせ

ご希望の要望に合わせてお問い合わせください。