ビデオ・クリップにおける映像と音響の関連性
奈良高専2000年度紀要(HTML版)

土井滋貴 

   ビデオ・クリップ等のビデオ・コンテンツに対して、動画と音との関連性を動的な視点で解析を試みる。 本稿では最も基本的な特徴量として、フレーム平均輝度、フレーム間輝度変化、フレーム間音響パワー の3つを10個のビデオ・コンテンツ・データに対して計算し、その統計的特徴と周期的特徴に ついて報告する。計算結果からいくつかのビデオ・コンテンツ・データについては動画と音との 間に関連性が認められた。

1.はじめに

 近年の計算機の性能向上により、いわゆるビデオ・クリップ等のビデオ・コンテンツに対して、動的な解析が可能になってきた。本稿は著者が始めている動画解析(1)について、その処理手法と基礎的な解析結果について述べる。

2.分析の概要

 動画や音声の個々の領域では、通信や蓄積のコストの削減のため様々な圧縮方式が考案され、その開発過程で様々なデータの特徴が解析されている。しかしながら、映像と音声をまとめた解析はあまり見あたらない。

 例えば拍手をする動作1つをとってもその映像の動きと発せられる音との間に関係があることは明らかであるが、映像と音響それぞれのどの特徴量にどのような関係があるかを端的に説明することは難しい。さらにこれらが組合わさった、例えばテレビ放送の1場面について、その映像と音響との関係を定量的あるいは定性的に解説する方法は知られていない。

 そこで最初の試みとして、拍手をするといったプレーンな事象でなく、音楽クリップやニュース番組、アニメ、ゲームといったある程度複合した映像/音声について統計的にカテゴリ間に固有な映像と音声の関係が見られないかを調査する。

3.分析の方法と結果

 各カテゴリの映像/音響データは、その内容が判るように1分程度を放送やビデオカメラを使った実写からサンプリングする。各サンプルはデジタルビデオにダビングし、デジタルビデオからDV-AVIファイルにキャプチャする(2)。このAVIファイルから各種映像/音響特徴を計算する。

 今回は、表1に示す10個のビデオ・コンテンツについて、音響パワー、平均輝度、平均輝度変化の3つの特徴量を計算した。計算式を式1、式2、式3に、特徴量の関連性が強いサンプルの例を図3に、各サンプルの特徴量の散布図のうち違いの大きな例を図4に示 す。各図から各サンプル毎に特徴量の関連性に違いがあることがわかる。

 更に、計算された3つの特徴量の周波数解析を行う。各クリップは10〜521フレームを前半、500〜1011フレームまでを後半とした512フレーム(17.08秒間)についてFFTによりパワースペクトルを計算する。10個のコンテンツのうちの4つを例として図5、図6に示す。図5、図6の上段から平均輝度のパワースペクトル、平均輝度変化のパワースペクトル、音響パワーのパワースペクトルを示し、最下段のグラフはフレーム間平均輝度変化量とフレーム間音響パワーのパワースペクトルを1〜199周期までをとり散布図に表している。

  クリップ一覧

図1 計測システム図

 

          1 s

音響パワー:  APi=− (|Wi*s+z|)         式1

          s z=1

 

          1  n  m

平均輝度:   VAi=− 煤@ (Rixy+Gixy+Bixy)  式2

     m*n y=1 x=1

 

          1  n  m

平均輝度変化: VVi=− 煤@ ( |Rixy-R(i-1)xy|

          m*n y=1 x=1

                +|Gixy-G(i-1)xy|

                +|Bixy-B(i-1)xy|) 

    式3

 ただし、iはフレーム番号

s=(1/29.97)/(1/32,000)

     m=720、n=480、

     Wは音響1サンプル、R,G,Bは各画素値

(TVゲーム、デモ画面の飛行シーン)

図3 クリップ7の各特徴量

アニメ爆発:630-829フレーム、ニュース:400-599フレーム

ゲーム(飛行):1100-1299フレーム、パレード:600-799フレーム

図4 各サンプルの特徴量の散布図

クリップ0前半:平均輝度

 

クリップ0前半:輝度変化

 

クリップ0前半:音響

 

横軸:輝度変化−縦軸:音響

クリップ0前半:散布図

クリップ0後半:平均輝度

 

クリップ0後半:輝度変化

 

クリップ0後半:音響

 

横軸:輝度変化−縦軸:音響

クリップ0後半:散布図

クリップ1前半:平均輝度

 

クリップ1前半:輝度変化

 

クリップ1前半:音響

 

横軸:輝度変化−縦軸:音響

クリップ1前半:散布図

クリップ1後半:平均輝度

 

クリップ1後半:輝度変化

 

クリップ1後半:音響

 

横軸:輝度変化−縦軸:音響

クリップ1後半:散布図

図5 計算された3つの特徴量の周波数分析 その1

 

クリップ3前半:平均輝度

 

クリップ3前半:輝度変化

 

クリップ3前半:音響

 

横軸:輝度変化−縦軸:音響

クリップ3前半:散布図

クリップ3後半:平均輝度

 

クリップ3後半:輝度変化

 

クリップ3後半:音響

 

横軸:輝度変化−縦軸:音響

クリップ3後半:散布図

クリップ9前半:平均輝度

 

クリップ9前半:輝度変化

 

クリップ9前半:音響

 

横軸:輝度変化−縦軸:音響

クリップ9前半:散布図


クリップ9後半:平均輝度

クリップ9後半:輝度変化

クリップ9後半:音響

横軸:輝度変化−縦軸:音響
クリップ9後半:散布図

図6 計算された3つの特徴量の周波数分析 その2

4.まとめ

 ビデオ・コンテンツの映像と音響との関連性を調べるためのシステムを提案し、基本的な特徴量について調査した。調査結果から映像と音響との関連性はコンテンツの内容を表す特徴の1つであることが確かめられた。

参考文献

(1)土井他, 「ビデオ・コンテンツにおける映像と音響との関係」,2000年度電気系学会関西支部連合大会

(2)土井,「ディジタル画像キャプチャ/データ抽出プログラム作成入門(前編,後編)」,雑誌インターフェース2000年10,11月号

処理プログラム

土井研究室トップ / 研究室に戻る