ビデオクリップにおける音響−輝度差の調査

大元靖理   土井滋貴

奈良工業高等専門学校 専攻科 電子情報工学専攻

1.はじめに

  インターネットの普及に伴いマルチメディアの圧縮技術も発展しているが、現在の圧縮技術は動画と音声を別に分けて、それぞれに対して圧縮を施している。従って、動画や音声それぞれに対する調査や解析は盛んに行われているのだが、これらを結びつけて考えるものはまだ少ない。そこで、本研究では動画と音声を結びつけて考え、これらの関係を調査し、効果的な利用法を探ることを目的とする。

2.調査方法

 動画と音声の関係を探るために、アニメやニュース画像といった複合的な要素を持つビデオクリップについて調査を行う。これらのビデオクリップをいくつかのフレーム(1フレームは1/29.97秒)に分割し、それぞれのフレームにおける輝度・音パワー、及びフレーム間における輝度変化・音パワー変化を記録する。また、動画に関係する要素(輝度・輝度変化)と音声に関係する要素(音パワー・音パワー変化)を比較して、サンプルによってどのような違いが出るのかを指標として可視化する。


指標=(音声要素−音声要素の平均)−(動画要素−動画要素の平均)

あらかじめ平均を算出しておき、各フレームに対して上の計算を行う。


上式によって算出された指標はグラフ化して取り扱う。この際、グラフに平坦な部分が多いほど動画と音声に強い相関があると考えられる。
  指標として比較する組み合わせは4種類考えられるが、これまでの実験では音パワーと輝度変化との間に特に他の組み合わせよりも強い関係が見られたので、今回の指標としては音パワーと輝度変化の差を採用する。
  また、あまり微視的に見ても分かりにくいので、抽出データ(対数換算)を10フレーム毎に平均したものを見て、解析する。


3.調査結果

  今回は30秒程度のビデオクリップ10クリップについて解析を行った。そのうち関係の良否の対比がはっきりしているアニメ(会話シーン〜爆発シーン)クリップから得られた結果を以降に示す。アニメの1場面を図1(会話シーン)及び図2(爆発シーン)に、またこのビデオクリップから抽出した各特徴量を図3に示す。図4は算出した指標をグラフ化したものである。
図1 会話シーン 図2 爆発シーン

図3 各特徴量


図4 指標(音パワー−輝度変化の差)



4.調査結果の検討

  指標(図4)を見ると、前半部分は細かい間隔で大きく振動し、後半部分になると振動は穏やかになっている。これは、前半部分は図1の会話シーンであり、口を動かして喋るという事象は音の大きさの割には画面に占める輝度変化が少ないので、相関が小さいとみられる。後半部分は図2の爆発シーンであり、輝度変化と共に音も増すので、相関が強いと考えられる。
  本調査により、動画と音声の関係は事象によって大きく異なる事が確認された。





参考文献

土井滋貴,瀬尾要,松田稔:“ビデオ・コンテンツにおける映像と音響の関係” 平成12年電気関係学会関西支部連合大会講演論文集G15−9