広島市立大学 情報科学部 知能工学科

広島市立大学広島市立大学

パターン認識研究室

パターン(規則性)を見分ける、聴き分けるコンピュータを作ろう!

パターン認識とは、波形などの時間的信号や、文字、図形などの空間的信号を取り込んで、 その特徴を抽出・判断し、信号を属すべきカテゴリーに対応づける操作です。 研究室では、ビデオ(動画像)、オーディオ(音声、環境音)、楽曲、手書き文字、テキストなど (時)系列データのパターン認識に力を入れています。

教員

末松伸朗 准教授 [E-mail: suematsu'at'hiroshima-cu.ac.jp]
岩田一貴 准教授 [E-mail: kiwata'at'hiroshima-cu.ac.jp]

卒業研究テーマ

時系列データの階層構造モデル

図1: スポーツ映像の階層構造モデル

多くの時系列データについて、時間スケールの異なる階層構造を考えることができます。例えば、音声では、最上層は単語、中間層は音素(発音記号)、最下層はサブ音素とすることができます。また、スポーツ映像などのビデオは、図1に示すように、シーン、ショット、フレームという階層構造とすることができます。階層構造を持つ時系列データの表現には、従来より階層隠れマルコフモデル(HHMM)が用いられてきました。近年、多くの問題に対して、生成モデルよりは識別モデルの方がより良い性能を示すことが分かってきました。私達は、生成モデルである階層隠れマルコフモデルに対応する識別モデルである階層隠れCRF(HHCRF)を提案しています。人工データや実データ(脳波データ、バレーボール映像)のラベルづけ問題、すなわち、観測系列から最上層の状態系列(例えば単語列、あるいはシーン列)を推定する問題にHHMMとHHCRFを適用し、精度を比較しています。

隠れマルコフモデルの変分ベイズ学習と環境音認識への応用

確率モデルの学習でよく用いられる最尤法では、訓練データ数が少ない場合に過学習(オーバーフィティング)と呼ばれる、モデル化が訓練データに強く依存し、真のモデルとは異なるモデルが学習されるという問題が起こりやすいことが知られています。これに対して、変分ベイズ法は、最尤法とほぼ同じ計算時間で、ベイズ法の近似推論ができる手法であり、過学習が起こりにくいという性質を持っており、近年注目されています。 ベルの音、自動車のエンジン音など、周囲に存在する音声以外を音を環境音と言います。本研究では、上で説明した変分ベイズ法を環境音の認識に応用します。環境音を音声認識で有名な隠れマルコフモデルでモデル化しますが、モデル学習法として、変分ベイズ法を用います。環境音のサンプル(訓練データ)が少ない場合に、分類精度を向上させることが目的です。

ベイズ統計の応用に関する研究

ベイズ統計では、データに対して、それが生まれる確率的な仕組みである生成モデルを仮定することで解析を行います。このアプローチは、データを類似した複数のグループに分けたり、将来の予測を行ったりと、様々な問題へ応用できます。

3次元ベクトルをパラメータとして持つ生成モデルから画像が生まれると仮定すると、画像データベースの画像を、似た画像ほど近くに位置するように3次元空間へ配置する(埋め込む)ことができます(図2参照)。 3次元空間に配置された画像データベースは、例えば、フォトモザイク画像の生成に利用できます。元画像を格子に分割し、各小領域に似た画像を3次元に埋め込まれた画像データベースから見つけて、その小領域と入れ替えるのです。こうして作成されたフォトモザイク画像の例を図3に示します。

図2: 3次元空間への埋め込み 図3: フォトモザイク画像の例

階層クラスタ分析によるラベルの階層構造の推定

顧客データや行政統計データ等の統計データからそれらの母集団のある傾向を分析するといった多変量データ解析は近年盛んに行われており、階層クラスタ分析はそのデータ解析の一つの手法としてよく使われます。この研究では、階層クラスタ分析における標本のラベル(分類値)の階層性をボトムアップ的に推定することを目的としています。例えば、パターン認識研究室という標本は、知能メディアコースというラベルに属しており、もう少し広い目で見ると知能工学科というラベルに属しており、さらに広い目で見ると情報科学部というラベルに属しています(組織図参照)。標本の集合が与えられたとき、こうした標本のラベルの階層性を推定することがこの研究の目的です。具体的な実データに対するこれまでの成果としては、窓ガラス等のガラス成分の標本集合からガラスの階層構造を同定する場合や音声データから抽出した音素成分の標本集合から音素の階層構造を同定する場合に、この研究が有効であることが示されています。

曲線整合による形の分類

与えられた二つの曲線に対して、一方の曲線上のある点とそれに対応するもう一方の曲線上の点を見つけるための曲線整合の手法は、パターン認識分野での幅広い応用が期待されます。例えば、曲線を手書き文字とすれば文字認識に、曲線を画像の輪郭とすれば画像認識や画像検索に応用することができます。この研究では、元は同じ二つの曲線のうちの一方が区分的に変形しても適当な曲線整合をとることができるアルゴリズムを求め、その曲線整合を使って区分的変形に対して影響を受けにくい形の分類をすることを目的としています。例をあげると、図4は同じ形(ト音記号)を表している手書き曲線の二つの対を示しています。それぞれの対(a)、(b)において、左の曲線をほぼ区分的に相似に変形させたのが右の曲線となっています。曲線上の点の番号は左から右の曲線への対応を示すもので、例えば、左の曲線の0番の点は右の曲線の0番の点に対応しています。二つの対(a)、(b)は、視覚的には適当な対応がとれていることがわかります。このような適当な対応を得るためのアルゴリズムを導き、それを基にして、同じ形を表す曲線を同じカテゴリーに分類すること(同じ形であると認識すること)がこの研究の目的です。

図4: 区分的に相似な変形の例

研究室紹介

場所および連絡先

情報科学部棟7階710〜717室

ひと言

作成中です。

PAGETOP