モデル

Julius音声認識パッケージ

公式に提供されているモデルは、それぞれ下表のコーパスを基に作成されています。

  対象 GMM-HMM 音響モデル DNN-HMM 音響モデル 言語モデル
ディクテーションキット (dictation-kit) 一般 JNASとCSJ(SPS) JNASとCSJ(SPS) BCCWJ
話し言葉モデルキット (ssr-kit) [Speech] 話し言葉 × CSJ(SPS)とCSJ(APS)
講演音声モデルキット (lsr-kit) [Lecture] 大きな部屋等での講演 × CSJ(APS)
Julius音声認識パッケージ
  • JNAS … Japanese Newspaper Article Sentences (新聞記事読み上げ音声コーパス) [日本音響学会]
  • CSJ … Corpus of Spontaneous Japanese (日本語話し言葉コーパス) [国立国語研究所]
  • BCCWJ … Balanced Corpus of Contemporary Written Japanese (現代日本語書き言葉均衡コーパス) [国立国語研究所]

音響モデル (Acoustic Model : AM)

音響モデルで、言葉の周波数成分のパターンを定義します。

Juliusでは、HTKのASCII形式のHMM定義ファイルと、Julius用のバイナリ形式を読み込めます。

  • .hmmdefs … HTK形式 (すべての音素定義を1つにまとめた単一のHMMファイル)
  • .binhmm … Julius binhmm形式

mkbinhmmを用いればHTKのASCII形式を、Juliusのバイナリ形式へ変換できます。

GMM-HMM 音響モデル

DNN-HMM 音響モデル

言語モデル (Language Model : LM)

言語モデルで、文法を定義します。Juliusでは次の言語モデルがサポートされます。

  • 単語N-gram (統計的言語モデル)
  • 記述文法
  • 単語リスト (孤立単語認識)

単語辞書 (Word dictionary) / 発音辞書

項目を空白またはタブで区切り、1つの単語を1行に記述します。単語辞書 - 第7章 言語モデル

  1. 言語エントリ
  2. エントリ内確率
  3. 出力文字列
  4. 音素列
言語エントリ @エントリ内確率 [出力文字列] 音素列
課税+1	[カゼイ]	k a z e i
課題+1	[カダイ]	k a d a i
課長+1	[カチョウ]	k a ch o:
課長+1	[カチョウ]	k a ch o u
過ぎ+過ぎる+102	[スギ]	s u g i
過ぎ+過ぎる+114	[スギ]	s u g i

単語N-gram

N-gram

単語 N-gram - 第7章 言語モデル

記述文法

認識用文法は文のパターンを形式言語の形で記述したもので、少数の語しか出現しない制約の多い文に適しています。記述文法 - 第7章 言語モデル

  • grammarファイル … 単語のカテゴリ間の構文制約 (単語間の接続に関する制約) をBNF風に記述
  • vocaファイル … 単語カテゴリごとに、単語の表記と読み (発音音素列) を記述

単語リスト

単語リスト(孤立単語認識) - 第7章 言語モデル

英語の認識

英語用のモデルを用意することで、英語の音声も認識できます。

たとえばvoxforge.orgにあるQuickStart downloadをダウンロードし、そのREADMEにあるように

C:\>julius -input mic -C Sample.jconf

と実行することで英語の認識を試せます。ただしこのサンプルではGRAMMAR_NOTESにあるように、電話応答を想定した数種類のパターンしか認識できません。

  • DFA文法ファイル … grammar/sample.dfa (言語モデル)
  • 言語ファイル … grammar/sample.dict (発音辞書)
  • HMM定義ファイル … acoustic_model_files/hmmdefs (HTK形式 音響モデル)
  • HMMListファイル … acoustic_model_files/tiedlist (音響モデル)

参考