公式に提供されているモデルは、それぞれ下表のコーパスを基に作成されています。
対象 | GMM-HMM 音響モデル | DNN-HMM 音響モデル | 言語モデル | |
---|---|---|---|---|
ディクテーションキット (dictation-kit) | 一般 | JNASとCSJ(SPS) | JNASとCSJ(SPS) | BCCWJ |
話し言葉モデルキット (ssr-kit) [Speech] | 話し言葉 | × | CSJ(SPS)とCSJ(APS) | |
講演音声モデルキット (lsr-kit) [Lecture] | 大きな部屋等での講演 | × | CSJ(APS) |
音響モデルで、言葉の周波数成分のパターンを定義します。
Juliusでは、HTKのASCII形式のHMM定義ファイルと、Julius用のバイナリ形式を読み込めます。
mkbinhmmを用いればHTKのASCII形式を、Juliusのバイナリ形式へ変換できます。
言語モデルで、文法を定義します。Juliusでは次の言語モデルがサポートされます。
項目を空白またはタブで区切り、1つの単語を1行に記述します。単語辞書 - 第7章 言語モデル
言語エントリ @エントリ内確率 [出力文字列] 音素列
課税+1 [カゼイ] k a z e i 課題+1 [カダイ] k a d a i 課長+1 [カチョウ] k a ch o: 課長+1 [カチョウ] k a ch o u 過ぎ+過ぎる+102 [スギ] s u g i 過ぎ+過ぎる+114 [スギ] s u g i
認識用文法は文のパターンを形式言語の形で記述したもので、少数の語しか出現しない制約の多い文に適しています。記述文法 - 第7章 言語モデル
英語用のモデルを用意することで、英語の音声も認識できます。
たとえばvoxforge.orgにあるQuickStart downloadをダウンロードし、そのREADMEにあるように
C:\>julius -input mic -C Sample.jconf
と実行することで英語の認識を試せます。ただしこのサンプルではGRAMMAR_NOTESにあるように、電話応答を想定した数種類のパターンしか認識できません。