モデル

Julius音声認識パッケージ

公式に提供されているモデルは、それぞれ下表のコーパスを基に作成されています。

	対象	GMM-HMM 音響モデル	DNN-HMM 音響モデル	言語モデル
ディクテーションキット (dictation-kit)	一般	JNASとCSJ(SPS)	JNASとCSJ(SPS)	BCCWJ
話し言葉モデルキット (ssr-kit) [Speech]	話し言葉	×	JNASとCSJ(SPS)	CSJ(SPS)とCSJ(APS)
講演音声モデルキット (lsr-kit) [Lecture]	大きな部屋等での講演	×	CSJ(APS)	CSJ(SPS)とCSJ(APS)

Julius音声認識パッケージ

JNAS … Japanese Newspaper Article Sentences (新聞記事読み上げ音声コーパス) [日本音響学会]
CSJ … Corpus of Spontaneous Japanese (日本語話し言葉コーパス) [国立国語研究所]
- 模擬講演 (SPS : Simulated Public Speaking) j4 日本語話し言葉コーパス（CSJ）
- 学会講演 (APS : Academic Presentation Speech）
BCCWJ … Balanced Corpus of Contemporary Written Japanese (現代日本語書き言葉均衡コーパス) [国立国語研究所]

音響モデル (Acoustic Model : AM)

音響モデルで、言葉の周波数成分のパターンを定義します。

Juliusでは、HTKのASCII形式のHMM定義ファイルと、Julius用のバイナリ形式を読み込めます。

.hmmdefs … HTK形式 (すべての音素定義を1つにまとめた単一のHMMファイル)
.binhmm … Julius binhmm形式

mkbinhmmを用いればHTKのASCII形式を、Juliusのバイナリ形式へ変換できます。

GMM-HMM 音響モデル

GMM を用いた環境音識別と不要音棄却

DNN-HMM 音響モデル

参考

第6章音響モデル

言語モデル (Language Model : LM)

言語モデルで、文法を定義します。Juliusでは次の言語モデルがサポートされます。

単語N-gram (統計的言語モデル)
記述文法
単語リスト (孤立単語認識)

単語辞書 (Word dictionary) / 発音辞書

項目を空白またはタブで区切り、1つの単語を1行に記述します。単語辞書 - 第7章言語モデル

言語エントリ
エントリ内確率
出力文字列
音素列

言語エントリ @エントリ内確率 [出力文字列] 音素列

課税+1	[カゼイ]	k a z e i
課題+1	[カダイ]	k a d a i
課長+1	[カチョウ]	k a ch o:
課長+1	[カチョウ]	k a ch o u
過ぎ+過ぎる+102	[スギ]	s u g i
過ぎ+過ぎる+114	[スギ]	s u g i

単語N-gram

N-gram

単語 N-gram - 第7章言語モデル

記述文法

認識用文法は文のパターンを形式言語の形で記述したもので、少数の語しか出現しない制約の多い文に適しています。記述文法 - 第7章言語モデル

grammarファイル … 単語のカテゴリ間の構文制約 (単語間の接続に関する制約) をBNF風に記述
vocaファイル … 単語カテゴリごとに、単語の表記と読み (発音音素列) を記述

英語の認識

英語用のモデルを用意することで、英語の音声も認識できます。

たとえばvoxforge.orgにあるQuickStart downloadをダウンロードし、そのREADMEにあるように

C:\>julius -input mic -C Sample.jconf

と実行することで英語の認識を試せます。ただしこのサンプルではGRAMMAR_NOTESにあるように、電話応答を想定した数種類のパターンしか認識できません。

DFA文法ファイル … grammar/sample.dfa (言語モデル)
言語ファイル … grammar/sample.dict (発音辞書)
HMM定義ファイル … acoustic_model_files/hmmdefs (HTK形式音響モデル)
HMMListファイル … acoustic_model_files/tiedlist (音響モデル)

参考

Open-Source Large Vocabulary CSR Engine Julius
英語版の資料。英語の認識方法に関する記述あり
JuliusModels download | SourceForge.net
英語とポーランド語のモデル

モデル

Julius音声認識パッケージ

音響モデル (Acoustic Model : AM)

GMM-HMM 音響モデル

DNN-HMM 音響モデル

参考

言語モデル (Language Model : LM)

単語辞書 (Word dictionary) / 発音辞書

単語N-gram

記述文法

参考

単語リスト

参考

英語の認識

参考

参考