音声認識技術
音声認識とは、入力された音声に最も合う言語表現を、推定する過程です。
認識対象
- 口述筆記 (dictation) … 書き取りを前提に、話された音声
- 書き起こし (transcription) … 書き取りを前提とせずに、話された音声
モデル (Model)
音響モデルでは、単語 (Word) の周波数成分のパターンを定義します。その中でも音素を単位とする場合には、音素モデル (Phoneme model)と呼ばれます。
音素モデル
- モノフォン (Monophone) … 音素を独立にモデル化したもの
- トライフォン (Triphone) … 音素とその前後の3つの音素を組み合わせてモデル化したもの
確率モデルの一種で、確率有限状態オートマトンと呼ばれる変換機の一種です。
≫HTK (Hidden markov model ToolKit)
言語モデルでは、言語 (Language) の文法を定義します。これは次の手順で作成します。
- 学習用のテキストデータの準備
- テキストデータの整形
- 形態素解析により、形態素に分割
- 単語と、その出現頻度の集計
統計的言語モデル (Statistical Language Model : SLM)
N-gram
- ユニグラム (unigram) … ある単語が発声される確率
- バイグラム (bigram) … ある単語が発声された後に、ある単語が発声される確率
- トリグラム (trigram) … ある2つの単語の連鎖が発声された後に、ある単語が発声される確率
活用例
音声認識による会議録