音声認識 (speech recognition)

音声認識とは、入力された音声に最も合う言語表現を、推定する過程です。

認識対象

口述筆記 (dictation) … 書き取りを前提に、話された音声
書き起こし (transcription) … 書き取りを前提とせずに、話された音声

コーパス (corpus)

音声資源コンソーシアム
- 日本音響学会新聞記事読み上げ音声コーパス (Japanese Newspaper Article Sentences : JNAS)
国立国語研究所
- 現代日本語書き言葉均衡コーパス (Balanced Corpus of Contemporary Written Japanese : BCCWJ)
- 日本語話し言葉コーパス (Corpus of Spontaneous Japanese : CSJ)
  - サンプル・データ日本語話し言葉コーパス（CSJ）
Switchboard-1 Release 2 - Linguistic Data Consortium
Speech Corpus - VoxForge Repository

≫日本語のテキストコーパス

モデル (Model)

音響モデル … 音を定義
言語モデル … 語を定義

音響モデル (Acoustic model)

音響モデルでは、単語 (Word) の周波数成分のパターンを定義します。その中でも音素を単位とする場合には、音素モデル (Phoneme model)と呼ばれます。

音素モデル

モノフォン (Monophone) … 音素を独立にモデル化したもの
トライフォン (Triphone) … 音素とその前後の3つの音素を組み合わせてモデル化したもの

隠れマルコフモデル (Hidden Markov Model : HMM)

隠れマルコフモデルとは確率モデルの一種で、確率有限状態オートマトンと呼ばれる変換機の一種です。

≫HTK (Hidden markov model ToolKit)

参考

音響モデルを調整し、音声認識の精度を高める | IBM developerWorks Colin Beckingham (2012/07/12)
Acoustic model - Wikipedia

音のなんでもコーナー | 日本音響学会

言語モデル (Language model)

言語モデルでは、言語 (Language) の文法を定義します。これは次の手順で作成します。

学習用のテキストデータの準備
テキストデータの整形
形態素解析により、形態素に分割
単語と、その出現頻度の集計

≫大規模言語モデル (LLM)

統計的言語モデル (Statistical Language Model : SLM)

ユニグラム (unigram) … ある単語が発声される確率
バイグラム (bigram) … ある単語が発声された後に、ある単語が発声される確率
トリグラム (trigram) … ある2つの単語の連鎖が発声された後に、ある単語が発声される確率

参考

Language model - Wikipedia

活用例

音声認識による会議録

参考

音声認識技術はどこに向かうのか？ (1/5) | Telescope Magazine 山路達也 (2012/07/09)
｢中国発AI｣で､通訳も速記も､もう必要ないファーウェイやBATを超える､ものすごい企業 | IT･電機･半導体･部品 | 東洋経済オンライン中山一貴 (2019/05/02)
音声認識ラボ

記事一覧

「音声認識」最新記事一覧 - ITmedia Keywords

参考書

人と対話するコンピュータを創っています音声認識の最前線 [角川学芸出版] 古井貞熙
IT Text 音声認識システム [オーム社] 鹿野清宏ほか
書籍の情報：IT Text 音声認識システム | 理工学専門書,情報科学,知識科学・人工知能 | Ohmsha

関連情報

語学