形態素とは文章において意味を持つ最小の単位であり、形態素解析とはその形態素に文章を区切り、品詞や内容を判別することです。形態素解析とは【morphological analysis】 - IT用語辞典 e-Words
日本語用の形態素解析システムは、IMEなどに内蔵されています。
MeCab | ChaSen | JUMAN | KAKASI | |
---|---|---|---|---|
解析モデル | bi-gram マルコフモデル | 可変長 マルコフモデル | bi-gram マルコフモデル | 最長一致 |
コスト推定 | コーパスから学習 | コーパスから学習 | 人手 | コストという概念無し |
学習モデル | CRF (識別モデル) | HMM (生成モデル) | ||
辞書引き アルゴリズム |
Double Array | Double Array | パトリシア木 | Hash ? |
解探索 アルゴリズム |
Viterbi | Viterbi | Viterbi | 決定的 ? |
連接表の実装 | 2次元 Table | オートマトン | 2次元 Table ? | 連接表無し ? |
品詞の階層 | 無制限多階層品詞 | 無制限多階層品詞 | 2段階固定 | 品詞という概念無し ? |
未知語処理 | 字種 (動作定義を変更可能) |
字種 (変更不可能) |
字種 (変更不可能) |
|
制約つき解析 | ○ | ○ (2.4.0以降) | × | × |
N-best解 | ○ | × | × | × |
MeCabの開発者によってJavaScriptで実装されており、JavaScriptだけで形態素解析を実現できます。
Download TinySegmenter version 0.2
MECAPIとは、Webサービスとして提供されているMeCabです。MECAPIのページで解説されているように、URLにパラメータを付加してリクエストすると、MeCabの解析結果を得られます。
http://yapi.ta2o.net/apis/mecapi.cgi?sentence=私の名前は中野です