形態素解析 (morphological analysis)

形態素とは文章において意味を持つ最小の単位であり、形態素解析とはその形態素に文章を区切り、品詞や内容を判別することです。形態素解析とは【morphological analysis】 - 意味/解説/説明/定義 : IT用語辞典

処理方法

  • 最小コスト法
    • 最長一致法
    • 形態素数最小法
    • 文節数最小法

ツール

日本語用の形態素解析システムは、IMEなどに内蔵されています。

比較
MeCab ChaSen JUMAN KAKASI
解析モデル bi-gram マルコフモデル 可変長 マルコフモデル bi-gram マルコフモデル 最長一致
コスト推定 コーパスから学習 コーパスから学習 人手 コストという概念無し
学習モデル CRF (識別モデル) HMM (生成モデル)
辞書引き
アルゴリズム
Double Array Double Array パトリシア木 Hash ?
解探索
アルゴリズム
Viterbi Viterbi Viterbi 決定的 ?
連接表の実装 2次元 Table オートマトン 2次元 Table ? 連接表無し ?
品詞の階層 無制限多階層品詞 無制限多階層品詞 2段階固定 品詞という概念無し ?
未知語処理 字種
(動作定義を変更可能)
字種
(変更不可能)
字種
(変更不可能)
制約つき解析 ○ (2.4.0以降) × ×
N-best解 × × ×
比較 - MeCab: Yet Another Part-of-Speech and Morphological Analyzer

MeCab

MeCabの導入方法

TinySegmenter

MeCabの開発者によってJavaScriptで実装されており、JavaScriptだけで形態素解析を実現できます。

Download TinySegmenter version 0.2

モデルの構築

MECAPI (MeCab Web API)

MECAPIとは、Webサービスとして提供されているMeCabです。MECAPIのページで解説されているように、URLにパラメータを付加してリクエストすると、MeCabの解析結果を得られます。

http://yapi.ta2o.net/apis/mecapi.cgi?sentence=私の名前は中野です

ChaSen

その他

複数の技術系サイトから、まとめて検索