Explorer

Preprocessタブ

[Open file]でファイルから読み込めます。そのとき「Unable to determine structure as arff (Reason: java.io.IOException: keyword @relation expected, read Token[@relation], line 1).」として読み込みに失敗する場合には、ファイルのエンコーディングを確認します。たとえばBOMありのUTF-8だと、それが原因でエラーとなります。

Edit

読み込んだインスタンスのセットは、[Edit]からArffViewerと同様に編集できます。部分的な修正ならば、これで編集することで異なるデータに対する分析結果を簡単に得られます。

Classifyタブ

[Choose]をクリックすることで、使用するClassifierを選択できます。そのときグレーアウトして表示される項目は、現在読み込んでいるデータセットに対応しないものです。なぜ対応しないかは、その項目のツールチップで表示される[CAPABILITIES]で確認できます。

[Choose]右のテキストボックスをクリックするとGenericObjectEditorダイアログボックスが表示され、GUIで設定を編集できます。

Test Options
精度の推定法  
Use training set Preprocessで読み込んだファイルに含まれるデータで評価する
Supplied test set 指定のファイルに含まれるテストデータで評価する。ファイルは[Set...]で指定
Cross-validation 交差検証で評価する。分割数は[Folds]で指定 c) 交差検証法(n-flod cross-validation estimate) - モデルの精度を推定する
Percentage split 元データの一部をテストデータとして評価する。テストデータとする割合は[%]で指定

Startで開始したときに「Can't have more folds than instances.」となるときには、[Cross-validation (交差検証)]の[Folds]をInstances以下にします。

Result list

個別の結果がリスト表示されます。項目をクリックするとClassifier outputにその内容が表示され、右クリックすると下表のメニューが表示されます。不要な結果はDeleteで削除できます。

Result listのコンテキストメニュー
メニュー 機能
View in main window メインウィンドウに結果を表示する (項目のクリックと同じ)
View in separate window 独立したウィンドウに結果を表示する
Save result buffer  
Load model  
Save model  
Re-evaluate model on current test set  
Re-apply this model's configuration  
Visualize classifier errors 可視化ウィンドウを表示する (Visualizeタブから開く内容と同じ)
Visualize tree / Visualize graph Classifier modelの構造を図形表示する
Visualize margin curve  
Visualize threshold curve  
Cost/Benefit analysis  
Visualize cost curve  

Classifier output

結果が出力されます。

セクション 内容
Run information 処理で用いられた情報の一覧
  • Scheme: (学習スキーム オプション)
  • Relation: (関係名)
  • Instances:
  • Attributes:
  • Test mode:
Classifier model (full training set) 完全な訓練データから生成された分類モデルのテキスト表現
(Test optionsによって異なる) The results of the chosen test mode are broken down thus:
Summary A list of statistics summarizing how accurately the classifier was able to predict the true class of the instances under the chosen test mode.
  • Correctly Classified Instances … 正確に分類されたインスタンスの数と、その割合
  • Incorrectly Classified Instances … 不正確に分類されたインスタンスの数と、その割合
  • Kappa statistic (k統計量) … 0~1の値で、大きいほど一致度が高い
  • Mean absolute error (MAE / 平均絶対誤差) … 小さいほど誤差が小さい
  • Root mean squared error (RMSE / 二乗平均平方根誤差) … 小さいほど誤差が小さい
  • Relative absolute error (RAE / 相対絶対誤差) … 小さいほど誤差が小さい
  • Root relative squared error (RRSE / 二乗相対平方根誤差) … 小さいほど誤差が小さい
  • Total Number of Instances … 評価されたインスタンスの総数
  • Ignored Class Unknown Instances … 無視されたインスタンス
Detailed Accuracy By Class A more detailed per-class break down of the classifier’s prediction accuracy.
  • TP Rate (TPR / True Positive Rate / 真陽性)
  • FP Rate (FPR / False Positive Rate / 偽陽性)
  • Precision (適合率)
  • Recall (再現率)
  • F-Measure (F1 score / F値)
  • MCC
  • ROC Area (Receiver Operating Characteristic)
  • PRC Area (Precision Recall Curve)
  • Class
  • Weighted Avg
Confusion Matrix Shows how many instances have been assigned to each class. Elements show the number of test examples whose actual class is the row and whose predicted class is the column.
Source code (optional) This section lists the Java source code if one chose “Output source code” in the “More options” dialog.

出力例

サンプルのdata\iris.arffJ48による分類結果です。

=== Run information ===

Scheme:       weka.classifiers.trees.J48 -C 0.25 -M 2
Relation:     iris
Instances:    150
Attributes:   5
              sepallength
              sepalwidth
              petallength
              petalwidth
              class
Test mode:    10-fold cross-validation
=== Classifier model (full training set) ===

J48 pruned tree
------------------

petalwidth <= 0.6: Iris-setosa (50.0) このクラスに分類されたデータ数は50 の意味
petalwidth > 0.6
|   petalwidth <= 1.7
|   |   petallength <= 4.9: Iris-versicolor (48.0/1.0) このクラスに分類されたデータ数は48、しかし1つは誤分類 の意味
|   |   petallength > 4.9
|   |   |   petalwidth <= 1.5: Iris-virginica (3.0)
|   |   |   petalwidth > 1.5: Iris-versicolor (3.0/1.0)
|   petalwidth > 1.7: Iris-virginica (46.0/1.0)

Number of Leaves : 5

Size of the tree : 9


Time taken to build model: 0 seconds
=== Predictions on test data ===

    inst# actual            predicted         error prediction
        1 3:Iris-virginica  3:Iris-virginica        0.976
        2 3:Iris-virginica  3:Iris-virginica        0.976
        3 3:Iris-virginica  3:Iris-virginica        0.976
        4 3:Iris-virginica  3:Iris-virginica        0.976
        5 3:Iris-virginica  3:Iris-virginica        0.976
        6 1:Iris-setosa     1:Iris-setosa           1
        7 1:Iris-setosa     1:Iris-setosa           1
        8 1:Iris-setosa     1:Iris-setosa           1
        9 1:Iris-setosa     1:Iris-setosa           1
       10 1:Iris-setosa     1:Iris-setosa           1
       11 2:Iris-versicolor 2:Iris-versicolor       0.977
       12 2:Iris-versicolor 2:Iris-versicolor       0.977
       13 2:Iris-versicolor 2:Iris-versicolor       0.977
       14 2:Iris-versicolor 2:Iris-versicolor       0.977
       15 2:Iris-versicolor 3:Iris-virginica  +     0.8   実際はIris-versicolorだが、予測はIris-virginica。誤りとして「+」フラグが付く
        1 3:Iris-virginica  3:Iris-virginica        0.976
WEKA - Predictions on test data
=== Summary ===

Correctly Classified Instances         144      96 %
Incorrectly Classified Instances         6       4 % 不正確に分類されたインスタンスが6
Kappa statistic                          0.94
Mean absolute error                      0.035
Root mean squared error                  0.1586
Relative absolute error                  7.8705 %
Root relative squared error             33.6353 %
Total Number of Instances              150
=== Detailed Accuracy By Class ===

                 TP Rate  FP Rate  Precision  Recall   F-Measure  MCC      ROC Area  PRC Area  Class
                 0.980    0.000    1.000      0.980    0.990      0.985    0.990     0.987     Iris-setosa
                 0.940    0.030    0.940      0.940    0.940      0.910    0.952     0.880     Iris-versicolor
                 0.960    0.030    0.941      0.960    0.950      0.925    0.961     0.905     Iris-virginica
Weighted Avg.    0.960    0.020    0.960      0.960    0.960      0.940    0.968     0.924
=== Confusion Matrix ===

  a  b  c   <-- classified as
 49  1  0 |  a = Iris-setosa
  0 47  3 |  b = Iris-versicolor
  0  2 48 |  c = Iris-virginica
  • 1.2.4 weka.classifiers - WekaManual.pdf

Clusterタブ

[Choose]をクリックすることで、使用するClusterを選択できます。

Visualizeタブ

関連を視覚的に捉えられます。

[PlotSize]や[PointSize]の変更は、[Update]ボタンをクリックすることで反映されます。

参考

  • WekaManual.pdf
    Chapter 5「Explorer」
複数のダウンロードサイトから、まとめて検索