[Open file]でファイルから読み込めます。そのとき「Unable to determine structure as arff (Reason: java.io.IOException: keyword @relation expected, read Token[@relation], line 1).」として読み込みに失敗する場合には、ファイルのエンコーディングを確認します。たとえばBOMありのUTF-8だと、それが原因でエラーとなります。
読み込んだインスタンスのセットは、[Edit]からArffViewerと同様に編集できます。部分的な修正ならば、これで編集することで異なるデータに対する分析結果を簡単に得られます。
[Choose]をクリックすることで、使用するClassifierを選択できます。そのときグレーアウトして表示される項目は、現在読み込んでいるデータセットに対応しないものです。なぜ対応しないかは、その項目のツールチップで表示される[CAPABILITIES]で確認できます。
[Choose]右のテキストボックスをクリックするとGenericObjectEditorダイアログボックスが表示され、GUIで設定を編集できます。
精度の推定法 | |
---|---|
Use training set | Preprocessで読み込んだファイルに含まれるデータで評価する |
Supplied test set | 指定のファイルに含まれるテストデータで評価する。ファイルは[Set...]で指定 |
Cross-validation | 交差検証で評価する。分割数は[Folds]で指定 c) 交差検証法(n-flod cross-validation estimate) - モデルの精度を推定する |
Percentage split | 元データの一部をテストデータとして評価する。テストデータとする割合は[%]で指定 |
Startで開始したときに「Can't have more folds than instances.」となるときには、[Cross-validation (交差検証)]の[Folds]をInstances以下にします。
個別の結果がリスト表示されます。項目をクリックするとClassifier outputにその内容が表示され、右クリックすると下表のメニューが表示されます。不要な結果はDeleteで削除できます。
メニュー | 機能 |
---|---|
View in main window | メインウィンドウに結果を表示する (項目のクリックと同じ) |
View in separate window | 独立したウィンドウに結果を表示する |
Save result buffer | |
Load model | |
Save model | |
Re-evaluate model on current test set | |
Re-apply this model's configuration | |
Visualize classifier errors | 可視化ウィンドウを表示する (Visualizeタブから開く内容と同じ) |
Visualize tree / Visualize graph | Classifier modelの構造を図形表示する |
Visualize margin curve | |
Visualize threshold curve | |
Cost/Benefit analysis | |
Visualize cost curve |
結果が出力されます。
セクション | 内容 |
---|---|
Run information | 処理で用いられた情報の一覧
|
Classifier model (full training set) | 完全な訓練データから生成された分類モデルのテキスト表現 |
(Test optionsによって異なる) | The results of the chosen test mode are broken down thus: |
Summary | A list of statistics summarizing how accurately the classifier was able to predict the true class of the instances under the chosen test mode.
|
Detailed Accuracy By Class | A more detailed per-class break down of the classifier’s prediction accuracy.
|
Confusion Matrix | Shows how many instances have been assigned to each class. Elements show the number of test examples whose actual class is the row and whose predicted class is the column. |
Source code (optional) | This section lists the Java source code if one chose “Output source code” in the “More options” dialog. |
サンプルのdata\iris.arffのJ48による分類結果です。
=== Run information === Scheme: weka.classifiers.trees.J48 -C 0.25 -M 2 Relation: iris Instances: 150 Attributes: 5 sepallength sepalwidth petallength petalwidth class Test mode: 10-fold cross-validation
=== Classifier model (full training set) === J48 pruned tree ------------------ petalwidth <= 0.6: Iris-setosa (50.0) このクラスに分類されたデータ数は50 の意味 petalwidth > 0.6 | petalwidth <= 1.7 | | petallength <= 4.9: Iris-versicolor (48.0/1.0) このクラスに分類されたデータ数は48、しかし1つは誤分類 の意味 | | petallength > 4.9 | | | petalwidth <= 1.5: Iris-virginica (3.0) | | | petalwidth > 1.5: Iris-versicolor (3.0/1.0) | petalwidth > 1.7: Iris-virginica (46.0/1.0) Number of Leaves : 5 Size of the tree : 9 Time taken to build model: 0 seconds
=== Predictions on test data ===
inst# actual predicted error prediction
1 3:Iris-virginica 3:Iris-virginica 0.976
2 3:Iris-virginica 3:Iris-virginica 0.976
3 3:Iris-virginica 3:Iris-virginica 0.976
4 3:Iris-virginica 3:Iris-virginica 0.976
5 3:Iris-virginica 3:Iris-virginica 0.976
6 1:Iris-setosa 1:Iris-setosa 1
7 1:Iris-setosa 1:Iris-setosa 1
8 1:Iris-setosa 1:Iris-setosa 1
9 1:Iris-setosa 1:Iris-setosa 1
10 1:Iris-setosa 1:Iris-setosa 1
11 2:Iris-versicolor 2:Iris-versicolor 0.977
12 2:Iris-versicolor 2:Iris-versicolor 0.977
13 2:Iris-versicolor 2:Iris-versicolor 0.977
14 2:Iris-versicolor 2:Iris-versicolor 0.977
15 2:Iris-versicolor 3:Iris-virginica + 0.8 実際はIris-versicolorだが、予測はIris-virginica。誤りとして「+」フラグが付く
1 3:Iris-virginica 3:Iris-virginica 0.976
WEKA - Predictions on test data
=== Summary === Correctly Classified Instances 144 96 % Incorrectly Classified Instances 6 4 % 不正確に分類されたインスタンスが6 Kappa statistic 0.94 Mean absolute error 0.035 Root mean squared error 0.1586 Relative absolute error 7.8705 % Root relative squared error 33.6353 % Total Number of Instances 150
=== Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class 0.980 0.000 1.000 0.980 0.990 0.985 0.990 0.987 Iris-setosa 0.940 0.030 0.940 0.940 0.940 0.910 0.952 0.880 Iris-versicolor 0.960 0.030 0.941 0.960 0.950 0.925 0.961 0.905 Iris-virginica Weighted Avg. 0.960 0.020 0.960 0.960 0.960 0.940 0.968 0.924
=== Confusion Matrix === a b c <-- classified as 49 1 0 | a = Iris-setosa 0 47 3 | b = Iris-versicolor 0 2 48 | c = Iris-virginica
[Choose]をクリックすることで、使用するClusterを選択できます。
関連を視覚的に捉えられます。
[PlotSize]や[PointSize]の変更は、[Update]ボタンをクリックすることで反映されます。