Wekaの使用方法

導入

Weka 3 - Data Mining with Open Source Machine Learning Software in Java

Weka - Browse Files at SourceForge.net

実行時にコンソールが一瞬表示されるだけの場合は、インストールフォルダにあるRunWeka.batをコマンドプロンプトから実行し、エラーを確認します。そのとき「'javaw' は、内部コマンドまたは外部コマンド、…」のように表示されるならば、JREをインストールするか、すでにインストールされているならばパスを設定します。

設定

インストールフォルダのRunWeka.iniを編集することで、設定を変更できます。

文字化けの解消

RunWeka.iniにある

fileEncoding=Cp1252

のエンコーディングの記述を、

fileEncoding=utf-8

などに修正し、読み込むファイルもそれに合わせます。

Package

Package manager

GUIからは、メニューの【Tools → Package manager】から起動できます。weka - How do I use the package manager?

Applications

Applications 用途
Explorer 基本
Experimenter 実験と検証
KnowledgeFlow  
Workbench  
SimpleCLI  

Tools

Tools 機能
ArffViewer ARFFなどのWekaが対応するファイルの閲覧と編集
SqlViewer  
Bays net editor  

対応ファイル形式

  • Arff data files (*.arff | *.arff.gz)
  • C4.5 data files (*.names | *.data)
  • CSV data files (*.csv)
  • JSON Instances (*json | *.json/gz)
  • libsvm data files (*.libsvm)
  • Matlab ASCII files (*.m)
  • svm light data files (*.dat)
  • Binary serialized instances (*.bsi)
  • XRFF data files (*.xrff | *.xrff.gz)

フォーマットの不明なファイル形式は、適当なファイルをその形式で出力してみることで確認できます。

ARFF (Attribute-Relation File Format)

サンプルのデータが、インストールフォルダのdataフォルダ内にあります。

ヘッダ部

@relation relation-name

relation-nameは文字列で、スペースを含む場合には引用符で囲みます。

@attribute attribute-name datatype

datatypeは次の6つの形式がサポートされます。

  • numeric
  • real
  • integer
  • string
  • date [date-format]
  • nominal … {nominal-name1, nominal-name2, nominal-name3, ...}の形式

{}で囲むとnominalと見なされ、そのデータは列挙した値または未知の値を示す「?」とする必要があります。もしそれ以外の値が含まれると、「nominal value not declared in header」として読み込みに失敗します。Nominal attributes - weka - ARFF (book version)

実例
@relation airline_passengers

@attribute passenger_numbers numeric
@attribute Date date 'yyyy-MM-dd'
airline.arff
@RELATION iris

@ATTRIBUTE sepallength REAL
@ATTRIBUTE sepalwidth REAL
@ATTRIBUTE petallength REAL
@ATTRIBUTE petalwidth REAL
@ATTRIBUTE class {Iris-setosa,Iris-versicolor,Iris-virginica}
iris.arff

データ部

@data
The @data Declaration - weka - ARFF (book version)

CSV

CSV形式は、下表のようにARFF形式に対応します。

ARFF CSV
@relation weather

@attribute outlook {sunny, overcast, rainy}
@attribute temperature numeric
@attribute humidity numeric
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}

@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
data\weather.numeric.arff の一部
outlook,temperature,humidity,windy,play
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes

このようにCSVは属性の名前だけを1行目に列挙し、型は指定できません。

XRFF (Xml attribute Relation File Format)

 

参考

複数のダウンロードサイトから、まとめて検索