Wikipedia

ここではWikipediaから、プログラム的にデータを取得する方法について解説します。

単純にデータを抜き出すだけならば、ページの書き出し - Wikipediaから取得できます。またすべてのデータが必要ならば、BoookendsからEPWING形式でダウンロードできます。

リクエスト (request)

たとえば、

https://ja.wikipedia.org/wiki/キーワード

のページの情報を取得する場合を考えます。このときキーワードを含めた次のURLにアクセスすることで、XML形式でデータが返されます。

https://ja.wikipedia.org/wiki/特別:データ書き出し/キーワード

または次のURLでも同様の結果が返されます。

https://ja.wikipedia.org/w/index.php?title=特別:データ書き出し/キーワード

英語版から取得するには、

https://en.wikipedia.org/wiki/Special:Export/キーワード

の書式になります。なお日本語版でもこの書式でアクセスできます。

https://ja.wikipedia.org/wiki/Special:Export/キーワード

ただし結果は/wiki/特別:データ書き出し/のパスにリダイレクトされて返されるため、最初から前述のURLを用いる方が良いです。

スクリプトで取得する場合

PHPなどからリクエストする場合、ヘッダにUser-Agentを含めないと「403 Forbidden」が返されます。

レスポンス (response)

レスポンスはXML形式で返されますが、記事の本文はWikipediaのマークアップを使用したテキストで記述されています。

マークアップ (markup)

テンプレート (templete)

パーサー (parser / 構文解析器)

複数の技術系サイトから、まとめて検索