ここではWikipediaから、プログラム的にデータを取得する方法について解説します。
単純にデータを抜き出すだけならば、ページの書き出し - Wikipediaから取得できます。またすべてのデータが必要ならば、BoookendsからEPWING形式でダウンロードできます。
たとえば、
https://ja.wikipedia.org/wiki/キーワード
のページの情報を取得する場合を考えます。このときキーワードを含めた次のURLにアクセスすることで、XML形式でデータが返されます。
https://ja.wikipedia.org/wiki/特別:データ書き出し/キーワード
または次のURLでも同様の結果が返されます。
https://ja.wikipedia.org/w/index.php?title=特別:データ書き出し/キーワード
英語版から取得するには、
https://en.wikipedia.org/wiki/Special:Export/キーワード
の書式になります。なお日本語版でもこの書式でアクセスできます。
https://ja.wikipedia.org/wiki/Special:Export/キーワード
ただし結果は/wiki/特別:データ書き出し/のパスにリダイレクトされて返されるため、最初から前述のURLを用いる方が良いです。
PHPなどからリクエストする場合、ヘッダにUser-Agentを含めないと「403 Forbidden」が返されます。
レスポンスはXML形式で返されますが、記事の本文はWikipediaのマークアップを使用したテキストで記述されています。