スクレイピングとは
スクレイピングは、聞きなれない言葉だと思います。スクレイピングとは、Webスクレイピングとは、WebサイトからWebページのHTMLデータを収集して、特定のデータを抽出、整形し直すことである。という意味です(IT用語辞典)。HTMLはウェブサイトを作る言語のことですが、そのHTMLを分析してページの構造を把握し、データを機械的に抽出するという仕組みです。
スクレイピングをやってみる
それでは、スクレイピングでどんなことができるのか、試してみましょう。日本の外務省のプレスリリースを一括で取得することを目標とします。外務省プレスリリース:http://www.mofa.go.jp/mofaj/press/release/index.html
ではその手順です。
import.io(https://www.import.io)にアクセスします。登録は無料です。FacebookやGoogleアカウントがあれば、すぐにログインできます。
この画面で、New Extractorを押して、新しいプロセスを作成します。
こんなポップアップが出てくるので、外務省プレスリリースのURLをコピーペーストしましょう。そしてGo。 http://www.mofa.go.jp/mofaj/press/release/index.html
数秒待つと、このような画面が出てきます。データ解析が正常にできたということです。右上のDoneを押しましょう。
こんな画面になります。これで外務省のプレスリリースを取得するというプロセスは設定できました。真ん中あたりのRun URLsを押すと、最新のプレスリリース情報を取得しに行きます。
情報を取得できたら、CSVでダウンロードできます。CSVはExcelで開けますが、日本語だと文字化けするかもしれません。Open Officeというソフトを使うと、文字化けは防げます。
「なんだこれだけか」と思うかもしれませんが、さらにいろいろできます。指定できるURLは1つではありません。例えば、このようにURLを複数指定すれば、数ヶ月分のプレスリリース情報を一括で取得できるのです。
また有料版($249/月〜)にすると、プロセスを動かすスケジュールを設定することができます。例えば、外務省のプレスリリースを毎日自動で取得する、ということもできます。
注意点
- プログラムによるアクセスがブロックされて、スクレイピングができないサイトもあります。
- スクレイピングで取得した情報を利用・公開する時には著作権等に注意する必要があります。
- import.io無料版では、情報取得の回数が1月500回までに制限されています。
他の活用方法
今回は「外務省のプレスリリースを取得する」という例を実行しましたが、他にも次のような活用方法が考えられます。- オンライン書店であるキーワードに関する書籍の一覧を取得する。
- ニュースサイトで毎日ニュースの一覧を取得する。
- 求人情報を定期的に収集する。
- あるページのサムネイル画像だけを取得する(アイドルのファンなんかは活用できそう・・・)。
今すぐに使わなくても、スクレイピングというキーワードは覚えておいて損はないです。
import.io以外のスクレイピングサービスについては、こちらの記事を参照してください。
誰でも簡単!Webページ情報を自動でデータ化できるスクレイピングツール5選
EmoticonEmoticon