2016年11月29日火曜日

一瞬で大量の情報取得!スクレイピングサービスimport.ioを使ってみる

スクレイピングとは

スクレイピングは、聞きなれない言葉だと思います。スクレイピングとは、
Webスクレイピングとは、WebサイトからWebページのHTMLデータを収集して、特定のデータを抽出、整形し直すことである。
という意味です(IT用語辞典)。HTMLはウェブサイトを作る言語のことですが、そのHTMLを分析してページの構造を把握し、データを機械的に抽出するという仕組みです。

スクレイピングをやってみる

それでは、スクレイピングでどんなことができるのか、試してみましょう。日本の外務省のプレスリリースを一括で取得することを目標とします。

外務省プレスリリース:http://www.mofa.go.jp/mofaj/press/release/index.html

ではその手順です。

import.io(https://www.import.io)にアクセスします。登録は無料です。FacebookやGoogleアカウントがあれば、すぐにログインできます。


この画面で、New Extractorを押して、新しいプロセスを作成します。


こんなポップアップが出てくるので、外務省プレスリリースのURLをコピーペーストしましょう。そしてGo。 http://www.mofa.go.jp/mofaj/press/release/index.html



数秒待つと、このような画面が出てきます。データ解析が正常にできたということです。右上のDoneを押しましょう。


こんな画面になります。これで外務省のプレスリリースを取得するというプロセスは設定できました。真ん中あたりのRun URLsを押すと、最新のプレスリリース情報を取得しに行きます。


情報を取得できたら、CSVでダウンロードできます。CSVはExcelで開けますが、日本語だと文字化けするかもしれません。Open Officeというソフトを使うと、文字化けは防げます。


「なんだこれだけか」と思うかもしれませんが、さらにいろいろできます。指定できるURLは1つではありません。例えば、このようにURLを複数指定すれば、数ヶ月分のプレスリリース情報を一括で取得できるのです。


また有料版($249/月〜)にすると、プロセスを動かすスケジュールを設定することができます。例えば、外務省のプレスリリースを毎日自動で取得する、ということもできます。

注意点

  • プログラムによるアクセスがブロックされて、スクレイピングができないサイトもあります。
  • スクレイピングで取得した情報を利用・公開する時には著作権等に注意する必要があります。
  • import.io無料版では、情報取得の回数が1月500回までに制限されています。

他の活用方法

今回は「外務省のプレスリリースを取得する」という例を実行しましたが、他にも次のような活用方法が考えられます。
  • オンライン書店であるキーワードに関する書籍の一覧を取得する。
  • ニュースサイトで毎日ニュースの一覧を取得する。
  • 求人情報を定期的に収集する。
  • あるページのサムネイル画像だけを取得する(アイドルのファンなんかは活用できそう・・・)。
単にニュースをチェックするだけなら、ページをお気に入りにいれて見るか、RSSフィードなどを活用すればよいです。 ただ、定期的に大量の情報を忘れずに取得したい、CSVデータにして分析したい、というような場合には、こういったスクレイピングツールを活用すると、収集が捗るでしょう。

今すぐに使わなくても、スクレイピングというキーワードは覚えておいて損はないです。
import.io以外のスクレイピングサービスについては、こちらの記事を参照してください。
誰でも簡単!Webページ情報を自動でデータ化できるスクレイピングツール5選


EmoticonEmoticon