クローラーとスクレイピングについての疑問まとめ

プログラミング

この記事は 約5 分で読めます。
スポンサーリンク

クローラーとは?スクレイピングとは?

クローラー・スクレイピングとは特定のWeb上にある情報を定期的に取得してDBなどの記憶媒体に保存する行為の総称です。
スクレイピングはクローラーで取得した情報のピックアップを指します。

クローラーとスクレイピングの違い

クローラーとスクレイピングの違いって何は分かりますか?

どっちもWebに落ちてる情報を拾う技術だと私は解釈していましたが厳密には違いがあるようです。

クローリングでは、Webサイトの情報を取得する または定期的に巡回すると言う意味があり、スクレイピングでは、クローリングで取得したHTMLなどの情報の中から1部をピックアップする事をスクレイピングと言います。

クローラーは 巡回 および 情報取得
スクレイピングは HTMLから必要部分をピックアップ

と言う事で微妙に違いがあります。

実際に起きたクローラーに関する事件 LibraHack事件

岡崎市立中央図書館事件(おかざきしりつちゅうおうとしょかんじけん)は、2010年3月頃に岡崎市立図書館の蔵書検索システムにアクセス障害が発生し、利用者の一人が逮捕された事件である。利用者に攻撃の意図はなく、また、根本的な原因が図書館側のシステムの不具合にあったことから論議を呼んだ。逮捕された人物が取調べの後、Librahackというサイトを立ち上げて解説をしたことから、Librahack事件とも呼ばれる。
出典:WikiPedia

被害者側サーバーの不具合による誤認逮捕では無いかと言われている事件ではありますが、当時の検事さんもインターネット事件に関する知識が無かった為に起きた事件。

事件の際、著名なセキュリティ会社が3者クローリングのプログラムを解析した所、違法性は無いと回答しているにも関わらず逮捕はされたが起訴猶予になったです。

しかし、クローラーを運用するに当たって、誰にでも起こりうるリスクである事を覚えておきましょう。

クローリング スクレイピングは違法?

クローリングやスクレイピングは違法だと良く言われますが、答えはグレーです。
理由は

  1. スクレイピングした内容にオリジナリティがある情報を第3者が無断で利用すると著作権法に抵触する恐れがある※1
  2. 集めた情報を自サイトで利用したり、第三者に販売するような行為は違法になります。
  3. スクレイピングを許可していないサイトからスクレイピングを行う行為は違法です(民事訴訟法) ※2
  4. 頻繁にクローリングを繰り返し該当サーバーに高負荷を与えるような行為は偽計業務妨害罪に抵触する可能性があります。

※1 著作権法では情報解析のための複製等を著作権者の同意なく行う事を例外としています。(著作権法47-7)情報解析の目的であれば、スクレイピングで取得したデータをDBなどに保存しても法律的に問題ありません。
更にオリジナリティが認められない情報であれば全く問題はありません

※2 ただし、その情報がWeb上にあり誰でも閲覧出来るコンテンツである場合は法的に許可されます。
FBやMixiなどの様に会員登録が必要な情報をスクレイピングして第3者に渡すような行為は違法になります。

と言うわけで、スクレイピングするに当たりユーザーが通常閲覧するレベルでのクローリングは違法にはなりにくいでしょう。
なぜ、違法にはならないと言わないのか?と言うと親告罪であり、サーバー管理者が高負荷を掛けられたから訴える!と言って訴えない限り罪に問われないからです。

クローラーやスクレイピングは違法なのか?まとめ

以下のようなクローラーやスクレイピングは違法にはなりにくいと言う事です。

  1. 著しく短い間隔でのアクセス(高負荷を与えない)
  2. オリジナリティのある情報を勝手に使わない、または第三者に譲渡しない
  3. 会員登録が必要なページを勝手にクローリングしない(不正アクセス)
  4. 誰でもアクセス出来る情報かつ、オリジナリティの無い情報の取得に留める

オリジナリティの無い情報とは

どういう事かと言いますと、例えば全国のAEONモールのオープン時間情報や住所・電話番号や、全国の神社の場所、主祀神の名前、駐車場スペースの広さなど、誰でも簡単に取得出来る情報に関して著作権は認められていませんから、オリジナリティがあるとは言えないのです。

逆にオリジナリティが認められる情報とは、他人のブログの記事本文やバンドの楽曲の音源など、個人やそのブログに行かなければ取得出来ない情報を指します。

クローラーの有用性

クローラーの使い方次第では非常に有用な大規模サイトの構築などに役立ちます。
例えば、全国の神社のデータを集めて、それぞれの地図や場所、催事の日程などを公開するようなサイトも自動的に制作出来ますし、勝手にページがガンガン増えていくページを生成出来るのです。

もちろん、これだけではただのデータを掲載しているだけのサイトですからSEOは弱いです。
これに対して付加価値を付与したり、まとめページを手動で制作したりする事で、そのサイトに価値が出てSEO的な効果も見込める事でしょう。

このようにアイデア次第でクローラーやスクレイピングは無限の可能性を示唆している凄いツールとなりうるのです。

クローラー・スクレイピングの方法

クローラーからスクレイピングの作り方を以下のページで公開しています。
使用言語はPHPを利用しておりますが、コピペだけでも作れてしまうのではないかと思う程、簡単に作れますのでクローラーに興味のある方は是非チャレンジしてみて下さい。

【PHPチュートリアル】初心者でも作れるスクレイピングクローラーの作り方 - その1
PHPでクローラーってどうやるの?よく聞かれます。特にアフィリエイターの人とか良く聞かれますね、PHP覚えるとっかかりにでもなれば良いと思っているので、スクレイピングの方法を紹介したいと思います。恐らくこの講座は長くなると思うので3部作ぐら...

コメント