
はじめに
Webスクレイピングの技術的な情報は多いのですが、法律に関する情報は数少ないです。せっかく力作のクローラーが完成したのに、後になって取り返しのつかない状況になることだけは避けたいところです。クローラーを作る前に、他人に制作を依頼する前に事前に注意事項を認識した上で取り組もう、というのがこの記事の趣旨です。
他人の著作物を勝手に抜き出し、自身のWebサイトで公開しても良いのか?
クローラーを導入される企業や開発者にとって、これが最も気になるところではないでしょうか?
結論から言いますと現行の法律上では著作権法第47条の7(情報解析のための複製)より、Webスクレイピングでデータを集めて分析し、結果を公開する事は自由に行えます。しかし、会員制サイトの場合は、会員となる為に利用規約に自ら同意しているので、規約の内容を守らなくてはいけません。つまりログインした先のページ内のコンテンツを基にWebサイト上で自身のコンテンツとして公開するのはやめた方がいいです。たまにクローリングを行なう者に対しての注意喚起が記されていない会員制のWebサイトもありますが、それなりにしっかりとした内容のサービスであれば表記されています。
とはいえ会員制のサイトでなければ好きなようにクローラーでアクセスしても良いわけではありません。いくつか注意点を下記でご説明します。
Webサイトからデータを取得する時
Webサイトへアクセスする時は下記の制限を守りましょう。
robots.txt/robotsメタタグのアクセス制限内容を守る。
robots.txtというファイルには、ロボットに対してどのURLにアクセスして良いか、してはいけないかが書いてありますので内容に従いましょう。robots.txtがない場合でも、サーバアクセスの間隔を1秒以上空けるようにしてください。連続アクセスするとWebサーバーに負荷をかけることになり、クロールされる側の迷惑になったり、DoS攻撃(サーバーに過剰な負荷をかけてサービスを妨害する攻撃)とみなされることがあります。Webサーバーに負荷をかけると、他のユーザーがそのWebサイトを参照できなかったり、ひどい場合はサーバーが落ちてしまう場合もあります。
自分のサイトがクロールされる側になり、負荷をかけられた場合のことをを考えれば容易に理解できることです。
Pragma:No-cacheメタタグが設定されているページはダウンロードしない。
サイト運営者に意向に従いましょう。
rel=”nofollow”が設定されているリンクはクローラーで辿らない。
googleのクローラーへの指示としてリンクタグにnofollowを施すのがほとんどのケースですが、こちらもサイト運営者に意向に従いましょう。
会員のみが閲覧できるページの場合は利用規約を守る。
冒頭で述べた通りです。もしも個人のエンジニアが企業に訴えられたらほぼ100%勝てません。
アクセス制限がかかった場合、クローリングで取得していた情報はすべて削除する。
※参考:著作権法第47条(6)
連絡先を明示しましょう
クローラーを開発する際は連絡先を明示しましょう、相手のサーバー管理者が連絡しやすい情報を与えることで何らかの問題が起きた場合に解決しやすくなります。連絡先を明示する手段としては、クローラーのUser-Agentヘッダーに連絡先のURLやメールアドレスを書く方法が一般的です。User-Agentヘッダーの情報が相手のサーバーにログとして残っていれば、管理者は、そのログを確認して連絡先を確認できます。たとえばGoogleのクローラーは「http://www.google.com/bot.html」というURLをUser-Agentヘッダーに含めることで、連絡先を明示しています。
場合によって課される罪:威力業務妨害罪
実際にクローリングする際は特定サイトへの大量アクセスをするケースが多いのですが、大量アクセスをした結果アクセス先のサイトがダウンしてしまった場合、威力業務妨害罪に該当するため罰せられます。実際に過去逮捕者も出ています。
岡崎市中央図書館事件:のちに当該サイトダウンはバグであったことが判明し不起訴となっています。
取得したデータをWeb上で公開する時
集計データを公開する場合は許可を取る必要はなし。
ただし、個人が特定できてしまうようなデータを扱う場合はNGです。
個別データを公開する場合は許可を取る必要がある。
ただし、Web検索サービスで先方のサイトを紹介する為の利用は除きます。
(キャッシュ配信型のキュレーションサービスは、Web検索サービスと認められない可能性があり)
※参考:著作権法第47条(6)
場合によって課される罪: 著作権侵害
Web上の記事や画像などは著作物に該当することが多く、著作物に対してクローリングを行っているという自覚を持ったうえで収集する必要があります。代表的なものでは「著作物の複製権侵害」「著作物の公衆送信権侵害」があります。クローリングで情報を取得すること自体が「複製権侵害」、取得したデータを自分のWebページに掲載したり不特定多数がアクセス可能な環境に保存した場合は公衆送信権の侵害に該当する可能性があるため注意が必要です。
※今回ご紹介した法令はあくまでも一例であり、個別の事例については法律の専門家へご相談下さい。