まずビッグデータとは?

ビッグデータとは「事業の拡大に役立つ膨大なデータ」のことを指します。企業の大小に関わらずこの膨大なデータから管理、分析して売上を上げたり、仕入れの最適化を行うことができます。

 

 

たとえばTwitterのツイートを収集してデータ分析する、これもビッグデータの収集、解析といえる行為です。昔からWikipediaや青空文庫などがありましたが近年ではSNSはもちろん、パブリックドメインなどオープンなデータが増え、他にも政府や自治体から統計データなどが提供されるようになり、今まで倉庫で眠っていたようなデータが、ネットにアップロードされ、誰でもアクセス出来る時代になりました。

 

そして近年では機械学習ブームの影響もあるでしょう。数年前とは比べ、ネット上でスクレイピング、クローラーの単語を見かけることが増えてきました。これまでクローラーと言えば、検索エンジンのBOTというイメージが強いと思いますが、今や企業のマーケティング活動の一つの選択肢として採用されるようにもなっています。

 

しかしいざ分析しようにも「何から始めたらいいのかわからない…」と序盤でつまずく方が多いと思います。筆者は今まで大量のデータを抜き出してほしい!との依頼を多方面からお受けし、この一連の作業に不慣れな担当者が抱える問題等を目の当たりにしてきました。私なりの経験とソリューションを交えながら、まずは基本をご説明します。

1.ビッグデータの3V

まず、ビッグデータとはどんなデータなのか?を改めて理解するために、現在広く浸透しているビッグデータの定義「3V」について紹介します。「3V」とは米調査会社ガートナーのアナリストであるダグ・レイニーによって提唱されたもので、「Volume」「Velocity]」「Variety」それぞれの頭文字を取ったものです。

Volume=データ量

“ビッグデータ”というだけあり、やはり膨大な量のデータ群を対象にするケースが多くなっています。ちなみにデータの種類に対する明確な定義はなく、むしろどんな種類でもビッグデータになり得ると考えられています。

Velocity=データ速度

データ速度とはいわゆるデータのI/O(インプット/アウトプット)速度を指し、膨大な量のデータを分析するためには高速なI/Oが重要です。ここでよく誤解されがちなのが「リアルタイム性も重要」ということですが、時間が経過するほどデータの価値が下がるようなことはありません。ビッグデータを題材にした「マネーボール」という映画が数年前に放映されましたが、これは大リーグの弱小チームが過去のあらゆるデータ分析により快進撃を続けるというストーリーです。「映画の中の話」と思われるかもしれませんが、この映画はノンフィクション書籍をもとに制作されています。このように、データのリアルタイム性は必ずしも重要ではないのです

Variety=データ範囲

データの量、速度もさることながらデータ範囲も非常に重要です。しかしここで注意して欲しいのが「データの種類が多ければ多いほどいい」というのではなく、データ範囲をどこまで捉え分析するかが重要です。つまり分析対象となるデータは数よりもどう選ぶかが分析結果に大きく影響します。以上がビッグデータの「3V」ですが、最近ではこの3つに「Value(データ価値)」と「Veracity(データ正確性)」が追加された「5V」が提唱され始めています。

 

2.明確な分析目的を持つこと

 

ビッグデータの扱い方というよりも考え方として当たり前のことですが大事なことは情報を集めることではありません。冒頭でも述べた通り、今は多種多様な情報に個人がアクセスできるようになり、それらを自動で収集するためのクローリングの方法も無数に公開されるようになりました。そして2013年~2014年頃にビッグデータがバズワードとなって以来、そのワード自体に夢や期待を寄せすぎ、失敗に終わるプロジェクトが後を絶ちません。これはスタートアップのプロジェクトに限ったことではなく担当者が明確な分析目的がない状態のまま、収集&分析を行おうとした場合です。

 

あくまでビッグデータ分析は課題を解決するための手段でしかありません。収集した結果から価値を生み出す方法を事前に固めておくことが重要です。

 

なぜビッグデータ分析が必要なのか?現状課題は何か?ビッグデータ分析以外で解決する方法はないのか?を考える必要があります。

3.主なビッグデータ分析手法

ビッグデータ分析の基本を押さえる上で、最低限必要な分析知識をまとめておきます。

クロス集計分析

特定の2つないしは3つのデータにフォーカスして分析を行うデータ分析手法であり、主にアンケート調査などに用いられます。
例としてアンケート項目で得られたデーターを縦軸、アンケート回答者の属性(性別や年齢など)を横軸にすることでグループごとの統計などを取ることが可能です。

ロジスティック回帰分析

将来的な事象の発生率を予測する分析である、分析結果が0~1で表されるのが特徴的です。
医療分野において病気の発生率などを分析する際に用いられます。

アソシエーション分析

一見関連性のないデータとデータの間にある共起性を見つけ出し、有用な情報を引き出すための分析手法です。
ビッグデータ分析として都市伝説化されている「おむつとビールの事例(※1)」が代表的ですね。

※1:おむつとビールの事例とはとあるスーパー内でおむつとビールが同時購入されているデータに着目したところ、父親がおむつ購入ついでのビールも購入していることが判明し陳列棚を近づけたら売上げが上がったという事例。

クラスター分析

異なるデータを複数のグループにわけることで、データ同士の関係性を明確にすることができる分析手法です。
ブランドポジションの認知や消費者のセグメンテーションなどに用いられています。

決定木分析

「If than:もしも~だったら」で原因から結果を予測していくことで、樹木上の分析モデルが完成するのが特徴です。
多くのビジネスシーンで活用され、ビッグデータ分析の中心でもあります。

 

 

まとめ

 

大切なことは、ビッグデータの収集&分析は課題を解決するための手段であること。です。

バズワードに踊らされずに課題の解決策をまず自力で考え抜いた上で、作業を進めると失敗する確率を減らせます。

 

DIGではビッグデータの収集だけでなく、プロジェクトに合った最適な分析方法もご提案させて頂いております。

 

Webクローラー、スクレイピングに関してお困りではありませんか?

DIGは他者に断られるような高度なサイト構造&セキュリティ(SPA、IP分散、画像や文字認証の突破)に対しての対策を最も得意としています。

「このサイトはクローリング、自動操作が可能か」等のご相談から技術的なご質問までクローリング、自動化に関してはどんな内容でも構いません。お気軽にお問い合わせください。

 

お問い合わせ
2018-02-17 18:43
下記フォームにご入力の上、送信ボタンを押してください ※【送信】をクリックすることで、弊社のプライバシーポリシーに同意、読んだものとします。...

 






おすすめの記事
Goutte(PHP7)を使ってみる
クローラーを作りたい
はじめに #001でGoutteをインストール出来たので早速、簡単なサンプルを動かして見ましょう。 html情報の取得 手始めにWikipe...
iMacrosマクロを実行
ブラウザを自動操作したい
iMacrosを使いやすくするための準備 まずブラウザ上でiMacrosを操作しやすい環境を準備しましょう。下記のアドオンをインストールして...