IT業界では次から次へと新たな用語が登場していますが、「ビッグデータ」もその一つ。AI(人工知能)やIoT(Internet of Things)などと共に注目を集め、ネット記事やTV番組でも触れる機会が増えているのではないでしょうか。ビジネスシーンでの利活用も叫ばれる中、ビッグデータの定義と使われ方、活用時に気を付けるべきことについて紹介します。
ビッグデータの定義と注目を集める理由
技術の進化でインターネット回線の通信速度は早くなり、スマートフォンやタブレットが普及。2020年には5G(第五世代移動通信システム)の登場で、私たちの暮らしはさらに便利になると期待されます。
「ビッグデータ」とは、 パソコンやスマートフォンなどのあらゆるデバイスから得られる膨大な情報のこと。従来のデータベース管理システムなどでは記録・保管・解析が難しい、大量のデータを指します。身近なところでは、SNSを通じて飛び交う動画や画像などもビッグデータといえます。
近年、映像や音楽、ゲームなどのコンテンツを、インターネット経由で利用することが増えました。さらに2020年の新型コロナウウイルス感染症拡大の影響から自宅で過ごす人が増え、データの流通はますます増えると考えられます。
ちなみにスウェーデンの大手通信会社「Ericsson Mobility Report November 2019」によると 、2019年から2025年までの間で、モバイル経由でのデータトラフィックは年間27%のペースで増加。2025年には月160エクサバイトを超えると予測されています。聞き慣れない単位ですが、テラバイトの上が「ペタ」、さらにその上に「エクサ」が続くと言えば、イメージしやすいのではないでしょうか。つまり、わずか6年後にはインターネット上のデータは私たちの想像を超える量になるというのです。そして、日々膨大化するデータを利活用することで、企業は業務効率化や新たなイノベーションの発見につなげようとしています。
「3つのV」から「4つのV」へ
ビッグデータは、企業内サーバで取り扱っているような構造化されたデータばかりでなく、テキストや音声、ビデオ、ログファイル、位置情報、センサ情報などの非構造化データも多く存在します。2020年はリモートワークが飛躍的に進み、非構造化したデータはさらに増えていくと考えられます。
ビッグデータが注目され始めた2001年頃、米の分析学者によって、ビッグデータは大きく3つの特徴があると説明されるようになりました。これらは頭文字を取って「3つのV」と呼ばれ、下の表の青色部分に相当します。
V |
概要 |
Volume(データ量)
|
現状では数テラバイトから数ペタバイト程度のデータ量 ※テラバイト=1000ギガ |
Variety(多様性) |
構造化データや非構造化データなど、データと言っても多様である |
Velocity(速さ) |
リアルタイムで収集できるデータ・秒単位などの高頻度のデータ。例えば、交通系ICカードの利用履歴などもこちら |
Veracity(真実性) |
利活用の際、データに紛れ込んでいるノイズを排除して、クリーンな状態であることを担保すること |
Value(価値) |
分析し、利活用することで経済的価値が発生する |
2011年にはIBMの資料で「3つのV」に加えて、Veracity(真実性)が加えられました。データには分析を妨げるノイズが紛れ込んでいます。例えば、フェイクニュースのように嘘の情報もあり、分析し利活用するためには、データの真実性が重要と考えられるようになりました。
また近年、ビッグデータの特徴は「4つのV」を指すことが主流となっていますが、Value(価値)を加えて「5つのV」と表現されることもあります。データを可視化し分析することで、付加価値= Valueが生まれる。つまり、今まで見向きもされなかったデータも分析次第でビジネスのヒントとなることから、5つ目の特徴として加えられたのです。
データは利活用される時代へ
特徴に続き、ビッグデータを分類すると、大きく4つに分けられます。
データの保有先 |
概要 |
政府
|
国や地方公共団体が提供する「オープンデータ」 |
企業 |
ノウハウをデジタル化したもの「知のデータ」 |
M2M(Machine to Machine) |
機器から得られるデータ「M2Mデータ」 |
個人 |
属性情報や移動、行動、購買、ウェアラブル機器から集められた情報も含む |
出典/平成29年度 情報通信白書 第一部 P53より
特に政府が保有する「オープンデータ」は、『官民データ活用推進基本法 』を踏まえた上ですが、公共情報のオープン化が進んでいる分野です。新型コロナウイルス感染症の陽性者数やPCR検査実施人数なども、厚生労働省のホームページで公開 されていますが、これもオープンデータに該当します。
その他、私たちの暮らしに身近なビッグデータの活用例 をご紹介します。
サービス |
概要 |
交通系ICカード
|
駅やバスなど交通機関を利用する際に利用するICカード。電車の乗り降りの支払いや利用期間が分かる。買い物をすれば、誰がどこで何を買ったかも記録。 |
防犯カメラ |
映像を記録するだけでなく、手に取ってすぐに戻したものやカゴに入れたものの棚に戻したものなど、購入に至らなかった商品の分析データにも使われている。 |
SNSに表示される広告 |
閲覧履歴をもとに、興味がありそうな商品の広告を表示する。 |
Nシステム |
道路上に設置されている「自動車ナンバー自動読み取り装置」。警察が設置した監視システムで、自動車のナンバーを読み取り、犯人の追跡をするなど、犯罪捜査に利用。また渋滞予測やドライバーへの警告などでも利用されている。 |
量より選択と質が重要
これまでご紹介してきた通り、ビッグデータを分析することでイノベーションにつながる可能性は広がりますが、利活用するにあたり注意 すべきことが大きく2つあります。まずは「個人情報の保護」です。個人が保有するデータは膨大にありますが、プライベートにも関わるため、今まで以上に情報の取り扱いには注意が必要です。
次に、ビジネスの意思決定に活用する場合、「量」よりも「質」が大事です。膨大なデータの中には、ノイズと呼ばれる間違ったデータが紛れています。それらを取り除いた状態でないと、導かれた予測が間違っていて、判断を誤ることにもなりかねませんので、データの質を高めることが欠かせません。
ビッグデータを利活用する側は、これらへ十分に注意を払いながら進めなければならないのです。
参考
総務省「令和2年版情報通信白書」
https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r02/pdf/index.html