ある意味、ビッグデータとはその名の通り、大量のデータです。インターネットの出現以来、私たちは驚くべき量のデータを生成してきました。 2003 年までの全期間で生成されたデータはわずか 5 エクサバイト、つまり 50 億ギガバイトに相当すると推定されています。しかし、2003 年から 2012 年にかけて、その量は約 2.7 ゼタバイト (または 2,700 エクサバイト、つまり 2.7 兆ギガバイト) に達しました。
「ビッグデータ」という用語は通常、従来のデータベースを使用して維持することが困難な、大規模で急速に拡大し、多様で、多くの場合構造化されていないデジタル化データのセットを指すのに使用されます。これには、インターネットの空間に漂うすべてのデジタル情報、取引先企業の機密情報、政府の公式記録などが含まれます。データが何らかの目的で分析されているという暗示もあります。
データを生成するデバイスの数と種類も急増しています。家庭用コンピューターや小売店の POS システムのほかに、インターネットに接続されたスマートフォン、体重をツイートする WiFi 対応の体重計、健康関連データを追跡し、場合によっては共有するフィットネス センサー、写真やビデオを自動的にオンラインに投稿できるカメラ、いくつか例を挙げると、地球上の私たちの位置を正確に特定できる全地球測位衛星( GPS ) デバイスです。気象センサー、交通センサー、監視カメラ、車や飛行機のセンサー、その他常にデータを収集している個人とは関係のないものを忘れないでください。データを生成およびアップロードする多数の電子デバイスにより、「モノのインターネット」という用語が生まれました。
世の中にはビッグ データの定義が複数あるため、何が含まれるかについて誰もが完全に同意しているわけではありませんが、コンピューター分析の対象となる可能性があるものは、誰もが知りたいと思われるものすべてです。そして、これらの大規模で扱いにくいデータセットには、それらを収集、保存、処理、分析するための新しい方法が必要です。
ビッグデータの分析と使用方法
ビッグデータを誰にとっても使えるようにするには、収集し、処理し、リンクし、解釈する必要があります。企業やその他の団体は、利用可能な膨大な量のデータをフィルタリングして、最も関連性の高いデータを取得する必要があります。幸いなことに、膨大な量の情報を処理、保存、分析できるハードウェアとソフトウェアは安価かつ高速になっているため、その作業に大規模で法外に高価なスーパーコンピューターはもはや必要ありません。一部のソフトウェアはよりユーザーフレンドリーになってきているため、データを解析するのにプログラマーやデータサイエンティストのチームが必ずしも必要ではありません (ただし、要件を理解できる知識のある人がいることは悪いことではありません)。
企業はクラウド コンピューティング サービスを活用しているため、データ処理を行うために独自のコンピューターを購入する必要さえありません。データ センター(サーバー ファームとも呼ばれます) は、処理するデータのバッチを複数のサーバーに分散でき、サーバーの数は必要に応じてすぐに増減できます。このスケーラブルな分散コンピューティングは、Apache Hadoop、MapReduce、大規模並列処理 (MPP) などの革新的なツールを使用して実現されます。 NoSQL データベースは、従来の SQL ベースのデータベース システムに代わる、より簡単にスケーラブルな代替手段として開発されました。
このビッグ データの処理と分析の多くは、意思決定に活用または使用できる洞察を提供するパターンと相関関係を見つけることを目的としています。企業は現在、消費者の習慣、自社製品の人気、より効率的なビジネス方法などに関する情報を得るために大量のデータをマイニングできるようになりました。ビッグデータ分析を使用すると、関連する広告、製品、サービスを購入する可能性が最も高いと思われる顧客をターゲットにしたり、一般の人々にアピールする可能性が高い広告を作成したりできます。企業は現在、最近クレジット カードを使用した場所に近い場所について、スマートフォンを介して人々にリアルタイムの広告やクーポンを送信するなどの取り組みを始めています。
ただし、それは私たちに物を買わせるためだけではありません。企業はこの情報を利用して、最も費用対効果の高い配送ルートを見つけたり、商品をより適切に在庫したりするなど、効率と実践を改善できます。政府機関は、交通パターン、犯罪、公共サービスの使用状況、その他の統計を分析して、政策決定と公共サービスを向上させることができます。諜報機関はこれを使用して、まあ、スパイし、できれば犯罪やテロ計画を阻止することができます。報道関係者は、これを使用してトレンドを見つけてストーリーを展開し、もちろん、ビッグデータに関する記事をさらに書くことができます。
本質的に、ビッグデータにより、企業はこれまでのように古い情報に主に依存するのではなく、ほぼリアルタイムのデータを使用して意思決定を行うことができるようになります。しかし、現在私たちに何が起こっているかを確認し、時には私たちの将来の行動を予測するこの能力は、少し不気味な場合があります。
ビッグデータ: 敵か味方か?
ビッグデータという概念は、私たちの多くを不安にさせます。それはオーウェルのビッグ・ブラザーによく似ています。そして、私たちが何をしているかを知っていると思われる企業からの広告や、最近のNSA国内スパイ行為の暴露を考えると、私たち全員に関する膨大な量の情報が出回っているのを不安に思う人がいるのも当然です。 。
人々はこのデータから、あなたの年齢、性別、性的指向、婚姻状況、収入レベル、健康状態、趣味、趣味、習慣、その他公にしたくないことや公開したくないことなど、あなたについて多くのことを知ることができます。知識。必要なのは、情報を収集して分析する手段と意志だけです。そして、それが良い意味であっても悪い意味であっても、予期せぬ結果をもたらす可能性があります。
私たちは、特にポイントカードを使用したり、クレジットカードやデビットカードで支払いをしたりする場合、取引先の企業に自分で思っている以上に多くの情報を提供しています。あなたの購入を分析するだけで、誰かがあなたについて多くのことを知ることができます。 Target は、購入しているサプリメントやローションの種類などから、どの顧客が妊娠しているか、さらには出産予定日がどの程度近づいているかを正確に特定できることが判明し、一部の報道を受けました。あるケースでは、ターゲット社が10代の少女にベビー用品のクーポンを直接郵送し始めたところ、彼女の妊娠を知るまで、年齢に不適切と思われる広告を彼女に送りつけた父親の怒りを買った。
政府やプライバシー擁護団体は、公に知られる情報について個人がある程度制御できるようにするために、人々の個人を特定できる情報(PII) の使用または開示の方法を規制する試みを行ってきました。しかし、予測分析は、企業がデジタル ソースから収集したさまざまな情報を使用して、間接的に、おそらく本人の知らないうちに、あなたに関する結論を導き出すことで、多くの既存の法律 (主に財務、医療、教育記録などの特定の種類のデータを扱う) を回避することができます。 。一部の企業は、この情報を、典型的な信用スコア以外のデータを使用して潜在的な顧客の信用度をチェックするなどの目的で利用しています。これは、見つけた内容とそれをどのように解釈するかによって、企業にとって良いことも悪いこともあり得ます。しかし、1 つの懸念は、この種の個人情報が、検出が困難な雇用、住宅、融資に関する差別につながる可能性があることです。さらに悪いことに、それは必ずしも完全に正確であるとは限りません。
ビッグデータに見られるパターンが誤解され、誤った決定につながる可能性もあります。他のツールと同様に、結果はすべて、それがどれだけうまく使用されるかによって決まります。たとえ数学が関係しているとしても、ビッグデータ分析は厳密な科学ではなく、人間の計画と意思決定がどこかに関与する必要があります。巨大なデータセットでは、何が重要で何が無視できるかを判断する必要があります。しかし、ビッグデータ分析をうまく実行すれば、企業に競争上の優位性をもたらすことができます。
このような分析は、不正行為との戦いなど、明らかに良いことに使用できます。銀行、クレジット カード プロバイダー、その他の金銭を扱う企業は、犯罪行為を示す異常なパターンを特定するためにビッグ データ分析をますます活用しています。個人のアカウントでは、珍しい商品の購入、顧客が通常は使わない金額、奇妙な地理的位置、または小規模なテスト購入の後に非常に高額な購入を行った場合などの危険信号をすぐに警告できます。同じ地域の異なるカードで同様の請求が行われるなど、複数のアカウントにわたるパターンも、企業に不正行為の可能性を警告する可能性があります。
膨大なデータセットは、科学的および社会学的研究、選挙予測、天気予報、その他の価値ある研究に役立ちます。ソーシャル メディアの投稿や Google 検索は、病気の発生場所を迅速に見つけるためにも使用されています。ですから、悪いニュースばかりではありません。潜在的な問題をすべて解決し、潜在的な危害から私たちを守る法律を施行するには、しばらく時間がかかるでしょう。それまでは、心配な場合は、現金での購入に戻り、自分自身について公表する内容を観察するとよいでしょう。それでも、私たちの誰もが完全にレーダーを無視するには、おそらくウサギの穴のはるか下にいます。
著者注: 「ビッグデータ」とは何ですか?
他のものと同様に、ビッグデータは良いことにも悪いことにも、そしてその間のさまざまな目的にも使用できます。私たちをターゲットにした広告やクーポンがあることは、便利な場合もあれば、非常に煩わしい場合もあります。そして、私たちが店でプラスチックをスワイプしたり、カードを使用したりするだけで、見知らぬ人が私たちのことを知ることができるのは、少なからず不安です。
ポイント カードは、私たちの買い物に関するデータを収集する方法だと常々思っていましたが、これまで、デビット/クレジットでの購入を通じて、どれだけ同様のデータが私たち個人に結び付けられているか、あるいは私たちの生活に関する信じられないほどの詳細がそれによって得られるということを、あまり理解していませんでした。そこから識別されます。そして、これには、インターネット上にある私たちに関する他のすべての情報さえ含まれていません。
自分の一挙手一投足が分析されると思うと、少し常識から外れて、オンライン投稿をやめて、すべてに現金を使いたくなりました。私を含め、ほとんどの人は便宜上このままでいくだろうが。監視されているかのように投稿したり購入したりするかもしれません。