2012/09/18

ネットにおける脳の高度な知的活動が「ビッグデータ」




ビッグデータとクラウドストレージ」連載第1回
トレンド編1: データ爆発とビッグデータの時代

エノテック・コンサルティング代表
海部美知



◆ アナログ・データとデジタル・データ



人類はその数千年にわたる歴史の中で、膨大な「アナログ・データ」を蓄積してきた。玄奘法師の持ち帰った経典、写本された源氏物語、グーテンベルクが印刷した聖書から、現代の膨大な数の書籍・書類・写真・絵画・図表・音楽レコード・ビデオテープまで、考えていくと非常に多彩なアナログ・データがあり、現在でも日々刻々増えている。

一方、近年はデジタル・データが爆発的な勢いで増えているのはご存知のとおりだ。今や、映像も音楽も書籍も写真も、個人の通信も、デジタルのほうが普通になった。

では、全世界に存在するデータを、アナログとデジタルに分類すると、どちらのほうが多いと思われるだろうか?

その答えは、「いつ時点か」による。コンサルティング会社マッキンゼーが2011年5月に出したビッグデータに関するレポート があり、この中に「全蓄積データに占めるデジタルデータの比率」グラフ が掲載されている。これによると、さすがに人類数千年の歴史の蓄積で、2000年時点ではアナログが75%と圧倒的に多い。しかし2007年には、なんとデジタルが94%となり、わずか7年の間に奇跡の大逆転が起こった。人類ウン千年の蓄積を数年でデジタルデータが追い越し、はるかに抜き去ったというわけだ。

アナログとデジタルのデータ比率
(McKinsey Global Institute, Big data: The next frontier for innovation, competition, and productivity May 2011 by James Manyika, Michael Chui, Brad Brown, Jacques Bughin, Richard Dobbs, Charles Roxburgh, Angela Hung Byers に基づきクラウディアンが作成。統計数字はサイエンス誌のヒルバートとロペスの論文から引用されており、数字の根拠は、実際のデータ量ではなく、「ストレージ」の大きさを推定してバイト数で表したもの。)

デジタル技術は80年代のパソコン時代から徐々に立ち上がり、90年代にはインターネットバブルが起こった。この時期にすでに、手紙は電子メール、写真はデジカメ、音楽はCD、映像はDVDに変わった。それでもまだ2000年にはアナログのほうが圧倒的に多かったのに、それがここ10年でこれほどまでに爆発的にデジタル・データが増えたというのは、一体どういうことだろうか。


◆ バブル崩壊が生み出した「ユーザー生成コンテンツ」


1990年代に登場したインターネットは、一番最初は「メール」という手紙の代替手段として広まり、その次は「カタログ」の代替としてのEコマースや、「新聞・雑誌」の代替としてのポータルサイトが登場した。この頃はまだ、ネットのスピードも遅く、技術も未熟だったので、専門の会社が「カタログ」と製品の配送や、「新聞」記事の執筆・編集などをやり、それをネットを通じてユーザーに「片方向」で届けることが主体であった。

このネットバブルに乗って大量のインターネットのインフラが建設されたが、2000年のバブル崩壊で需要が激減して大幅な供給過剰となり、回線やデータセンターなどの価格が暴落した。

その後、大幅に安くなったインフラを使って、新しいネット産業が、焼け跡の中から立ち上がった。ラリー・ペイジとサーゲイ・ブリンが、スタンフォード大学で検索エンジンの小さな会社を始めたのは1998年、グーグルが上場して大騒ぎになったのが2004年であり、グーグルはバブルの焼け跡の中で成長した。
この時期以降の新しいネット産業は、その後「ウェブ2.0」と呼ばれるようになる。これらは、メールやEコマースのような「既存の何かの代替」という発想ではなく、コスト構造も従来の仕組みとは全く違う、ネットでなければできないサービスであった。

ウェブ2.0とは、「カタログ」や「新聞」のような片方向の情報の流れではなく、ユーザー側からもさまざまな情報がシェアされたりフィードバックされたりする「双方向」になったウェブ上のサービスのことだ。ジャーナリストでもない一般人がブログで文字や写真をアップして情報発信したり、自分用につけるブックマークやタグを他の人とシェアしたりすることが可能になり、ユーザーが自ら進んで公開したデータがネット上にたくさん吐き出されるようになった。2005年には、ユーザー生成コンテンツの最高峰ともいえる、ユーチューブがサービスを開始した。

90年代には、特定の「提供者」がもっぱらデジタルデータを作っており、個人ユーザーはせいぜいメールを書く程度だったものが、ウェブ2.0以降、膨大な数の個人ユーザーが、デジタルデータを紡ぎだし、それがネットの中に集積されるようになった。

◆ クラウドにデータが集まって「脳」になる


グーグルの当時の会長だったエリック・シュミットが「クラウド・コンピューティング」という言葉を講演で使って話題になったのは、2006年のことだった。クラウド・コンピューティングとは、手元のコンピューターではなく、インターネットの中に、データやアプリケーションを置いて使う仕組みや考え方のことである。ネットワークの仕組みを絵で表すとき、インターネットは「雲」の形で表現されることが多いため、「雲のコンピューター」と名づけられた。この考え方そのものはかなり以前から構想されていたが、ネットの信頼性向上や、ユーザーがストレスなく使えるブロードバンドの普及などにより、環境がこの頃ようやく整ってきたために可能になった。

まずデータがアナログからデジタルになり、さらに各ユーザーのコンピューターではなく、クラウドにデータが公開されると、雲の中だけでいろいろな種類のデータを集めて、意味を取り出したり並べ替えたりすることができるようになり、データの「活用」が容易になった。もちろん、こうしたデータを利用するには、データを保有している各サービス提供者の合意やそのための仕組みが必要だが、それでも以前と比べれば格段に簡単に、データを集められるようになった。

80年代に単体のコンピューターだけが散らばっていた頃は単細胞生物だったものが、90年代にインターネットでつながってまず「神経」だけを持ったミミズのようなものになり、それがさらに進化して、2000年代には神経が集中する人間の「脳」がついにできたのである。

そして、このネットにおける脳の高度な知的活動が、「ビッグデータ」と呼ばれる技術群と考え方である。人間の脳は、情報を蓄積しておくストレージ容量が大きく、また情報がたくさん蓄積されていればいるほど、それを使った脳の活動が高度かつ盛んになり、高度なことができれば面白いからますます情報を吸収して貯めこんでいく。育ち盛りの子供がどんどん新しいことを覚えていくように、クラウドがデータを吸い込み蓄積する速度がどんどん加速する。

ビッグデータそのものの技術や考え方は、科学技術や金融などの世界では以前から使われているが、データ爆発の起源とその後の新しいビッグデータの潮流は、このように「クラウド」へのネット産業の動きが引き起こした。

◆ ソーシャルとモバイル


クラウドの「脳」に集まるデータの流入をさらに加速したのが、2007年頃からの「ソーシャル+モバイル」のコンビだ。

ウェブ2.0の流れを受けてさらに進化したものが、よりパーソナルな情報の流れを重視したソーシャル・ネットワーク・サービス(SNS)だ。初期の頃、アメリカならマイスペース、日本ならミクシィなどのSNSが人気を集めていたが、本格的な「ソーシャル・ブーム」の到来は、フェースブックとツイッターが広く知られてユーザーが急増し始めた2007~8年頃と言ってよいだろう。

フェースブックは、大学の学生同士が使う顔写真入りの学生名簿から始まったサービスで、ユーザーは自分の言いたいことや撮った写真などをネットにアップし、お互いに「友達」として登録した相手だけがこれらのコンテンツを見られる。オープンなメディアとしての性格が強いブログと比べ、クローズドな関係内だけで利用できることが新鮮であった。

これに対し、ツイッターは「マイクロ・ブログ」とも称されるように、ブログのように公開を前提としたサービスで、書き込める文字数が最大140字までという点が大きな特徴である。一見不便に見える文字数の制限が、実は一覧性が高いとか、書くほうも気軽に書けるなど、意外にメリットがあり、多くのユーザーに支持された。自分のウェブ画面には、自分が「フォロー」している人たちの書き込んだことが表示されるが、フォローするのに相手の承認は必要なく、オバマ大統領だろうがハリウッドのスターだろうが、勝手にフォローしてもOKなのが、フェースブックとは違う楽しみである。

ソーシャルとちょうど同じ頃に出現し、さらなる「燃料投下」をしたのが「モバイル」で、ソーシャルとモバイルは、相互に勢いをフィードしながら「両輪」として発展した。

日本では、iモードの頃から携帯電話に便利な機能がたくさん備わり、ネット接続もされていたが、アメリカでは、誰でも携帯で文字を打つようになったのは2000年代半ば、それ以上の高等なモバイル・ネットの利用は本当にごく最近の現象である。

最初に流行したのは、携帯でメールをやりとりする「ショート・メッセージ・サービス(SMS、テキスティングとも呼ばれる)」であった。テキスティングは、厳密に言えば音声電話と同じネットワークを使い、電話番号あてに音声の代わりに文字の信号を送るもので、インターネットを使っているわけではない。しかし、とにかく「携帯で文字が打てる」ということを広い層のアメリカ人が認識し、本格的に利用するようになったきっかけはこれであった。ちなみに、ツイッターの書き込み制限が「140文字」となっているのは、このテキスティングの文字数制限が140文字であることに由来しており、さらにテキスティングの140文字制限は「ハガキ」に書かれる標準的な文字数に由来すると言われている。

そして2005年にブラックベリーによる第一次スマートフォン・ブーム、2007年にiPhoneによる第二次スマートフォンブームが到来する。いずれもカメラとアルファベットのキーボードが使えるので、撮った写真をその場でフェースブックやツイッターにコメントつきでアップすることができる。このお手軽感は、それまでのアメリカにはなかったもので、若いユーザーは熱狂した。これが可能になったのは、この頃には3G携帯ネットワークがほぼ行き渡り、モバイルからでもストレスなく写真をアップロードできるようになったという背景もある。

スマートフォンは、閲覧のための画面としてはパソコンに比べて制約が大きいが、写真・動画+テキスト+音声のどれでも「入力」ができるという大きな強みがある。いつも手元に持っているパーソナル端末でもあり、場所も時間も制約なく利用できる。一般ユーザーでも手軽に複数メディアを入力できることで、ソーシャル・ネットワークの裾野が一気に広がり、データのアップロードが一気に増大したのである。ブログ時代と比べ、「ソーシャル+モバイル」時代には、コンテンツを作成してネットにアップする人の数は、世界中でざっと二桁ほど増えただろう。

◆ ビッグデータ力という差別化要因


こうして蓄積されたデジタルデータは、多くのネット事業の原材料として使われている。ビッグデータを使った絞り込みと予測のおかげで、有効・正確に、キーワード検索ができたり、ユーザーに合わせた広告を表示したり、いかにも欲しくなりそうな商品をリコメンドしたりできる。この力のおかげで、検索広告・レコメンデーション・フリーミアム・会員制サービスなどといったウェブ2.0以降のネットビジネスでマージンを生み出せるようになり、産業として成立した。

これらは原料となるデータが大きければ大きいほどより正確な結果を引き出すことができ、また一方で、より正確な結果を引き出すための技術力も勝負どころとなる。

グーグル、アマゾン、フェースブック、ネットフリックス、リンクトインなど、「ウェブ2.0」時代以降に成功しているネット企業の多くは、こうしたビッグデータの力をうまく活用しており、またそのための技術力とデータを効率的に集める仕組みを持っている。星の数ほどもあるネット企業の中で、これらの企業が勝ち抜いてこられたのは、より正確にユーザーのニーズに応えるための「ビッグデータ力」が原動力となっているのである。


海部美知(かいふ・みち)


エノテック・コンサルティン グCEO(最高経営責任者)。ホンダを経て1989年NTT入社。米国の現地法人で事業開発を担当。96年米ベンチャー企業のネ クストウエーブで携帯電話事業に携わる。98年に独立し、コンサルティング業務を開始。米国と日本の通信・IT(情報技術)・新 技術に関する調査・戦略提案・提携斡旋などを手がける。シリコンバレー在住。子育て中の主婦でもある。ブログ:Tech Mom from Silicon Valley。Twitter ID:@MichiKaifu。 著書に『パラダイス鎖国 忘れられた大国・日本』(アスキー新書)がある。






Cloudian(クラウディアン)について

Cloudian(クラウディアン)は日本、米国、中国に拠点を持ちグローバルに展開しているソフトウェア開発会社Cloudianグループが開発提供するクラウドストレージを構築できるパッケージソフトウェア製品です。

Cloudianで構築するクラウドストレージは、事実上の標準であるAmazon S3のAPIに完全準拠しており、数百から千種類に及ぶAmazon S3対応アプリケーション、ツール、アプライアンス、サービスを利用することができます。

Cloudianは、「ニフティクラウドストレージ」を始めとするクラウド事業者の商用クラウドサービスに採用されているほか、プライベート、ハイブリッドクラウドにおいても利用することができます。