2012/11/07

「オススメ能力」で大きな差をつけるビッグデータ・ユーザーの雄、ネットフリックスの事例 〜 ニューヨーク「Strata+HadoopWorld」会議から


「ビッグデータとクラウド・ストレージ」 連載第四回
イベント・企業編2: ネットフリックス映像配信を支えるS3
~ビッグデータ会議 ゆるめの報告


エノテック・コンサルティング代表
海部美知


◆ 「データ」に集まる人と熱気


10月23~25日、ハリケーン・サンディに襲われる直前のニューヨークで開催された「Strata + HadoopWorld」に参加した。Strataカンファレンスは、ウェブ業界の思想家ティム・オライリーが始めたもので、2011年から春(シリコンバレー)と秋(ニューヨーク)に開催されており、今回が4回目。これと、ビッグデータを扱うためのオープンソース・ソフトウェアHadoopのカンファレンスが今回は合同開催となった。

Strataの西と東では、少々傾向が違う。西はウェブ産業の議論が中心だが、東では政府、金融、メディアなどバラエティが多くなる。昨年は東はかなり規模が小さく、ホテルの半フロアに収まる程度だったものが、今年は倍以上のフロア規模になり、それでも人がぎっしりで、これ以上は消防法の限界を超えるということで3日前に参加申し込みは締め切られた。まだまだホテルでやっている程度の規模ながら、参加者は2500人程度とのことだ。

西でも東でも、昨年はコンセプト的な話が多く、キーノートに有名人が何人も登壇したのに対し、今年は「Hadoop World」と合同ということもあり、有名人どころかオライリー自身も講演せず、ひたすら「この技術をこう使う」といった、エンジニア向けの実践的な話が続く。それでも満員御礼ということが業界の熱気を示しており、また一方で、「データ・エンジニア/サイエンティスト」が極端な人手不足となる中、これだけのHadoopエンジニアが集まる会場は企業の垂涎の的で、スポンサー企業もたくさん集まる。いわば、一大リクルート・イベントになった感がある。

◆ ビッグデータ・ユーザーの雄、ネットフリックスの事例


さて、このStrata+Hadoop Worldや、Cassandra Summitといったビッグデータ系のカンファレンスでは、メイン・スポンサーであるソフトウェアベンダー(HadoopではCloudera、CassandraではData Staxなど)が最も目立つのは当然で、その次に存在感を示すのがグーグル、アマゾンなどのプラットフォーム・ベンダーである。

こうした提供側でなく、純粋に「企業ユーザー」としてどこにでも講演に招かれるメジャー・プレイヤーが、オンライン映画・テレビ番組配信サービスのネットフリックスである。今回もいつものように、ネットフリックスのエンジニアがワークショップで自社システム構築の苦労を語った。

ネットフリックスは、もとはネットでオーダーして郵送で受け取るDVDレンタルから始まり、その後徐々にオンライン・ストリーミングの比重を増やしている。現在、米国ではオンライン映像配信は数多く存在し、ネットフリックスの「固定会費制」、アップルiTunesの「個別番組ダウンロード販売」、Huluや地上波メジャー局の「CMつき無料配信」、ケーブル専門チャンネルの「テレビ有料加入者へのオマケ(TVEverywhereと呼ばれる)」が入り乱れ、それぞれビジネスモデルが異なるので単純な比較が難しいが、有料配信だけを見ると、最近ではネットフリックスがアップルを抜いてトップに立ったと言われている。

90年代の第一次バブル以来、数多くのオンライン映画配信が試みられてすべて失敗しているのに、ネットフリックスがなぜ成功したのか、これまでいろいろな説明がされている。その中で、DVDレンタルですでに数多くの会員を持っていたことと並び、「ビッグデータ技術を徹底的に活用したオススメの能力」がポイントであると私は思っている。

例えばグーグルとヤフーの検索結果は、素人目にはそれほど劇的に違わないように見えるが、この少しの違いが原因で長い間に少しずつグーグルを好むユーザーが増え、気がついたら大きな差がついていた。これと同じように、ネットフリックスも長い間に根気よくユーザーのデータを積み重ね、オススメ能力を少しずつ向上させてユーザーの利便を向上させ、気がついたら他とは大きな差がついた。

アメリカでも映画・テレビ業界の人は、「配信」の部分を電波やDVDでなくネットに置き換えるという部分しか理解していない傾向があるが、実際にはネット配信の最大の強みは、こうしたオススメ・検索・ソーシャルなどの「ネットのインテリジェンス」の部分であると私は思っている。そして、この頭脳を支えるのがビッグデータ技術だ。

◆ ユーザーデータからオススメへ


私自身はネットフリックスもHuluもアップルもケーブルのTVEverywhereもすべて使ってみているが、「オススメ」の精度とインターフェースでは、ネットフリックスは他とは比べ物にならない。他は提供側が見せたいモノ(ランキングトップ10、最新番組など)がフィーチャーされて、オススメはオマケであるのに対し、ネットフリックスの画面はすべて、パーソナライズされたオススメだけでほとんど埋め尽くされている。

今年春のStrataでの講演では、ネットフリックスがどのようなデータをどう使っているかの話があった。アカウントに登録されている情報(住所など)、過去の視聴履歴、見たコンテンツにつける評価のほか、ストリーミングならば、何月何日何時何分に何を見て、どこで止めて何分後に再開したとかやめてしまったとか、どの端末(パソコンかiPadかXboxか・・)で見たなど、さらに細かいデータがとれる。「オススメ」の最も一般的なやり方は、「この映画を見た人はこういうのも見ています」というものだが、こうした詳細情報を利用してもっと精度を高めている。

一つの例として、こんな話があった。ユーザーは普通、一家庭で一つのアカウントとなる。数人がそれぞれ好きなものをオーダーするので、好みの傾向が一貫しない。しかしネットフリックスでは、ユーザーの利用データをもとに、どういった家族構成かをほぼ把握することができる。週末の昼間Xboxでアニメーションを見るのは子供、平日の深夜近くにiPadでコメディ番組を見るのはお父さん、などとだいたい推測ができるわけだ。これに応じてオススメを出す。

もちろん、画面に「お兄ちゃん向けにはコレ」などと、ユーザーが気持ち悪くなりがちな表示はせず、「SFアクションのオススメ」「アート系外国映画のオススメ」「あなたの町のトップ映画」などのように上手に表現している。画面をあけると、思わず「あ、これちょっと面白そうかな」という映画やテレビ番組のポスターがすぐに目に入る。そして、ポスターをクリックすれば、その場でストリーミングで映画が見られるというわけだ。

◆ アマゾンS3でスケールアウト


ネットフリックスは、アマゾン・クラウドサービスの大口ユーザーであることも知られている。秋のStrataでの講演では「データセンターの管理はわが社の仕事ではない」ため、アマゾンのS3を利用していると説明があった。急速にユーザー数が伸びて処理量が爆発的に急増し、自社のデータセンターからあふれて新設が追いつかないために、2009年から2010年にかけて、ストレージだけでなく多くの処理をAWS(Amazon Web Service)に移行し、現在はほぼ100%クラウド化されている。クラウド移行前の2008年には7テラバイトだった同社のデータ量は、現在では160テラバイトになっているという。

S3は、映像データとユーザー行動データの両方に使われている。ユーザーからのオーダーはNOSQLデータベースCassandra(カサンドラ)で処理され、そのユーザーデータは一日に一度、取り出してS3に移す。余談ながら、ネットフリックスのチームはこの処理に大変苦労し、いい加減イヤになるほどだったので、この処理のための独自のツールを創りだし、それにAegisthus(アイギストス)と命名したそうだ。アイギストスとは、ギリシア神話でトロイアの悲劇の王女カサンドラを殺した人物の名前である。

S3に格納されたユーザーデータは、Hadoop系各種ツールを使って分析され、その結果はまたS3に格納される。S3は一般的には「Pay as you go(従量制)」と思われているが、ネットフリックスほどの大口では決まった使用量を常時確保できる契約になっている。西海岸の夜中には、ユーザーへの動画ストリームが激減するので、その空きを利用して、真夜中からバッチ処理を動かす。

講演では、「適切なツールを適切なジョブに」ということが強調されていた。どのようなビジネス形態であって、何が重要であるかにより、適したツールや技術は異なる。単にデータの量や企業規模ではなく、自社のニーズや優先順位をよく見極めて、ビッグデータ技術戦略を決めることが重要ということが言えそうだ。

ネットフリックスは、以前はORACLEでデータを処理していた

やがてS3にデータを格納し、Hadoopで処理を始める

Cassandraで処理したデータをS3に移行するAegisthusを開発


最後はお約束の"We're hiring!"・・


海部美知(かいふ・みち)

エノテック・コンサルティン グCEO(最高経営責任者)。ホンダを経て1989年NTT入社。米国の現地法人で事業開発を担当。96年米ベンチャー企業のネ クストウエーブで携帯電話事業に携わる。98年に独立し、コンサルティング業務を開始。米国と日本の通信・IT(情報技術)・新 技術に関する調査・戦略提案・提携斡旋などを手がける。シリコンバレー在住。子育て中の主婦でもある。ブログ:Tech Mom from Silicon Valley。Twitter ID:@MichiKaifu。 著書に『パラダイス鎖国 忘れられた大国・日本』(アスキー新書)がある。





Cloudian(クラウディアン)について

Cloudian(クラウディアン)は日本、米国、中国に拠点を持ちグローバルに展開しているソフトウェア開発会社クラウディアングループが開発提供するクラウドストレージを構築できるパッケージソフトウェア製品です。

Cloudianで構築するクラウドストレージは、事実上の標準であるAmazon S3互換のAPIを提供しており、数百から千種類に及ぶAmazon S3対応アプリケーション、ツール、アプライアンス、サービスを利用することができます。

Cloudianは、「ニフティクラウドストレージ」、NTTコミュニケーションズ「Bizホスティング Cloudn(クラウド・エヌ)オブジェクトストレージ」を始めとする国内外の商用クラウドサービスに採用されているほか、プライベート、ハイブリッドクラウドにおいても利用することができます。

Cloudianセミナー2012

2012年12月10日(月)Cloudianの使用事例について各社が紹介する「Cloudianセミナー2012」を開催します。登録開始までもうしばらくお待ちください!