2015/03/18

HadoopとCLOUDIAN HyperStoreを連携して活用

本年2月と3月、日米でそれぞれ「CLOUDIAN HyperStore とHadoopとの連携」と、Hadoopの商用サポートを提供する米Hortonworksから相互接続性の公式認定を取得したことについて発表しました。インタビュー記事も含み、たくさんのメディア記事で紹介されたことは、先のブログでお伝えしたとおりです。

この発表を受け、「どのような場面で連携して使えば良いのか?」といったお問い合わせをいただいています。英語版にはなりますが、その説明資料をスライドシェアにアップしましたのでご紹介します。



ここでは、3つの代表的な利用方法について説明しています。
  1. 【Simpleに活用】頻繁に分析に使うデータはHDFS(Hadoop Distributed File System)に格納しておき、たまに使う、若しくは使うかもしれないデータはCLOUDIAN HyperStoreに格納しておくことができます
  2. 【Back upに活用】HDFSでは、データを自動的に3複製することで、仮にひとつのサーバが故障したとしても、データを喪失しないようデータ保護がされています。しかし、ひとつのデータセンター内での利用が前提であり、このデータセンターが被災すれば、HDFSに格納されたデータも失われます。CLOUDIAN HyperStoreも併せて利用すれば、別のデータセンターにデータをバックアップすることが可能となります
  3. 【Tieringに活用】同様に、ある一定期間を経たデータや、利用頻度の低いデータは、HDFSから自動的にCLOUDIAN HyperStoreに転送し階層化しておくことができます。これにより、本来は分散計算処理(コンピューティング)のためのサーバを、格納データが一杯になるが故に増設し、結果として何台にもなってしまうということを避けることができます
HDFSに格納したデータは、Hadoop分析以外の目的で利用する場合には、別のストレージに移す必要が生じます。つまり、余分な追加ストレージ容量が必要になるということです。それが、わずかなデータ量であれば良いですが、いわゆるビッグデータ分析のために蓄えたデータとなると、たとえば100TB以上のデータ量であり、それなりのコストを覚悟しなければなりません。

このひとつの解決策は、CLOUDIAN HyperStoreを企業の「共通ストレージ基盤」とし、あらゆるデータ(特に、非構造化データ)を格納しておくという方法です。CLOUDIAN HyperStoreであれば、複数の利用者が共有できるマルチテナント機能が備わっていますので、格納したデータはHadoop分析のためだけではなく、他部門のデータも併せて格納できる共通ストレージになります。部門毎で個別にストレージ装置を購入して別々にデータを格納した結果、データやストレージが「サイロ」状になることも避けることができます。そんな利用例も最後にご紹介しておきます。