2010/09/23

Cassandra Hands-on トレーニング開催のお知らせ

最近、日本にもおいても多くのメディアや各種勉強会などにおいて活発に紹介され、注目を集めているCassandraのHands-on トレーニングを開催します。
Geminiは自社開発の分散型KVSであるHibariをオープンソースとしてリリースしていますが、同時に米国シリコンバレーのR&Dにおいては、CassandraのAPIを利用してデモアプリを開発するなど、多くの経験を積み重ねています。
このたび、GeminiのグローバルR&D責任者であるGary Ogasawaraが来日する機会に、2日間夕刻2時間の計4時間のHands-on トレーニングを開催するものです。Hands-onのため10名程度の参加者にて実施することを計画しています。参加希望、お問い合わせはメールにてご連絡いただければ幸いです。概要は次のとおりとなります。


Cassandra Hands-on トレーニングの実施概要


日時: 2010年10月19日(火)と20日(水)の2日間、
    18時30分〜20時30分


場所: ジェミナイ・モバイル・テクノロジーズ株式会社会議室  
    (ジェミナイ・モバイル・テクノロジーズ 地図/住所)


講師: Gary Ogasawara 
(GeminiのグローバルR&D責任者、UCバークレー博士号取得後、検索最大手であったInktome社などにおいて15年以上に及ぶ開発マネジメント経験)


参加者数: 10名程度を募集

トレーニング概要:

目的:計4時間のHands-onトレーニングにより、参加者自身のコンピュータを利用してパフォーマンス・ベンチマーク(YCSB)を動かし、単純なTwitter類似のアプリケーションを開発することを通じてCassandraの初歩的な利用について学びます。

要件:
  • LinuxかMac OS XのノートブックPC
  • Java, C++, Python・・・などにおける開発経験(初歩的な経験で大丈夫です)
  • エンジニアレベルの英語 (トレーニングの大半は英語で行いますので聞き取りができることが必要です。ただし、日本におけるコミュニケーション経験豊富ですので、流暢である必要はありません)
アジェンダ:
  • Cassandra Basics (1時間目)


    • Non-relational DBs overview
    • Cassandra architecture
    • Cassandra data model


  • Cassandra setup and benchmarking (2時間目)


    • Setup: Install necessary software.
    • Configuration: Review different configuration settings.
    • YCSB benchmarking: Run simple benchmarks using YCSB.


  • Hands-on Twitter-like application (3、4時間目)


    • Building Twitter-like application
    • JMX, logging.


お問い合わせとお申込み

  • 以下のメールアドレスにご連絡ください。

  bigdata@geminimobile.com

 
 その他

  • 先着順とさせていただきます。
  • トレーニング前にCassandraのインストール方法など事前準備資料をお送りいたします。
  • トレーニング前後にアンケートを実施させていただきます。

ご不明点など、ご遠慮なくお問い合わせください。
お問い合わせ、お申込みを心よりお待ちしております。




2010/09/17

「クラウド育ち」のOSS、主役に

2010年9月15日発売の日経コンピュータ誌の特集「クラウド育ち」のOSS、主役に」において、Hibariが紹介されました。


Hibariは「クラウド育ち」の新型OSSがユーザー企業にもたらすメリットとして、「ハードウェア障害が起きても”落ちない”データベースシステムを運用できる」活用ソフトとして、「Cassandra」「Voldemort」とともに紹介されています。

また、日本企業からも登場し始めた「クラウド育ち」のOSSとして、

「Hibariは元々、ネット企業や通信事業者向けに開発したソフトだ。日本国内大手ネット事業者が提供するWebメールのストレージとして採用された実績がある。中国の大手通信事業者であるチャイナモバイルやチャイナユニコムもHibariを利用する」に加え、

「OSSとして公開して、まずは様々な企業に使ってもらおうと思った」と紹介されています。

多くの誌面に紹介していだだき心から感謝しているところですが、OSSとして公開した理由については、もう少し付け加えたいことがありました。

(1) エコシステム
OSSとして公開することにより、Hibariというデータベースを取り巻くエコシステムを作りたいと考えました。これはすでに動き始めているという実感があります。HibariはLinuxのRed Hat、Cent OS、Fedora LinuxをOSとしてサポートしてきました。それは利用していただいているユーザーの環境に合わせるためです。しかし、OSSとして公開した直後から、Debian、Ubuntu、さらにはMac OS Xも利用できるように、次々とパッチが送られてきています。このおかげで、さらに多くのOS環境から利用できるようになります。今後はクライアントAPIの言語においても、いろいろな言語から利用できるようになるとうれしいと考えています。

(2) チェイン・レプリケーション
Hibariは、結果として整合性が保たれるという「結果整合性」ではなく、リクエストに対し更新を確認済みのデータを必ずリプライする「強い一貫性(Strong Consistency)」を提供するため、チェイン・レプリケーションという技術を実装しました。このチェイン・レプリケーションについて、いくつかの論文は発表されていますが、商用システムにおいて実装されたという事例はいまのところ発見できていません。おそらく、世界初であろうと考えています。OSSとして公開することにより、このチェイン・レプリケーションの実装方法をレビューしてもらい、今後のNoSQL技術の進化に貢献したいとも考えました。

(3) Big Dataアプリケーション
Hibariはデータベースです。そのため、このデータベースを利用するアプリケーションが必要です。HibariはWebメールのために最適化されていますが、これからのBigDataの時代には、想像を超えた広範囲な分野で活用される可能性があるのでは無いかと考えました。そんなユーザーに近いアプリケーションを開発している方々に、気軽にHibariを利用してもらえれば、Big Dataのアプリケーションに対する新しい領域が見えてくるのではないかと思いました。

このような理由も含め、HibariをOSSとして公開しました。しかし、実際にOSSとして公開してみると、公開前には想定していなかった効果が顕著になってきました。

それは、世界中からHibariのダウンロードがあり、さまざまな国々の方々から問い合わせをいただいているという点です。たとえば、ドイツ、英国、ウクライナ、ロシア・・。渋谷から半径何キロメートルから、ある日突然、世界に視野が広がったという感じです。

もっともっとHibariの知名度があがるようになれば、さらに想定していなかった効果があるのかもしれません。それは本当に楽しみです。



2010/09/05

Hibari presentations in Chicago

去る8月25日、ChicagoのおけるErlangユーザーの集まりであるChicago Erlang User Groupにおいて、2時間に亘り、HibariについてのTech talkが開催されました。かっての同僚である開発者が説明しています。その模様が、ブログに掲載されましたのでご紹介いたします。


ブログ:http://www.snookles.com/slf-blog/2010/09/04/hibari-news-presentations-in-chicago-and-tokyo/



ビデオは2時間あり、見ごたえがあります。前半の約45分は、以前ご紹介したHibariの日本語プレゼン資料の一部を利用していますので、内容は解りやすいかもしれません。後半は、英語版になりますが、HibariのReadmeをご覧いただければフォローしやすいと思います。


ビデオ:http://blip.tv/file/4052356/

Hibari Developers Guide: http://hibari.sourceforge.net/hibari-developer-guide.en.html


そのほか、質疑などの雰囲気も楽しめるかもしれません。前半の説明の終了時に当日プレゼンで利用している資料はGeminiの承認を未だ得ていないのでビデオで公開するのはどうする?・・・。ものすごく低い解像度で公開したら・・(笑)のようなやりとりも見られます。


2010/09/02

NoSQLについて知るべき10の事柄

 このブログは技術的に深い内容をお伝えするのではなく、Big Dataにすでに直面しているが気が付いていない、気が付いているがその解決の糸口を探している・・・、という方々に読んでいただければと考えています。すでにBig Dataの問題に直面している方々は、ノン・リレーショナル、NoSQL、KVSといったリレーショナル・データベースではない解決方法について、よく理解されていると思います。 

 しかし、Big Dataの問題に直面しながらも、NoSQLの課題のみに囚われているという方もいるのではないでしょうか(とはいえ、そういう方々がこのブログを発見することは無いと思いますが)。私たちも、つねにNoSQLには課題があるが、Big Dataの時代にはリレーショナル・データベースではできないことができる。これを組み合わせて利用する時代になるとお伝えしています。 つい先日、”10 things you should know about NoSQL databases"というブログ記事を発見しました。 とても良くまとまっていますので、以下に日本語でご紹介することにします。

 (以下、翻訳)
  リレーショナル・データベースモデルは、数十年に亘り、優勢でした。しかし、NoSQLとして知られる、新しいタイプのデータベースが、企業において注目を集めています。ここでは、その長所と短所の概要を述べてみます。 この四半世紀の間、リレーショナル・データベース(RDBMS)はデータベース管理の最有力なモデルでした。しかし、最近では、ノン・リレーショナル、「クラウド」、または「NoSQL」データベースが、データベースマネジメントにおける代替モデルとして、マインドシェア(顧客の心の中における特定ブランドの占有率)を高めています。この記事において、私たちは、これらのノン・リレーショナル NoSQLデータベースの10の重要な点を見てみます。すなわち、トップ5の優位点と、トップ5のチャレンジです。 

NoSQLの5つの優位点 

1:柔軟な拡張性
  数年間に亘り、データベース管理者は、「スケールアウト」 - 負荷が増大するに伴い複数のホストにまたがりデータベースを分散する – ことよりも、むしろ「スケールアップ」 - データベースの負荷が増大するに伴い、より大きなサーバーを購入すること – に頼ってきました。しかし、トランザクションレートや可用性への要求が高まり、データベースがクラウドや仮想空間に移行するに伴い、汎用ハードウェアによるスケールアウトの経済的優位性は文句の言えないものとなってきました。 RDBMSは汎用クラスター上において容易にスケールアウトはできないですが、NoSQLの新種のデータベースは新しいノードの利点を、明らかに活かすように設計されています。そして、それらは、通常、低コストの汎用ハードウェアを念頭に置いて設計されています。 

2: Big data
   トランザクションレートが過去十年間の認識を超えて成長するにつれ、格納されているデータの量もまた膨大に増加してきました。オライリーは、これを「データの産業革命」と賢く呼んできました。RDBMSの容量はこれらの増加に合わせて増えてはいますが、トランザクションレートと同様に、単一のRDBMSで実質上管理できるデータ量の制約は、いくつかの企業で耐え難いものとなってきています。今日では、HadoopのようなNoSQLで取り扱える「big data」の量は、最大のRDBMSで取り扱える量を超えています。

 3:さようならDBAs (また会いましょう?) 
  数年間に亘るRDBMSベンダーにより主張されてきた多くの管理面での改善にもかかわらず、ハイエンドのRDBMSシステムは、高価であり、高度に訓練されたDBAs(データベース管理者)の支援によってだけ維持できます。DBAは、設計、設置とハイエンドRDBMSシステムの継続的なチューニングに密接に関わっています。 NoSQLデータベースは、一般的に、より少ない管理 ― 理論的には、自動修復、データ分散、そして、より少ない管理とチューニング要件 ― を根本から満たすように設計されています。実際のところ、DBAの死という噂は少し誇張されすぎているでしょう。誰かは常にミッションクリティカルなデータストアのパフォーマンスや可用性について責務を負うのでしょう。

 4:経済性 
  NoSQL データベースは典型的に、爆発的なデータとトランザクション量を管理するために安い汎用サーバーのクラスターを用います。その一方で、RDBMSは高価で専有型のサーバーやストレージシステムに頼る傾向があります。その結果、より安い価格でより多くのデータを格納し処理することにより、NoSQLにおけるギガバイトあたりのコストやトランザクション/秒は、多くの場合、RDBMSのコストよりも低くなりえます。

 5:柔軟なデータモデル
  マネジメント変更は、大規模に稼働するRDBMSにとって、かなりの頭痛の種です。RDBMSのデータモデルに対するわずかな変更でさえ、注意深く管理されなければなりませんし、ダウンタイムやサービスレベル低下が起こりえます。 NoSQL データベースは、― すなわち、実在さえしない ー データモデルの制約をはるかに緩やかなものとしています。NoSQLのKey Value storeとドキュメントデータベースは、アプリケーションを、データ構成部分のなかで、それが望むどのような構造にも仮想的に格納することを許しています。もっとも厳格に定義されるBig TableベースのNoSQLデータベース(Cassandra、HBase)でさえ、多すぎる混乱もなしに新しいコラムが作られることを概して許しています。 その結果、アプリケーションの変更やデータベーススキーマの変更は、ひとつの複雑な変更の単位として管理される必要が無くなります。理論的には、仮にアプリケーションがデータの整合性の管理に失敗する場合には、明らかに望ましくない副作用がありうるものの、このことは、アプリケーションをより速くさせるでしょう。


 NoSQLの5つのチャレンジ 


  NoSQLデータベースへの期待は、多くの熱狂を生み出してきました。しかし、それらがエンタープライズの主流と言われるようになる前に、克服するべきいくつかの障害があります。

 1:成熟性
  RDBMSシステムは昔からあります。NoSQL擁護派は、その進んだ年齢は退行のサインと主張するでしょう。しかし、多くのCIO達にとって、RDBMSの成熟度は安心を与えています。大部分において、RDBMSシステムは安定的で、リッチな機能があります。比較して、多くのNoSQL代替は、多くの主要機能がこれから実装されるプロダクション前の状態にあります。 技術的な最先端に生きることは、多くの開発者にとってエキサイティングなことですが、企業は相当に警戒してそれに接近するべきです。 

2:サポート
   企業は、仮に主要システムに障害が起きた場合に、タイムリーで有能なサポートを得ることができるという安心を望みます。 対照的に、多くのNoSQLシステムはオープンソースプロジェクトであり、通常、それぞれのNoSQLデータベースに対してサポートを提供するひとつかふたつの企業があるものの、これらの企業は、たいてい、オラクル、マイクロソフトやIBMのようなグローバル展開や、サポートのリソース、信頼性の無い小さなスタートアップ企業です。

 3:分析とビジネスインテリジェンス
  NoSQLデータベースは、最近のWeb2.0アプリケーションのスケール要求に合うよう進化してきています。結果として、それらの機能セットのほとんどは、これらのアプリケーションの要求に基づいています。しかし、あるアプリケーションのデータは、典型的なWebアプリケーションの挿入-読み出し-更新-削除というサイクルを超えたビジネスに価値があります。これらの効率性と競合性、そしてビジネスインテリジェンス(BI)を改善する企業データベースにある企業の鉱山情報は、すべての中堅、大企業にとっての主要なIT課題です。 NoSQLデータベースはアドフォッククエリや分析への容易性はほとんど提供しません。単純なクエリでさえ、かなりのプログラミング専門性を必要としますし、普通に利用されるBIツールはNoSQLへの接続性を提供しません。 やや助かるのは、HIVEやPIGといったHadoopクラスター、またはおそらく結果的に他のNoSQLデータベースにあるデータへの簡単なアクセスを提供するようなソリューションが現れてきたことです。 

4:管理
  NoSQLにとっての設計ゴールは、全く管理しないソリューションを提供することかもしれません。しかし、最近の現実はそのゴールに全くもって足りていません。今日のNoSQLはインストールするために多くのスキルや維持するために多くの努力を要します。 

5:専門性
   RDBMSのコンセプトやプログラミングを熟知した開発者は、世界中、そしてあらゆるビジネス領域に文字どおり数百万います。対照的に、ほとんどすべてのNoSQL開発者は、学習モードです。この状況は、時間とともに自然と解決するでしょう。しかし、いまのところ、NoSQL専門家よりも、経験豊かなRDBMSプログラマーや管理者を見つけることのほうが、はるかに簡単です。 

結論
  NoSQLデータベースは、ますますデータベースのランドスケープの重要な部分になりつつあります。そして、適切に利用されたときには、本物の利益をもたらすことができます。しかしながら、企業はこれらのデータベースにある合理的な制約と課題を完全に認識するという慎重さを持って進むべきでしょう。(以上、翻訳)

  いかがでしたでしょうか。前半の優位点はNoSQLの擁護派の方々の声が大きくなるにつれ、これからさらに目立つようになる主張だろうと思います。一方の、チャレンジの部分は、そのとおりと思う部分もありますし、その課題をクリアしようとしているとお伝えしたい気持ちもありますが、このようなフェアな視点が大事だと思い、ご紹介いたしました。ご参考になれば幸いです。