2010/06/28

BIGDATAを処理する技術の性能比較をしてみると


さて、CAP定理による分類に続き、性能比較をしてみます。この性能比較は、Geminiのラボにおいて実施し、GoogleBigTableの論文の比較方法に基づき、データは次のオープンソースの性能比較ソフトを利用しています。
(org.apache.hadoop.hbase.PerformanceEvaluation.)

そして、5台のPCサーバーを利用し、処理性能を測定しました。ここでは、100万リクエストの場合のランダムの書き込みと読み込みの結果をご紹介します。X軸は、キーに対応するバリューのサイズを1KB、10KB、20KBの3つのケースを表しています。Y軸は、1秒あたり、ノードあたりのスループットで単位はMBです。

この結果を見ると、Cassandraは、全般的に読み込みよりも書き込みの処理能力が優れるよう最適化されていることがわかります。




 次のグラフは、同様の条件におけるHBASEの性能です。HBASEは、比較的小さなバリューサイズに優れていることがわかります。









 3つめのグラフはHibariを同様の条件でテストしてみた結果です。Hibariは大きなバリューに優れており、また、書き込みよりも読み込みに最適化されています。




 これは、Hibariは、SNSやCloud(Web)メールにおいて写真や画像などの大きなファイルがあることを前提に、テクストだけの小さなデータから、添付ファイルなどを伴う大きなデータサイズまでを一定の処理性能を提供するよう開発されており、結果として、HBASECassandraと比較した場合に、大きなデータサイズの処理性能に優れるという結果となりました。