2010/06/25

BIGDATAを処理する技術の課題と解決方法は?


 この分散型によりBIGDATAを扱う技術には課題もあります。

 図に示すように、複数のPCサーバーにデータの複製(レプリカ)をストレージ(格納)するため、データの書き込み(更新)があった場合、データを読み込むタイミングによっては、更新前のデータを読み込んでしまう場合があります。



 このような状態を、データの一貫性(Consistency)が無いと言います。

 Geminiは、この分散型の課題である一貫性(Consistency)を保証するキー・バリューストアであるHibariを開発し、商用として提供しています。この一貫性を保証するために、チェイン・レプリケーションという技術を実装しました。

 このチェイン・レプリケーションは、複数(この例では3台)のPCサーバーを、1つのチェインとして、そのチェインにデータを複製(レプリカ)します。そして、このチェインにある3つのPCサーバーに格納されるデータのブリック(塊)をHeadMiddleTailとして、書き込みは常にHeadから行い、読み込みは、常Tailから行います。このアルゴリズムにより、複数のPCサーバーにデータが複製(レプリカ)されている場合にも、更新前のデータが読み込まれることが無いという、強い一貫性(Strong Consistency)を保証するというものです。