利点#

スケーラビリティ: データ量が増加しても、シャードを追加することで簡単にスケールアウトできる
パフォーマンス: データが複数のサーバーに分散されるため、クエリ処理のパフォーマンスが向上する
可用性: 一つのシャードが故障しても、他のシャードが存続するため、可用性を向上できる

種類#

キーベースシャーディング#

データのキーに基づいてシャードに割り当てる

Python

1
# キーベースシャーディングの例
2

3
def get_shard_id(key):
4
    # ハッシュ関数を使用してキーに基づいてシャードIDを計算
5
    return hash(key) % num_shards
6

7
# データベースへのアクセス
8
def get_data(key):
9
    shard_id = get_shard_id(key)
10
    shard = shards[shard_id]
11
    # シャードからデータを取得
12
    return shard.get(key)
13

14
# データベースへの書き込み
15
def set_data(key, value):
16
    shard_id = get_shard_id(key)
17
    shard = shards[shard_id]
18
    # シャードにデータを設定
19
    shard.set(key, value)
20

21
# シャードのリスト
22
shards = [
23
    # シャード1
24
    ...,
25
    # シャード2
26
    ...,
27
    # シャードN
28
    ...,
29
]
30

31
# 使用例
32
key = "user_123"
33
value = {"name": "John Doe", "age": 30}
34

35
get_data(key)
36
set_data(key, value)

レンジベースシャーディング#

データの値の範囲に基づいてシャードに割り当てる

Python

1
# レンジベースシャーディングの例
2

3
def get_shard_id(value):
4
    # 値の範囲に基づいてシャードIDを計算
5
    if value < 1000:
6
        return 0
7
    elif value < 10000:
8
        return 1
9
    else:
10
        return 2
11

12
# データベースへのアクセス
13
def get_data(value):
14
    shard_id = get_shard_id(value)
15
    shard = shards[shard_id]
16
    # シャードからデータを取得
17
    return shard.get(value)
18

19
# データベースへの書き込み
20
def set_data(key, value):
21
    shard_id = get_shard_id(value)
22
    shard = shards[shard_id]
23
    # シャードにデータを設定
24
    shard.set(key, value)
25

26
# シャードのリスト
27
shards = [
28
    # シャード1 (値 < 1000)
29
    ...,
30
    # シャード2 (1000 <= 値 < 10000)
31
    ...,
32
    # シャード3 (値 >= 10000)
33
    ...,
34
]
35

36
# 使用例
37
key = "product_123"
38
value = 5000
39

40
get_data(value)
41
set_data(key, value)

ディレクトリベースシャーディング#

データの属性に基づいてシャードに割り当てる

Python

1
# ディレクトリベースシャーディングの例
2

3
def get_shard_id(country):
4
    # 国名に基づいてシャードIDを計算
5
    if country == "日本":
6
        return 0
7
    elif country == "アメリカ":
8
        return 1
9
    else:
10
        return 2
11

12
# データベースへのアクセス
13
def get_data(key, country):
14
    shard_id = get_shard_id(country)
15
    shard = shards[shard_id]
16
    # シャードからデータを取得
17
    return shard.get(key)
18

19
# データベースへの書き込み
20
def set_data(key, value, country):
21
    shard_id = get_shard_id(country)
22
    shard = shards[shard_id]
23
    # シャードにデータを設定
24
    shard.set(key, value)
25

26
# シャードのリスト
27
shards = [
28
    # シャード1 (日本)
29
    ...,
30
    # シャード2 (アメリカ)
31
    ...,
32
    # シャード3 (その他)
33
    ...,
34
]
35

36
# 使用例
37
key = "user_123"
38
value = {"name": "John Doe", "age": 30}
39
country = "日本"
40

41
get_data(key, country)
42
set_data(key, value, country)

課題#

複雑性: シャーディングの設計と運用は複雑な場合が多い
データの整合性: 複数のシャードに分散されたデータの整合性を保つ必要がある
トランザクション: シャードにまたがるトランザクション処理は複雑な場合が多い

例#

1億人の顧客情報を持つデータベースをシャーディングする
- 顧客IDに基づいて100個のシャードに分割する
- 各シャードは1000万人の顧客情報を格納する
- クエリ処理は、顧客IDに基づいて特定のシャードに送信される
商品情報を扱うECサイトのデータベースをシャーディングする
- 商品カテゴリに基づいてシャードに分割する
- 例えば、家電、衣類、食品などのカテゴリごとにシャードを作成する
- ユーザーは、特定のカテゴリの商品のみを検索する場合、そのカテゴリのシャードにのみクエリを送信する

補足：実運用で気をつけたいこと#

シャーディングを実際に入れるときに躓きやすいポイントを、追記としてまとめておきます。

シャードキー選びの重み#

シャードキーは「あとから簡単に変えられない」設計判断です。次の観点で慎重に選びます。

分布が偏らないか：例えば「都道府県」をキーにすると、東京シャードだけ突出してホットスポットになりやすい。
アクセスがそのキーに沿うか：ほとんどのクエリが WHERE user_id = ? で始まるなら、user_id をキーにするとシャードに閉じた問い合わせで済む。
マルチテナントなら tenant_id：テナントごとに完結する処理が多いSaaSでは、tenant_id がほぼ最適解になりがち。