SLA の読み方と「9」の意味

可用性を語るうえで欠かせないのが SLA(Service Level Agreement)の「9」の数だ。 「ファイブナイン(99.999%)」「フォーナイン(99.99%)」などと言われるが、 実際の意味を年間ダウンタイムに換算すると直感的に理解できる。

可用性 SLA年間ダウンタイム月間ダウンタイム
99% (2ナイン)約 87.6 時間約 7.3 時間
99.9% (3ナイン)約 8.76 時間約 43.8 分
99.95%約 4.38 時間約 21.9 分
99.99% (4ナイン)約 52.6 分約 4.4 分
99.999% (5ナイン)約 5.26 分約 26.3 秒

⚠️ SLA はプロバイダーの賠償基準であり、システムの実際の可用性ではない

SLA を達成できなかった場合のクレジット補償が規定されているだけで、 実際のシステム可用性はアーキテクチャ設計・構成・運用に依存します。 シングルAZ構成では SLA に基づいた補償が得られても、システムが長時間停止する可能性があります。

各プラットフォームの SLA 比較

サービスAWSOCIAzure
コンピュート(VM) 99.99%(マルチAZ時) 99.99%(マルチAD時) 99.99%(可用性セット/ゾーン)
コンピュート(シングル) 99.5% 99.9%(シングルAD) 99.9%(Premium SSD使用時)
オブジェクトストレージ S3: 99.99% Object Storage: 99.9% Blob Storage: 99.9〜99.99%
マネージドDB(マルチAZ) RDS Multi-AZ: 99.95% Autonomous DB: 99.995% SQL DB: 99.99%(Business Critical)
Kubernetes(マネージド) EKS: 99.95% OKE: 99.95% AKS: 99.95%(Uptime SLA使用時)
ロードバランサー ALB/NLB: 99.99% Load Balancer: 99.99% Load Balancer: 99.99%

注目すべきは OCI の Autonomous Database の 99.995% という高い SLA だ。 これは月間換算で約 2.2 分のダウンタイムしか許容しないという数字で、 クラウドのマネージドDB では最高水準の一つだ。 Oracle がデータベースの可用性を自社の最優先事項としていることが数字に現れている。

AZ・リージョン設計の考え方

クラウドの可用性はリージョン(地理的な拠点)と AZ(Availability Zone / Availability Domain)の 概念に基づいて設計する。AZ は同一リージョン内の独立した物理的な拠点で、 電力・ネットワーク・冷却が分離されている。

設計要素AWSOCIAzure
日本リージョン 東京・大阪(2リージョン) 東京・大阪(2リージョン) 東日本・西日本(2リージョン)
AZ 数(日本) 東京: 3AZ / 大阪: 3AZ 東京: 3AD / 大阪: 1AD 東日本: 3AZ / 西日本: 3AZ(一部)
AZ 間レイテンシ 1〜2ms 1〜3ms 1〜2ms
リージョン間レイテンシ(東京−大阪) 約 10〜15ms 約 10〜15ms 約 10〜15ms
グローバルリージョン数 30+ リージョン 40+ リージョン(46+、急拡大中) 60+ リージョン(最多)

💡 OCI のリージョン数は急速に拡大中

OCI は後発ながらリージョン数を急速に増やしており、 一部の地域では AWS・Azure よりも先にリージョンを展開しています。 また OCI は「リージョンペア」の概念で常に DR ペアを用意しており、 大阪リージョンが東京のDRサイトとして機能します。

DR 戦略の4パターン

AWS が定義した DR 戦略の分類は業界標準的に使われる。コストと RTO/RPO のトレードオフで 4つのパターンがある。

戦略概要RTORPOコスト
Backup & Restore 定期バックアップをDRサイトに保存。障害時にリストア 数時間〜 数時間〜24時間 最低
Pilot Light 最小限のコアシステムをDRサイトで常時稼働させておく 数十分〜数時間 数分〜数時間
Warm Standby 縮退版システムをDRサイトで常時稼働。障害時にスケールアップ 数分〜数十分 数秒〜数分
Active-Active(Hot Standby) 2サイト以上でフル稼働。トラフィックを分散 ゼロ〜秒単位 ゼロ〜秒単位 最高(2倍以上)

RTO/RPO 目標と実現方法

RTO(Recovery Time Objective:目標復旧時間)と RPO(Recovery Point Objective:目標復旧時点)は DR 設計の二大指標だ。 目標が厳しいほどコストが増加する。

RTO 目標RPO 目標推奨アプローチクラウドでの実現例
24時間以内 24時間 Backup & Restore S3 クロスリージョンレプリケーション + スナップショット
4時間以内 1時間 Pilot Light AMI/SnapshotをDRリージョンへ複製 + Route53 フェイルオーバー
30分以内 15分 Warm Standby マルチリージョン RDS + Auto Scaling グループ
秒単位・ゼロ ゼロ Active-Active マルチリージョン ALB + DynamoDB Global Tables / Aurora Global DB

オンプレの DR 課題

オンプレミスで DR を実現するには、物理的に離れた第2データセンターの確保・ ストレージレプリケーション機器・専用線の敷設など、多大なコストがかかる。 「DR サイトの構築費用だけで数億円」というケースも珍しくない。

一方でクラウドでは、DR サイトのハードウェアをリザーブする必要がなく、 必要なときにのみスケールアップできる Pilot Light や Warm Standby が 現実的なコストで実現できる。これはオンプレからクラウドへの移行を後押しする 強力な理由の一つだ。

DR コスト要素オンプレクラウド
第2サイト確保物理的DC 数億円〜別リージョン すぐ利用可
レプリケーション装置ストレージレプリ設備 数千万〜マネージドサービス 使った分だけ
専用線月額数十万〜VPC Peering / Transit Gateway
テスト切替コスト高(実環境に影響リスク)低(CloudFormation等で再現容易)
フェイルオーバー時間手動設定多く数時間〜自動化で分〜秒オーダー

可用性軸のまとめ

観点オンプレAWSOCIAzure
単一サービス SLA設計次第◎ 最高水準◎(Autonomous DB が最高)◎ 高水準
マルチAZ 設計— 独自構築◎ 成熟・事例豊富◎ 3AD◎ AZ+可用性セット
DR コスト× 非常に高い◎ 安価◎ 安価◎ 安価
DR 自動化△ 手動多い◎ AWS Elastic DR〇 Full DR サービス◎ Azure Site Recovery
グローバルリージョン— 自社拠点限定◎ 30+◎ 40+(急拡大)◎ 60+(最多)

次の章では…

PART 06 では 運用・管理 を比較します。 必要なスキルセット・IaC(Infrastructure as Code)の充実度・ 監視ツール・サポート体制を各プラットフォームで解説します。

→ PART 06 — 運用・管理比較へ