可用性・DR比較 — SLA・マルチリージョン・冗長構成

SLA の読み方と「9」の意味

可用性を語るうえで欠かせないのが SLA（Service Level Agreement）の「9」の数だ。「ファイブナイン（99.999%）」「フォーナイン（99.99%）」などと言われるが、実際の意味を年間ダウンタイムに換算すると直感的に理解できる。

可用性 SLA	年間ダウンタイム	月間ダウンタイム
99% （2ナイン）	約 87.6 時間	約 7.3 時間
99.9% （3ナイン）	約 8.76 時間	約 43.8 分
99.95%	約 4.38 時間	約 21.9 分
99.99% （4ナイン）	約 52.6 分	約 4.4 分
99.999% （5ナイン）	約 5.26 分	約 26.3 秒

⚠️ SLA はプロバイダーの賠償基準であり、システムの実際の可用性ではない

SLA を達成できなかった場合のクレジット補償が規定されているだけで、実際のシステム可用性はアーキテクチャ設計・構成・運用に依存します。シングルAZ構成では SLA に基づいた補償が得られても、システムが長時間停止する可能性があります。

各プラットフォームの SLA 比較

サービス	AWS	OCI	Azure
コンピュート（VM）	99.99%（マルチAZ時）	99.99%（マルチAD時）	99.99%（可用性セット/ゾーン）
コンピュート（シングル）	99.5%	99.9%（シングルAD）	99.9%（Premium SSD使用時）
オブジェクトストレージ	S3: 99.99%	Object Storage: 99.9%	Blob Storage: 99.9〜99.99%
マネージドDB（マルチAZ）	RDS Multi-AZ: 99.95%	Autonomous DB: 99.995%	SQL DB: 99.99%（Business Critical）
Kubernetes（マネージド）	EKS: 99.95%	OKE: 99.95%	AKS: 99.95%（Uptime SLA使用時）
ロードバランサー	ALB/NLB: 99.99%	Load Balancer: 99.99%	Load Balancer: 99.99%

注目すべきは OCI の Autonomous Database の 99.995% という高い SLA だ。これは月間換算で約 2.2 分のダウンタイムしか許容しないという数字で、クラウドのマネージドDB では最高水準の一つだ。 Oracle がデータベースの可用性を自社の最優先事項としていることが数字に現れている。

AZ・リージョン設計の考え方

クラウドの可用性はリージョン（地理的な拠点）と AZ（Availability Zone / Availability Domain）の概念に基づいて設計する。AZ は同一リージョン内の独立した物理的な拠点で、電力・ネットワーク・冷却が分離されている。

設計要素	AWS	OCI	Azure
日本リージョン	東京・大阪（2リージョン）	東京・大阪（2リージョン）	東日本・西日本（2リージョン）
AZ 数（日本）	東京: 3AZ / 大阪: 3AZ	東京: 3AD / 大阪: 1AD	東日本: 3AZ / 西日本: 3AZ（一部）
AZ 間レイテンシ	1〜2ms	1〜3ms	1〜2ms
リージョン間レイテンシ（東京−大阪）	約 10〜15ms	約 10〜15ms	約 10〜15ms
グローバルリージョン数	30+ リージョン	40+ リージョン（46+、急拡大中）	60+ リージョン（最多）

💡 OCI のリージョン数は急速に拡大中

OCI は後発ながらリージョン数を急速に増やしており、一部の地域では AWS・Azure よりも先にリージョンを展開しています。また OCI は「リージョンペア」の概念で常に DR ペアを用意しており、大阪リージョンが東京のDRサイトとして機能します。

DR 戦略の4パターン

AWS が定義した DR 戦略の分類は業界標準的に使われる。コストと RTO/RPO のトレードオフで 4つのパターンがある。

戦略	概要	RTO	RPO	コスト
Backup & Restore	定期バックアップをDRサイトに保存。障害時にリストア	数時間〜	数時間〜24時間	最低
Pilot Light	最小限のコアシステムをDRサイトで常時稼働させておく	数十分〜数時間	数分〜数時間	低
Warm Standby	縮退版システムをDRサイトで常時稼働。障害時にスケールアップ	数分〜数十分	数秒〜数分	中
Active-Active（Hot Standby）	2サイト以上でフル稼働。トラフィックを分散	ゼロ〜秒単位	ゼロ〜秒単位	最高（2倍以上）

RTO/RPO 目標と実現方法

RTO（Recovery Time Objective：目標復旧時間）と RPO（Recovery Point Objective：目標復旧時点）は DR 設計の二大指標だ。目標が厳しいほどコストが増加する。

RTO 目標	RPO 目標	推奨アプローチ	クラウドでの実現例
24時間以内	24時間	Backup & Restore	S3 クロスリージョンレプリケーション + スナップショット
4時間以内	1時間	Pilot Light	AMI/SnapshotをDRリージョンへ複製 + Route53 フェイルオーバー
30分以内	15分	Warm Standby	マルチリージョン RDS + Auto Scaling グループ
秒単位・ゼロ	ゼロ	Active-Active	マルチリージョン ALB + DynamoDB Global Tables / Aurora Global DB

オンプレの DR 課題

オンプレミスで DR を実現するには、物理的に離れた第2データセンターの確保・ストレージレプリケーション機器・専用線の敷設など、多大なコストがかかる。「DR サイトの構築費用だけで数億円」というケースも珍しくない。

一方でクラウドでは、DR サイトのハードウェアをリザーブする必要がなく、必要なときにのみスケールアップできる Pilot Light や Warm Standby が現実的なコストで実現できる。これはオンプレからクラウドへの移行を後押しする強力な理由の一つだ。

DR コスト要素	オンプレ	クラウド
第2サイト確保	物理的DC 数億円〜	別リージョンすぐ利用可
レプリケーション装置	ストレージレプリ設備数千万〜	マネージドサービス使った分だけ
専用線	月額数十万〜	VPC Peering / Transit Gateway
テスト切替コスト	高（実環境に影響リスク）	低（CloudFormation等で再現容易）
フェイルオーバー時間	手動設定多く数時間〜	自動化で分〜秒オーダー

可用性軸のまとめ

観点	オンプレ	AWS	OCI	Azure
単一サービス SLA	設計次第	◎ 最高水準	◎（Autonomous DB が最高）	◎ 高水準
マルチAZ 設計	— 独自構築	◎ 成熟・事例豊富	◎ 3AD	◎ AZ+可用性セット
DR コスト	× 非常に高い	◎ 安価	◎ 安価	◎ 安価
DR 自動化	△ 手動多い	◎ AWS Elastic DR	〇 Full DR サービス	◎ Azure Site Recovery
グローバルリージョン	— 自社拠点限定	◎ 30+	◎ 40+（急拡大）	◎ 60+（最多）

✅ 次の章では…

PART 06 では 運用・管理 を比較します。必要なスキルセット・IaC（Infrastructure as Code）の充実度・監視ツール・サポート体制を各プラットフォームで解説します。

→ PART 06 — 運用・管理比較へ