AWS障害の原因と対策を分かりやすくまとめる！「落ちない構造」と「早期復旧の出来る構造」

f:id:Nyawledge:20190829235908j:plain

ポイントは「落ちない構造」と「早期復旧の出来る構造」

AWS東京リージョンで起こった大規模障害について、インフラエンジニア達の原因と対策についての見解をネコでもわかるレベルでおまとめしました。

AWS大規模障害について
AWS障害の原因と範囲は？
AWSの障害対策は複数の構造で他方を保管！落ちない構造に
AWSの冗長構造は２つのサーバーでは足りない？
復旧しやすい構造「コンテナ化」
東京リージョンに続き、アメリカでもAWS大規模障害が発生！
- AWSアメリカでの障害の原因は？

IT mediaさんの、こちらの記事ではAWS東京リージョンで起こった障害について、

実際に障害に会った各社の優秀なインフラエンジニアさん達はどの様に対策を行ったか、また、どの様な体制がベストだった各社の対応や見解をまとめた記事が公開されています。

AWS障害、“マルチAZ”なら大丈夫だったのか？　インフラエンジニアたちはどう捉えたか、生の声で分かった「実情」https://t.co/88FHw19dA2 pic.twitter.com/dM3dXa9JtB
— ITmedia NEWS (@itmedia_news) August 28, 2019

非常に勉強になる記事だったのですが、

専門用語も多く、結構難しかったので、にゃうれっじレベルで解説します。

（ネコでもわかるknowledgeでNyawledgeです…）

AWS大規模障害について

2019年8月23日に起きた、AWSの大規模障害は記憶に新しいですね。

Amazonのクラウドサーバーである、AWSは、安価で扱いやすく、あらゆるWebサービスで利用されているため、今回の障害規模は大きく、多くの企業のサービスがストップすることとなりました。

AWS障害の原因と範囲は？

AWS障害の原因は「制御系の異常」との事で、「冷却システムがうまく動作せず、サーバが過熱し、障害に陥った」、と解説されています。

影響範囲は、「apne1-az4」というIDの一部の仮想マシンで発生した為、実はAWSの全てが利用不能になった訳ではなく、その一部のサーバーに割り当てられていたサービスに影響があったのです。

AWSの障害対策は複数の構造で他方を保管！落ちない構造に

一部のサーバーの障害との事で、

AWSでは１つのサーバーで問題が起きた時でもサービスを継続出来る様に、

複数のサーバーを用いて、同じ構造を二系統以上用意する冗長構成を推奨しています。

AWSの冗長構造は２つのサーバーでは足りない？

f:id:Nyawledge:20190830000221p:plain — サーバー

トラフィックの負荷分散を行う処理（ロードバランサー）を利用していると、

トラフィックの分散の処理自体に、二系統以上のサーバー構造が必要な仕様となります。

Aサーバーがパンクしない様に、事前に、Bサーバーを用意し、

AとBが平均になる様に両方使い続けているイメージです。

つまり、AとBは両方とも常に使われる構造になっている為、Aサーバーが不具合を起こした時に、Aだけを切り離す事ができない仕様になっていたのです。

よって、サーバーの冗長構造は３つの体制で行う事がベストだったと結論づけられています。

これが落ちにくい環境構築となる訳です！

復旧しやすい構造「コンテナ化」

今回のAWSの様なクラウドサーバー障害では、

実行環境をサーバー側で管理していたか、

仮想環境である「コンテナ」にまとめていたかで、

サービスの停止や立ち上げのしやすさにも格差が出ていたとの事です。

サーバー側に実行環境があった場合には、不具合のあったサーバーから移すという事も簡単では無く、対応に格差がでた様子です。

可能であれば、その様な実行作業は「Fargate」などを利用することも推奨されています。

「Fargate」を利用するすると、サーバーを利用せず、クラウドでの実行処理作業が出来る様になります。

その様な対応を事前にしておく事で、サーバー側で不具合が起こった時にもサーバーを介す事無く、実行作業を行う事ができます。

復旧させやすい構造を事前に構築させておく事が重要なのですね。

これ、結構深い！

そして、ITじゃなくても結局、問題解決、緊急時の対応とか仕事の仕方って「起こらない様に事前に手を打っておく」「起こった時の被害を最小にする」という事はとても大切だと思います。

本質的な仕事のやり方という意味でもしっくりくるお話でした。

やっぱ、エンジニアさんってスマートな頭脳されているのね。。。

2019年9月5日追記！

東京リージョンに続き、アメリカでもAWS大規模障害が発生！

2019年8月31日に、

アメリカのAWSでも大きな障害が発生しました。

AWSアメリカでの障害の原因は？

米国の障害は、

冗長化されていた冷却システムがバグにより正常に作動しなかったそう…

冷却システムが作動せず、サーバが加熱化し、データを消失してしまったとのことです。

クラウドは万能な訳ではないのですね。。。

Amazonのクラウドサービスで日本に続きアメリカで障害が発生し顧客データが全損する事態が発生 - GIGAZINE

Nyawledge Marketing

ウェブマーケティング、デジタルマーケティング関連のナレッジ集。ネコでもわかるニャウレッジ…なんて（親父ギャグ）