システム運用運用保守コストの低減策過剰な保守サービスはカットする
過剰な機能はカットする
まとめられるものは、まとめてしまう
その他
「運用」という言葉がさす範囲 「運用」という言葉がさす内容は、「システムが正常に動いているかの監視」という意味で使われることもあれば、「システムで障害が発生した時に、原因を解明して修正対応するところまでを含む」という意味で使われることもある。 システムトラブルの原因十分な負荷テストができていない多量の処理をさばききれず、サーバーが停止する事態になる 運用時に発見された問題を放置した仕様と異なる動作をしていたり、運用上あり得えない事態が発生した場合に、それを適切に報告し改善する行動を取らなかったことにより、問題が突然大きくなることがある。 開発時に直しきれなかった問題を管理しきれていない本来はあってはならないことであるが、リリース前にどうしても直しきれないバグ(ただし運用上問題にはならないと考えられるバグ)がそのまま残されるケースがある。しかし問題は問題であるので、それをどのように正していくのかを検討し、早急に対応すべき。 過去の失敗の教訓を生かせていない自らの失敗、または各種報道で挙げられた失敗について深く分析し、それらのリスクをあらかじめ取り除く努力を怠った場合、問題が「再発」することにもなる。 ディザスタリカバリ用のサイトの検討サーバーの設置場所地震などの大災害を同時にこうむらない場所に設置する。 データ複製方式DBMSに搭載のレプリケーション機能では対応できないケースもある。 バックアップサイトの運用バックアップサーバーを稼働させた場合、バックアップサイトを円滑に運用できるだけの十分な運用体制が構築できるかを事前に検討する必要がある。 データセンターは電力危機が起こっても大丈夫かデータセンターは、24時間365日の稼動が求められています。 データセンターに自家発電装置があっても、燃料確保が困難な状況になるかもしれません。 東京電力の管轄外のデータセンターを利用することも考えられます。しかし、そのような「駆け込み需要」が発生すれば、あっという間に地方のデータセンターの収容能力を超えてしまい、結果的に管轄外のデータセンターを利用できないケースも増加すると考えられます。 最悪の場合は、東京電力、東北電力管轄下のデータセンターのサーバーに電力が供給されず、サーバーを稼動できない状況が発生するかもしれません。万一そのような状況になると打撃が大きくなるのであれば、その対応は今のうちから行うことが大切です。 データセンターに立ちふさがる「25%電力削減」 という記事が参考になります。 BCP策定のポイントとにかく復旧を目指す→代替戦略を検討する 被災地で業務やシステムを再開する復旧だけでなく、異なる場所で業務やシステムを引き継ぐ代替戦略も検討すべき。 全システムを一斉に復旧→業務視点で構成管理全システムを復旧するのではなく、優先度の高い業務に関連するシステムから順に復旧させるのが望ましい。 訓練は繰り返し実施→シナリオを毎回変える同じシナリオを何度も繰り返し、事前に定めたマニュアル通りに行動できるように備えても、それだけでは不十分であることもある。 非常用電源でしのぐ→燃料調達に不安あり自家発電装置は、軽油などの燃料が必要であるが、その調達が確実にできる保証はない。 電力不足に警戒→水道やガスの停止も想定東京ガスは、震度5以上の地震でガスの供給を自動的に止める。被災後にガスを要するようなことはできなくなる恐れがある。 緊急時の通信はネットが強い→その他の通信手段も考慮衛星電話や業務用無線も使える。専用線は損傷すると復旧に時間がかかる。 運用拠点は本社の近く→都心から郊外に移す首都圏直下型地震が発生すると、警視庁が実施する交通規制などで都心への車の出入りができなくなったり、公共交通機関がストップする。東京都心は陸の孤島となるリスクがある。副拠点は、郊外に移転するのが望ましい。 pingが使えれば大丈夫→遠隔操作手段を用意サーバーが本当に正常稼働しているかどうかは、サーバーにログオンしなければ確認できない。電源装置は起動していても、ハードディスクが損傷していてOSが起動不能の場合もある。 安否確認サービスは使えないことも東日本大震災では、震災当日に安否確認サービスが一時的に利用できなくなった。安否確認のメールが遅延したり、Webサイトへアクセスしにくくなるためである。 1981年以降の建物は安心→高層ビルは注意1981年に建築基準法の耐震基準を大幅に強化した。しかし1981年当時、高層ビルに大きな被害を与える長周期地震動への対策は考慮されていない。2003年の十勝沖地震以降、考慮されつつはある。 被災地で盗難は起きない→ハードディスクを暗号化空き巣は、立ち入り規制を無視して入り込む。実際、空き巣被害は被災地で4倍以上に増加した。 機器を守ればOK→業務データが重要設備だけではなく、事業を遂行するために必要なデータを守ることが重要である。データのバックアップや複製があれば、機器が被災しても新しい機器で業務を再開できる。 切り替え訓練を念入りに→切り戻し訓練も大事DRサイトに業務を引きついても、それを元の環境に切り戻すことができるかどうかを確認すべきである。切り戻しにどれくらいの作業量が必要なのかを検討していない場合も多い。その訓練をしておくべきである。 DRサイトは60km離す→異なる電力会社管内に直下型地震の場合、60km離れていれば同時被災を回避できると予測されていた。しかしこの距離では、被災の規模によっては同時被災もあり得る。また同じ電力会社管内の場合、同時に停電してしまうこともあり得る。 DRサイトにテープを輸送→100キロ超でも伝送100kmを超えても、非同期レプリケーションやネットワークバックアップを使える。通信に伴う遅延時間は年々短縮しており、100kmの距離でも50m秒以内に遅延を抑えることもできる。通信量をチューニングすれば、10Mビットの回線でも実用することも可能である。 マニュアル作成マニュアル作成のポイントマニュアル上で何かを説明するときは、最初にメリットを書く。 続いて操作の全体の流れを簡潔にまとめて示す。 マニュアル作成の確認項目マニュアル作成後は、以下の点をチェックし、問題がないかを確認するとよい。 分かりやすさ
正確さ
情報の探しやすさ
有用性
|