ITエンジニア向け 情報館  
   

 

システム運用

運用保守コストの低減策

過剰な保守サービスはカットする

  • 24時間365日体制の監視、障害復旧の仕組みは本当に必要なのか?
    平日のみ、などのように重要な場合のみのサービスで充分ではないか?
    (平日以外に発生した問題は、柔軟に自ら人手で解決してもよいのではないか?)
  • 障害復旧時間を極限まで短くしようとしていないか?
    短いに越したことはないが、障害後復旧までの時間を1分から5分に伸ばすだけでも、大きなコストを削減できる可能性がある。
    停止時間がある程度許されるなら、人手で対応するなどの対応で済ませられないか?
  • ミッションクリティカルなシステム、と思いこんでいないか?
    そこまでの信頼性が本当に必要なのか?
    不必要なほど厳しいSLAを要求していないか?

過剰な機能はカットする

  • 本来はそれほど必要でない機能やオプションがあれば、思い切って外す。
  • 稼働後、ほとんど使われない機能があると分かれば、のちに削減するのも一つの方法。
  • ネットワークサービス利用時に、ネットワーク帯域を必要以上に確保していないか確認する。
  • 無駄に高機能なハードウェアスペックなら、若干ランクを落とす。

まとめられるものは、まとめてしまう

  • 仮想化技術を用いれば、ハードウェアの台数や、それに付随するサポート料、ソフトウェアライセンス料はカットできる。
  • サーバーごとに機能を集約し、サーバーごとに適切にソフトウェアをインストールすることで、サーバーに不要なソフトをインストールする必要がなくなり、ライセンス料やCPU/メモリ消費量もカットできる。
  • 地理的に分散されているサーバーを、1拠点にまとめられるなら、まとめてしまう。

その他

  • コンピュータで自動化できるものに関しては、人手を介さず自動化させる。
    自動化できるもの、自動化したほうが効率の良いものを事前に洗い出すことが重要。
  • 調達の際、複数社と見積もりを取ったり、価格比較も行う。

「運用」という言葉がさす範囲

「運用」という言葉がさす内容は、「システムが正常に動いているかの監視」という意味で使われることもあれば、「システムで障害が発生した時に、原因を解明して修正対応するところまでを含む」という意味で使われることもある。
利用者からの問い合わせ対応も、運用に含まれることもある。
「運用」がさす言葉の意味は現場によってさまざまである点に注意が必要である。
このようなトラブルをなくすには、運用業務の定義を明確にしておくことが望ましい。

システムトラブルの原因

十分な負荷テストができていない

多量の処理をさばききれず、サーバーが停止する事態になる

運用時に発見された問題を放置した

仕様と異なる動作をしていたり、運用上あり得えない事態が発生した場合に、それを適切に報告し改善する行動を取らなかったことにより、問題が突然大きくなることがある。

開発時に直しきれなかった問題を管理しきれていない

本来はあってはならないことであるが、リリース前にどうしても直しきれないバグ(ただし運用上問題にはならないと考えられるバグ)がそのまま残されるケースがある。しかし問題は問題であるので、それをどのように正していくのかを検討し、早急に対応すべき。

過去の失敗の教訓を生かせていない

自らの失敗、または各種報道で挙げられた失敗について深く分析し、それらのリスクをあらかじめ取り除く努力を怠った場合、問題が「再発」することにもなる。

ディザスタリカバリ用のサイトの検討

サーバーの設置場所

地震などの大災害を同時にこうむらない場所に設置する。
例えば東京のデータセンターに対するバックアップサーバーを、九州や北海道などに設置する。

データ複製方式

DBMSに搭載のレプリケーション機能では対応できないケースもある。
通常稼働のサーバーとバックアップサーバーとの帯域が十分でなかったり、DBMSのソフトがサーバー間で互いに異なる場合など。
また、サーバーの付加を抑える必要があるかもしれない。
データ複製が円滑に行えるか、事前の検証が十分に必要である。

バックアップサイトの運用

バックアップサーバーを稼働させた場合、バックアップサイトを円滑に運用できるだけの十分な運用体制が構築できるかを事前に検討する必要がある。
特に、運用にかかわる人員の配置が可能かどうか、十分なスキルを持つ要員を配置できるか、検討が必要になる。

データセンターは電力危機が起こっても大丈夫か

データセンターは、24時間365日の稼動が求められています。
輪番停電のような環境下での運用は、そもそも想定されていません。

データセンターに自家発電装置があっても、燃料確保が困難な状況になるかもしれません。
多くの業界で自家発電装置用の燃料の確保が続くと思われるためです。
さらに、自家発電装置を常用することはそもそも想定されていません。自家発電装置を頻繁に動かすと、発電装置が故障する恐れもあるそうです。また、騒音や匂いを周囲に出してしまう問題もあります。

東京電力の管轄外のデータセンターを利用することも考えられます。しかし、そのような「駆け込み需要」が発生すれば、あっという間に地方のデータセンターの収容能力を超えてしまい、結果的に管轄外のデータセンターを利用できないケースも増加すると考えられます。

最悪の場合は、東京電力、東北電力管轄下のデータセンターのサーバーに電力が供給されず、サーバーを稼動できない状況が発生するかもしれません。万一そのような状況になると打撃が大きくなるのであれば、その対応は今のうちから行うことが大切です。

データセンターに立ちふさがる「25%電力削減」 という記事が参考になります。
http://itpro.nikkeibp.co.jp/article/COLUMN/20110414/359444/

BCP策定のポイント

とにかく復旧を目指す→代替戦略を検討する

被災地で業務やシステムを再開する復旧だけでなく、異なる場所で業務やシステムを引き継ぐ代替戦略も検討すべき。
設備や部品を常に複数用意しておく必要はなく、引き継ぐために必要な手順や部品をあらかじめ検討し、日ごろから引き継ぎの訓練を実施することが重要。

全システムを一斉に復旧→業務視点で構成管理

全システムを復旧するのではなく、優先度の高い業務に関連するシステムから順に復旧させるのが望ましい。

訓練は繰り返し実施→シナリオを毎回変える

同じシナリオを何度も繰り返し、事前に定めたマニュアル通りに行動できるように備えても、それだけでは不十分であることもある。
それよりも、訓練では毎回想定シナリオを変更し、様々な手順を試しておくのが望ましい。災害の種類や規模によって、実施すべき対策が全く異なるため、さまざまなパターンにおける備えを考えるきっかけになる。

非常用電源でしのぐ→燃料調達に不安あり

自家発電装置は、軽油などの燃料が必要であるが、その調達が確実にできる保証はない。

電力不足に警戒→水道やガスの停止も想定

東京ガスは、震度5以上の地震でガスの供給を自動的に止める。被災後にガスを要するようなことはできなくなる恐れがある。

緊急時の通信はネットが強い→その他の通信手段も考慮

衛星電話や業務用無線も使える。専用線は損傷すると復旧に時間がかかる。

運用拠点は本社の近く→都心から郊外に移す

首都圏直下型地震が発生すると、警視庁が実施する交通規制などで都心への車の出入りができなくなったり、公共交通機関がストップする。東京都心は陸の孤島となるリスクがある。副拠点は、郊外に移転するのが望ましい。

pingが使えれば大丈夫→遠隔操作手段を用意

サーバーが本当に正常稼働しているかどうかは、サーバーにログオンしなければ確認できない。電源装置は起動していても、ハードディスクが損傷していてOSが起動不能の場合もある。

安否確認サービスは使えないことも

東日本大震災では、震災当日に安否確認サービスが一時的に利用できなくなった。安否確認のメールが遅延したり、Webサイトへアクセスしにくくなるためである。

1981年以降の建物は安心→高層ビルは注意

1981年に建築基準法の耐震基準を大幅に強化した。しかし1981年当時、高層ビルに大きな被害を与える長周期地震動への対策は考慮されていない。2003年の十勝沖地震以降、考慮されつつはある。

被災地で盗難は起きない→ハードディスクを暗号化

空き巣は、立ち入り規制を無視して入り込む。実際、空き巣被害は被災地で4倍以上に増加した。

機器を守ればOK→業務データが重要

設備だけではなく、事業を遂行するために必要なデータを守ることが重要である。データのバックアップや複製があれば、機器が被災しても新しい機器で業務を再開できる。

切り替え訓練を念入りに→切り戻し訓練も大事

DRサイトに業務を引きついても、それを元の環境に切り戻すことができるかどうかを確認すべきである。切り戻しにどれくらいの作業量が必要なのかを検討していない場合も多い。その訓練をしておくべきである。

DRサイトは60km離す→異なる電力会社管内に

直下型地震の場合、60km離れていれば同時被災を回避できると予測されていた。しかしこの距離では、被災の規模によっては同時被災もあり得る。また同じ電力会社管内の場合、同時に停電してしまうこともあり得る。

DRサイトにテープを輸送→100キロ超でも伝送

100kmを超えても、非同期レプリケーションやネットワークバックアップを使える。通信に伴う遅延時間は年々短縮しており、100kmの距離でも50m秒以内に遅延を抑えることもできる。通信量をチューニングすれば、10Mビットの回線でも実用することも可能である。

マニュアル作成

マニュアル作成のポイント

マニュアル上で何かを説明するときは、最初にメリットを書く。
いきなり操作手順を書くのではなく、操作の目的(=操作によって得られるメリット)を書く。

続いて操作の全体の流れを簡潔にまとめて示す。
いきなり操作手順1、操作手順2・・・というふうに記述しない。全体の流れを示すことで、読み手の頭を整理する効果もある。

マニュアル作成の確認項目

マニュアル作成後は、以下の点をチェックし、問題がないかを確認するとよい。

分かりやすさ

  • 情報が整理/グループ化されている。
  • 章、節、項の構成に一貫性がある。
  • 章、節、項のレベルが適切である。
  • 章、節、項のタイトルが具体的である(それを見るだけで内容がイメージできる)
  • 操作方法、制限事項、注意事項、参考情報などの記載順序が適切である。
  • 操作方法、制限事項、注意事項、参考情報などの記載順序に一貫性がある。
  • 文章は簡潔で、ポイントが明確に表現されている。
  • 一文を適切な長さに区切っている。
  • 番号付き箇条書き、番号なし箇条書きが有効に使われている。
  • 操作手順が具体的であり、操作の結果も明確である。
  • 読み手になじみのある用語を使用している(専門用語を不必要に使っていない)
  • ですます調、である調の文体は統一されている。
  • あいまいな表現、主観的な表現、誇張表現がない。
  • 図表、写真を使う場合、大きさや位置関係に一貫性がある。
  • 図表、写真と本文のバランス、位置関係が適切である。
  • 重要なポイントを適切に協調できている。
  • 書体、文字の大きさ、行間、河川、色の使い方に統一感がある。
  • 障害やトラブルを招きやすい内容については、適宜説明ができている。

正確さ

  • 誤字、脱字がない。
  • 文字や記号の全角半角が統一されている。
  • コマンドやパラメータなどの名称は、画面上のものと統一されている。
  • 図表や本文に対応関係があり、矛盾がない。
  • 別ページへの参照がある場合、ページ数や章/項が適切に対応している。

情報の探しやすさ

  • 目次を付けている。
  • 目次には項目が簡潔かつ明確に記載されている。
  • 索引を付けている。
  • 用語集を付けている。
  • 別ページへの参照がある場合、適切に読み手に誘導できている。
  • マニュアルが複数ある場合、マニュアル同士を区別しやすくなっている。
  • マニュアルに関する連絡先が、明記されている。

有用性

  • システムを使いたい、内容をよく理解したい、などの期待に応えられる工夫がある。
  • 紙印刷の場合、裏写りしていない。
  • ユーザーのメリットや活用方法が効果的に説明されている。
  • よくあるトラブル対策があらかじめ明記されている。