デジタル変革やクラウド導入が多くの企業で進められています。その一方で、膨大なコストを要しかつ優先度の高いこれらのプロジェクトに伴う課題はいくつもあり、どのようなクラウドアーキテクチャ、サービスオーケストレーションおよびネットワーク自動化といった技術・ソリューションセットを選択するかが問われます。ただし、その中でも特に見落とされがちなのは、クラウド移行の際に必要となる監視、障害解析、および障害復旧のための運用の変化への対応策です。
まず、クラウドサービスを利用する際に重要なポイントは下記の4つです。
• 従来とは根本的に異なるネットワーク接続環境を理解
• その環境から得られる現実的なパフォーマンスを想定したサービスレベル設定
• そのサービスを運用・管理するために必要な監視データへのアクセス環境
• 常に変化するクラウドとインターネットの動的な性質に対応可能なライフサイクルの確立
言い換えれば、クラウド時代への突入後、いかにして運用上の可視性を確実に維持できるかがポイントとなります。
デジタル変革とクラウド導入の課題
今日のビジネスのほとんどがデジタル体験の世界に関わっており、例えまだデジタル化されていない世界があったとしても、恐らくそこにたどり着くのは時間の問題と言えます。デジタル変革への取り組みにより、消費者には複数のチャネルを横断した一体感のある購買体験の提供が実現。一方、企業の従業員には、多様なSaaS導入による社内IT環境の近代化から柔軟なパブリッククラウドの利用環境が提供されつつあります。その中で以下の3つのイニシアチブが代表として挙げられますが、その推進にあたっていくつか共通の課題があります。
• 売上・収益の増加
• 運用コストの削減
• ユーザーエクスペリエンス(顧客・社員満足度)向上
リサーチ会社のEMA (Enterprise Management Associates)による最近の調査によると、クラウドに移行する企業の60%が、依然としてパフォーマンス管理、ネットワーク計画、およびセキュリティ対策に課題を抱えています。最適なクラウドの選択から、コラボレーションとコミュニケーションに最適なSaaSプラットフォームの決定、さらにはこれらのサービスが想定通りのSLAを確実に実現し、優れたユーザーエクスペリエンスを提供できるかが重要となります。では、なぜこれらの管理、計画、対策が課題となるのでしょうか?
まず、デジタル変革とクラウド採用により、DNS、CDN、サードパーティのAPI、さらにパブリッククラウドプロバイダへの依存度が飛躍的に増加します。そして、これらの自らが管理できないリソース・サービスがどのように機能するかを理解することは非常に困難です。
クラウドの世界では、インターネットがコミュニケーションの中枢神経をつかさどります。ベストエフォートを前提としたインターネットはもともと企業通信用に構築されておらず、セキュリティ防御の設定が甘い場合、その脆弱性の影響を受けやすくなります。そして、このようなオンラインへの繋がりを持つことは、DDoS、BGPハイジャックなどのセキュリティリスクをもたらします。インターネットのような相互接続された未知の世界を管理することはまさに戦いであり、クラウド移行を進める企業が避けては通れない戦いの一つとなるのです。
なぜ従来型の監視ではクラウドに対応できないのか?
熟練のITチームは、自分が管理しているネットワークあるいはドメイン内の問題処理には慣れています。 ただし、その環境がクラウドになると、管理対象の境界線がぼやけ、さらに複数の外部ネットワークやサービスへの依存度が高まるので、例えばパフォーマンスの問題を予測、理解、解析することは非常に困難になります。
アプリケーションとネットワークを全て自社で所有し、これらを自社のデータセンター内で管理する従来型のオンプレ環境の運用には、図2に示す監視スタックで十分でしょう。 例えばSNMPポーリングによりデバイス障害を検出したり、フローデータの分析により帯域不足の問題把握が可能になります。 さらに、自前のアプリケーションの場合には、APMによるパフォーマンスや可用性の監視や、内部関数呼び出しとコードインジェクションといったプロファイリング技術の利用により、エンドユーザーが体感するパフォーマンスを把握することができます。
上記のすべてのテクニックには適材適所の利用シーンがあるわけですが、クラウド移行後の世界では十分ではありません。ではここで、アプリケーションをパブリッククラウド環境に移行した際に何が変わるのか考えてみましょう。
AWSのようなパブリッククラウド環境でのアプリケーション運用の場合でも、ソースコード自体を所有していればアプリの管理は可能かもしれませんが、インフラとネットワークは管理することはできません。つまり、アプリやマイクロサービスは、基盤となるインフラに影響されないように構築されているため、コードインジェクションなどのAPM技術はパブリッククラウド環境でも引き続き利用可能です。 しかし、インフラやネットワークなどはクラウド内で抽象化されているため、パケットキャプチャやSNMPなどの技法は、その有用性の大部分が失われてしまいます。 では、インフラもソフトウェアも所有していないSaaSの場合はどうでしょうか? この場合、APMのコードインジェクションも、SNMPやパケットキャプチャ、フローデータも利用することができません。
従来の監視スタックとのギャップとは?
クラウド時代の監視は、サービスがエンドユーザーにどのように届いているかの全体像を把握するために、外部リソースへの依存関係、インターネット、クラウド環境、およびSaaSアプリの影響を考慮して進化させる必要があります。 残念ながら、クラウド導入前の従来型の監視スタックに頼っている場合、顧客や社員への優れたデジタル体験価値の提供に必要となる外部リソースやサービスの可視性に大きなギャップが生じてしまいます。パブリッククラウドベンダーは、VPC環境内のフローログとインフラの稼働状況のデータへのアクセスを提供することにより、これらの問題の一部に対処していますが、DNS/CDN/クラウドベースのセキュリティ/SaaS、およびSD-WANによるインターネット・ブレークアウトの際のプロバイダ側のパフォーマンスの監視・可視化には対処できません。
何に投資すべきか?
見えない世界が増えるのは決して望ましいことではなく、ここで生じる「可視性のギャップ」の影響を技術的だけではなく、ビジネスの観点からも考慮・検討することが非常に重要です。
まず技術的な観点から見ると、クラウドやインターネット等のエコシステムに対する可視性の喪失は、サービス品質維持の劣化や、設定ミスのよる誤検知のアラート、さらに長時間あるいは時に解決されないトラブルへの対応といった様々な問題を引き起こします。システムの管理権限や監視能力を失うと、単なる障害の切り分けを行うだけでも、皮肉なことにITチームへの負担がより大幅に増大するのです。
さて、ここで問題です。可視性のない環境でクラウドへのアクセスが遅い場合、その原因が果たして社内なのか、ISPなのか、それともSaaSベンダー自体なのか、どう判断しますか?そしてその問題解決のために、誰に相談し、どのプロバイダにエスカレーションしますか?ここで重要なポイントは、必要十分な解析データなしでは、例え相談窓口を得たとしても、プロバイダやベンダー側も効率的に問題に対処することは難しいでしょう。
一方ビジネスの観点から見ると、管理能力と可視性喪失の影響は、売上・収益・ブランドイメージ、生産性、さらには顧客・社員満足度低下への重大なリスクさらされることを意味します。クラウドへの移行には、新しい大きな可能性が開けると同時に、パフォーマンスとセキュリティのリスク(BGPやDNSの乗っ取りなど)といった全くの別世界が待っています。これらを見過ごしたまま前に進めば、その先にはトラブルが待ち受けており、その解決無しではビジネスは成り立たなくなるのです。
クラウドのリスクを軽減するために必要な運用の可視性
ThousandEyesは、世界中に設置した監視拠点とネットワークインテリジェンス技術により、インターネットとクラウドのエコシステムから新たに発生した「可視性のギャップ」を埋めます。 図4に示すように、IT監視スタックを再設計する時に重要なのは、従来の監視手法を置き換えることではありません。クラウドが持つ重大な新たな課題とリスクに対処するために、技術的にもビジネスの敏捷性の観点からも、従来行ってきた投資の内部構造を改善することが必要となります。