مقدمه

امروزه سرویس‌ها و خدمات ارائه شده توسط بسیاری از سازمان‌ها وابسته به مراکز داده هستند. از جمله این سازمان‌ها می‌توان به بانک‌ها، شرکت‌های خدمات پرداخت، کارگزاری‌های بورس و بسیاری دیگر اشاره کرد. در این سازمان‌ها، قطعی یا اختلال در سرویس می‌تواند خسارت مالی قابل توجهی ایجاد کند و اعتماد مشتریان را کاهش دهد.

از این رو، بسیاری از سازمان‌ها به فکر ایجاد مرکز داده پشتیبان افتاده‌اند. راه‌اندازی چنین مراکزی چالش‌ها و سوالات زیادی برای سازمان‌ها ایجاد می‌کند، از جمله:

✅ آیا مرکز داده پشتیبان باید مشابه مرکز داده اصلی باشد؟

✅ موقعیت جغرافیایی مرکز داده پشتیبان کجاست؟

✅ چه بودجه‌ای برای راه‌اندازی آن باید در نظر گرفته شود؟

پاسخ به این سوالات برای تضمین Business Continuity و کاهش ریسک اختلال در سرویس اهمیت ویژه‌ای دارد.

اهمیت سایت پشتیبان

ایجاد سایت پشتیبان یکی از اصلی‌ترین چالش‌های سازمان‌هاست. هدف از این مقاله ارائه راهنمایی کلی برای طراحی مراکز داده پشتیبان با رویکرد Business Continuity و Disaster Recovery است تا سازمان‌ها بتوانند سرویس‌دهی بدون وقفه را تضمین کنند.

راهکارهای Business Continuity و Resilience

Business Continuity به معنای تضمین تداوم ارائه سرویس‌های حیاتی سازمان است. برنامه‌های Disaster Recovery (DR) بخش مهمی از این راهکارها محسوب می‌شوند و هدف آن‌ها جلوگیری از اختلال یا قطع سرویس است.

مراحل طراحی Disaster Recovery Site

برنامه تداوم سرویس‌ها شامل دو مرحله اصلی است:

شناسایی و تحلیل	شناسایی ریسک‌های مختلف و محاسبه احتمال وقوع آن‌ها تعیین میزان خسارت احتمالی محاسبه شاخص‌های کلیدی مانند MAO
ارائه و اجرای راهکار	تعیین شاخص‌های RTO و RPO مورد نیاز انتخاب موقعیت جغرافیایی مناسب طراحی رویکرد اجرایی سایت بحران

مرحله شناسایی و تحلیل

مهم‌ترین مرحله در طراحی Disaster Recovery Site شناسایی و تحلیل ریسک‌ها است. خطا در این مرحله می‌تواند منجر به ضرر مالی و زمان‌بر شدن فرآیند شود. بیشتر بررسی‌ها در این مرحله توسط کارشناسان Risk Management انجام می‌شود.

شناسایی ریسک‌ های موجود

ریسک‌ها شامل موارد زیر است:

آتش‌سوزی
مشکلات قطع برق
حمله سایبری یا نظامی
سیل و زلزله

محاسبه میزان خسارت

پس از شناسایی ریسک‌ها، باید میزان خسارت احتمالی هر بحران مشخص شود. به‌عنوان مثال، اگر ساختمان مرکز داده استانداردهای مقاومتی داشته باشد، احتمال خسارت ناشی از سیل یا طوفان نزدیک به صفر خواهد بود.

محاسبه شاخص MAO

MAO (Maximum Acceptable Outage) نشان‌دهنده حداکثر زمان تحمل قطعی سرویس است. برای محاسبه آن، میزان ضرر و زیان وارد شده به کسب و کار به ازای هر دقیقه یا ساعت قطعی محاسبه می‌شود.

طراحی راهکار Disaster Recovery

پس از شناسایی ریسک‌ها و محاسبه خسارت، باید طرح Disaster Recovery ارائه شود. هدف این است که در زمان بحران، کمترین هزینه و اختلال به کسب و کار وارد شود.

انتخاب موقعیت جغرافیایی

مرکز داده پشتیبان می‌تواند در موقعیت‌های زیر قرار گیرد:

شهری: نزدیک مرکز داده اصلی، با سهولت ارتباطی بالا اما در معرض ریسک‌های طبیعی مشابه
استانی: چالش‌های ارتباطی بیشتر، اما مناسب برای مدیریت بحران‌های طبیعی
کشوری یا بین‌المللی: مناسب برای جلوگیری از حملات نظامی یا زیرساختی
ابری: مناسب سازمان‌های کوچک و متوسط، با هزینه کمتر و مزایای سریع راه‌اندازی

انتخاب راهکار عملکردی

راهکارهای مختلف DR دارای هزینه‌ها و قابلیت‌های متفاوت هستند. برای انتخاب مناسب، شاخص‌های زیر محاسبه می‌شوند:

RPO (Recovery Point Objective): حداکثر حجم داده از دست رفته در زمان وقوع بحران
RTO (Recovery Time Objective): مدت زمان بازیابی سرویس پس از بحران

مثال:

در یک سازمان، اطلاعات هر دو ساعت بین مرکز داده اصلی و پشتیبان همگام‌سازی می‌شوند (RPO = 2 ساعت) و زمان تغییر مسیر جریان ترافیک پس از بحران ۱ ساعت است (RTO = 1 ساعت).

هرچه سازمان نیازمند کاهش RPO و RTO باشد، هزینه راه‌اندازی DR Site افزایش می‌یابد.

رویکردهای Hot, Warm و Cold DR Site

Hot DR Site	هر دو مرکز داده به صورت Active/Active عمل می‌کنند پس از ایجاد بحران در مرکز داده اصلی بدون هیچگونه Down Time سرویس های کسب و کار به فعالیت های خود ادامه خواهند داد. RTO و RPO نزدیک صفر چالش‌ها: هزینه بالا، پیچیدگی فنی، محدودیت نرم‌افزاری
Cold DR Site	زیرساخت Passive در نقطه‌ای دیگر با حداقل تجهیزات راه‌اندازی در زمان بحران از ابتدا
Warm DR Site	بین حالت Hot و Cold مرکز داده پشتیبان در حالت Standby قرار دارد جریان ترافیک چند دقیقه تا چند ساعت پس از بحران به سمت آن هدایت می‌شود

فرآیند عملکرد و مسئولیت‌ ها

برای موفقیت در DR، لازم است فرآیندها و مسئولیت‌ها مشخص شوند:

تعیین شاخص‌های وضعیت بحرانی
مشخص شدن افراد تصمیم‌گیرنده برای فعال‌سازی DR
دستورالعمل مرحله‌ای انتقال ترافیک
تعیین افراد مسئول اجرای فرآیند
چک‌لیست کنترل عملکرد سرویس‌ها پس از انتقال
دستورالعمل بازگشت به مرکز داده اصلی پس از رفع بحران

جمع‌بندی

طراحی و راه‌اندازی مرکز داده پشتیبان نیازمند همکاری واحدهای مختلف سازمان است. واگذاری این وظیفه تنها به واحد فنی ممکن است منجر به ناکارآمدی مرکز داده پشتیبان شود. اجرای درست فرآیندهای Business Continuity و Disaster Recovery، تداوم سرویس‌دهی و کاهش خسارت را تضمین می‌کند.