گزارش به کاربران: کالبدشکافی اختلال ۲۳بهمن ۹۹

امروز ۲۳بهمن ماه شاهد اختلال شدید در «کوهستان ابری پشتیبان» در منطقه‌ی اروپا بودیم. این اختلال شامل عدم دسترسی به داشبورد وب و اپ موبایل هم بود و دسترسی بیش از ۱۷۰۰۰ کاربر پارتیشن‌های شخصی و حرفه ای و s3 بر روی زیرساخت اروپای پشتیبان دچار اختلال و قطعی شده بود. لازم به ذکر است زیرساخت ایران بدون قطعی و در سلامت کامل در این مدت در دسترس بوده است.


از ساعت ۱۱:۵۲ دقیقه ۲۲ بهمن، مانیتورنیگ پشتیبان یک ناپایداری در زیرساخت پشتیبان را ثبت می‌کند. سریعا توسط تیم فنی پیگیری و برای رفع مشکل اقدامات لازم انجام می‌پذیرد. ناپایداری به سرعت تبدیل به حادثه می‌شود.


با توجه به این که تمامی روند‌های مدیریت به صورت اتوماتیک انجام می‌شود تا ساعت ۲:۳۷ دقیقه بامداد ۲۳ بهمن به سیستم اجازه داده می‌شود که به صورت خودکار ترمیم را مدیریت کند و تیم فنی، مانیتورینگ خود را تا این ساعت ادامه می‌دهد. ولی با توجه به عدم موفقیت این روند، در این ساعت مدیریت فرایندها به صورت دستی توسط تیم فنی بر عهده گرفته می شود و عملیات ترمیم به صورت دستی در تمامی زیرساخت اروپا آغاز می‌شود.
فرایند ترمیم، با توجه به دامنه بزرگ حادثه تا ساعت ۹:۲۵ صبح ۲۳ بهمن به طول می‌انجامد و پس از آن تیم فنی با تست سلامت داده‌ها و فرایندها ابتدا با برقراری دانلود‌ها و سپس بازکردن دسترسی به داشبورد و اپ موبایل، روند بازگشت به حالت عادی را آغاز می‌کند. نهایتا در ساعت ۱۳:۱۲ دقیقه با فعال شدن امکان آپلود، سیستم‌ها به پایداری و پردازش ۱۰۰ درصد ترافیک می‌رسند.


پشتیبانی و پاسخگویی در شرایط در دسترس نبودن پنل وب


در این مدت باتوجه به در دسترس نبودن داشبورد پشتیبان و عدم امکان ارسال درخواست در بخش پشتیبانی سایت، تیم پشتیبانی از بامداد ۲۳ بهمن تا زمان رفع مشکل از طریق شماره تلفن اعلام شده در سایت و فرم تماس با ما و ایمیل پشتیبانی وظیفه اطلاع رسانی و اعلام زمان رفع مشکل را با کاربران مدیریت کردند و پس از برگشت به شرایط عادی با ارسال پیام به تمامی کاربرانی که تماس گرفته بودند، اطلاع رسانی انجام شد.


اقدامات آینده پشتیبان برای تکرار نشدن اختلال‌های مشابه


تجربه ما در پشتیبان از سال ۹۵ و حساسیت ما نسبت به داده‌های کاربران، یکی از پایدارترین و کارآمدترین معماری‌های مدیریت زیرساخت را در پشتیبان تشکیل داده است. تجربه کاربرانی که در ۴ سال گذشته فایل‌های خود را در پشتیبان نگهداری می‌کنند پایداری و کارآمد بودن این معماری را تصدیق می‌کند. همیشه و در هر زمانی امکان رخ دادن مشکل در فرایندها وجود دارد اما در مواجه با هر مشکلی اولویت ما در پشتیبان حفظ سلامت داده‌های کاربران است و پس از آن برگشت به شرایط عادی است.


در اتفاق امروز تیم پشتیبانی با مقدم شمردن سلامت داده‌های کاربران، خسارت وارد شده بر زیرساخت را ترمیم و سرویس‌ها را به حالت عادی برگرداندند.


راه‌کار پشتیبان برای مشکلاتی از این دست، داشتن داده‌های آماده‌ به خدمت در چند ناحیه‌ی جغرافیایی‌است. ولی متاسفانه اختلالات چند روز گذشته در اینترنت! کشور باعث شد زیرساخت داخل عاجز از دریافت آخرین داده‌ها باشد. با توجه به این نکته و تمرکز بر ترمیم زیرساخت اروپا، تصمیم بر این شد که عملیات «سوييچ ترافیک» به زیرساخت ایران تا ساعت ۱۵ انجام نشود و پس از آن در صورتی که شرایط مناسب نشده باشد این روند آغاز شود. از ساعت ۳:۴۵ بامداد عملیات تکمیل داده‌های زیرساخت ایران از روی سرورهای بکاپ اروپا با سرعت بیشتری ادامه پیدا کرد ولی در ساعت ۹:۲۵ پس مشاهده نتایج موفقیت‌آمیز ترمیم، به سرعت قبل بازگردانده شد.

در پایان لازم می‌دانیم از تمامی کاربران، مخصوصا کاربرانی که با ما تماس نگرفتند و عذرخواهی ما را دریافت نکرده‌اند، در همینجا، پوزش بخواهیم. همچنین از تمامی کاربرانی که با تماس با بخش پشتیبانی، در این شرایط، همدلی و حمایت و اطمینان خود به ما را اعلام کرده تشکر ویژه‌ای می‌کنیم. امیدواریم پشتیبانی لایق حمایت و پشتیبانی شما بسازیم.
«پشتیبان، همیشه پشتیبان»