گزارش به کاربران: کالبدشکافی اختلال ۲۳بهمن ۹۹
امروز ۲۳بهمن ماه شاهد اختلال شدید در «کوهستان ابری پشتیبان» در منطقهی اروپا بودیم. این اختلال شامل عدم دسترسی به داشبورد وب و اپ موبایل هم بود و دسترسی بیش از ۱۷۰۰۰ کاربر پارتیشنهای شخصی و حرفه ای و s3 بر روی زیرساخت اروپای پشتیبان دچار اختلال و قطعی شده بود. لازم به ذکر است زیرساخت ایران بدون قطعی و در سلامت کامل در این مدت در دسترس بوده است.
از ساعت ۱۱:۵۲ دقیقه ۲۲ بهمن، مانیتورنیگ پشتیبان یک ناپایداری در زیرساخت پشتیبان را ثبت میکند. سریعا توسط تیم فنی پیگیری و برای رفع مشکل اقدامات لازم انجام میپذیرد. ناپایداری به سرعت تبدیل به حادثه میشود.
با توجه به این که تمامی روندهای مدیریت به صورت اتوماتیک انجام میشود تا ساعت ۲:۳۷ دقیقه بامداد ۲۳ بهمن به سیستم اجازه داده میشود که به صورت خودکار ترمیم را مدیریت کند و تیم فنی، مانیتورینگ خود را تا این ساعت ادامه میدهد. ولی با توجه به عدم موفقیت این روند، در این ساعت مدیریت فرایندها به صورت دستی توسط تیم فنی بر عهده گرفته می شود و عملیات ترمیم به صورت دستی در تمامی زیرساخت اروپا آغاز میشود.
فرایند ترمیم، با توجه به دامنه بزرگ حادثه تا ساعت ۹:۲۵ صبح ۲۳ بهمن به طول میانجامد و پس از آن تیم فنی با تست سلامت دادهها و فرایندها ابتدا با برقراری دانلودها و سپس بازکردن دسترسی به داشبورد و اپ موبایل، روند بازگشت به حالت عادی را آغاز میکند. نهایتا در ساعت ۱۳:۱۲ دقیقه با فعال شدن امکان آپلود، سیستمها به پایداری و پردازش ۱۰۰ درصد ترافیک میرسند.
پشتیبانی و پاسخگویی در شرایط در دسترس نبودن پنل وب
در این مدت باتوجه به در دسترس نبودن داشبورد پشتیبان و عدم امکان ارسال درخواست در بخش پشتیبانی سایت، تیم پشتیبانی از بامداد ۲۳ بهمن تا زمان رفع مشکل از طریق شماره تلفن اعلام شده در سایت و فرم تماس با ما و ایمیل پشتیبانی وظیفه اطلاع رسانی و اعلام زمان رفع مشکل را با کاربران مدیریت کردند و پس از برگشت به شرایط عادی با ارسال پیام به تمامی کاربرانی که تماس گرفته بودند، اطلاع رسانی انجام شد.
اقدامات آینده پشتیبان برای تکرار نشدن اختلالهای مشابه
تجربه ما در پشتیبان از سال ۹۵ و حساسیت ما نسبت به دادههای کاربران، یکی از پایدارترین و کارآمدترین معماریهای مدیریت زیرساخت را در پشتیبان تشکیل داده است. تجربه کاربرانی که در ۴ سال گذشته فایلهای خود را در پشتیبان نگهداری میکنند پایداری و کارآمد بودن این معماری را تصدیق میکند. همیشه و در هر زمانی امکان رخ دادن مشکل در فرایندها وجود دارد اما در مواجه با هر مشکلی اولویت ما در پشتیبان حفظ سلامت دادههای کاربران است و پس از آن برگشت به شرایط عادی است.
در اتفاق امروز تیم پشتیبانی با مقدم شمردن سلامت دادههای کاربران، خسارت وارد شده بر زیرساخت را ترمیم و سرویسها را به حالت عادی برگرداندند.
راهکار پشتیبان برای مشکلاتی از این دست، داشتن دادههای آماده به خدمت در چند ناحیهی جغرافیاییاست. ولی متاسفانه اختلالات چند روز گذشته در اینترنت! کشور باعث شد زیرساخت داخل عاجز از دریافت آخرین دادهها باشد. با توجه به این نکته و تمرکز بر ترمیم زیرساخت اروپا، تصمیم بر این شد که عملیات «سوييچ ترافیک» به زیرساخت ایران تا ساعت ۱۵ انجام نشود و پس از آن در صورتی که شرایط مناسب نشده باشد این روند آغاز شود. از ساعت ۳:۴۵ بامداد عملیات تکمیل دادههای زیرساخت ایران از روی سرورهای بکاپ اروپا با سرعت بیشتری ادامه پیدا کرد ولی در ساعت ۹:۲۵ پس مشاهده نتایج موفقیتآمیز ترمیم، به سرعت قبل بازگردانده شد.
در پایان لازم میدانیم از تمامی کاربران، مخصوصا کاربرانی که با ما تماس نگرفتند و عذرخواهی ما را دریافت نکردهاند، در همینجا، پوزش بخواهیم. همچنین از تمامی کاربرانی که با تماس با بخش پشتیبانی، در این شرایط، همدلی و حمایت و اطمینان خود به ما را اعلام کرده تشکر ویژهای میکنیم. امیدواریم پشتیبانی لایق حمایت و پشتیبانی شما بسازیم.
«پشتیبان، همیشه پشتیبان»