خوانندگان Neowin احتمالاً با قطعی‌ها و اختلالات مکرری که مایکروسافت 365 و سرویس‌های مرتبط با آن با آن مواجه می‌شوند، آشنا هستند. به عنوان مثال، هفته گذشته، M365 در روز نهم به دلیل قطعی Exchange Admin Center (EAC) از دسترس خارج شد و تنها یک روز بعد، کاربران به دلیل یک باگ از دسترسی به اشتراک‌های خانوادگی خود محروم شدند.

مشابه مایکروسافت، گوگل کلود نیز هر از گاهی با چنین مشکلات قطعی مواجه می‌شود و در اواخر ماه گذشته، دقیقاً همین اتفاق افتاد، زیرا سیستم تأمین برق بدون وقفه (UPS) گوگل نتوانست برق بدون وقفه‌ای را که برای آن طراحی شده بود تأمین کند و منجر به قطعی نزدیک به شش ساعت و نیم شد. این مشکل در منطقه “us-east5-c” که در کلمبوس، اوهایو قرار دارد رخ داد و این منطقه شامل سیستم‌هایی بود که بر روی پردازنده‌های AMD EPYC و Intel Xeon ساخته شده بودند.

 

خرابی UPS در مرکز داده گوگل باعث اختلال گسترده در سرویس‌های کلود شد

 

گوگل در مقاله پشتیبانی خود توضیح داده است که چه زمانی و چرا این اتفاق افتاد و همچنین مقیاس مشکل را شرح داده است:

در روز شنبه، 29 مارس 2025، چندین سرویس گوگل کلود در منطقه us-east5-c به مدت 6 ساعت و 10 دقیقه با کاهش کیفیت سرویس یا عدم دسترسی مواجه شدند.

علت اصلی اختلال سرویس، قطع برق در منطقه تحت تأثیر بود. این قطعی برق باعث یک شکست زنجیره‌ای در سیستم تأمین برق بدون وقفه (UPS) شد که مسئول حفظ برق منطقه در چنین مواقعی است. سیستم UPS که برای پر کردن فاصله بین قطع برق شهری و فعال‌سازی ژنراتور به باتری‌ها متکی است، با خرابی بحرانی باتری مواجه شد.

این خرابی باعث شد UPS نتواند عملکرد اصلی خود را که تضمین برق مداوم سیستم است انجام دهد. در نتیجه مستقیم خرابی UPS، نمونه‌های ماشین مجازی در منطقه تحت تأثیر برق خود را از دست دادند و آفلاین شدند که منجر به قطعی سرویس برای مشتریان شد.

قطعی برق و خرابی متعاقب UPS همچنین باعث یک سری مشکلات ثانویه شد، از جمله از دست رفتن بسته‌ها در منطقه us-east5-c که بر ارتباطات شبکه و عملکرد تأثیر گذاشت. علاوه بر این، تعداد محدودی از دیسک‌های ذخیره‌سازی در منطقه در طول قطعی غیرقابل دسترس شدند.

 

گوگل همچنین توضیح داده است که چگونه مشکل را حل کرد:

مهندسان گوگل ترافیک را از محل تحت تأثیر منحرف کردند تا تأثیر را برای برخی سرویس‌ها که وابستگی منابع منطقه‌ای نداشتند، تا حدی کاهش دهند. مهندسان UPS خراب را دور زدند و برق را از طریق ژنراتور تا ساعت 14:49 به وقت اقیانوس آرام در روز شنبه، 29 مارس بازیابی کردند.

اکثر سرویس‌های گوگل کلود کمی پس از آن بازیابی شدند. برخی سرویس‌ها زمان بازیابی طولانی‌تری را تجربه کردند زیرا در برخی موارد برای تکمیل بازیابی کامل به اقدامات دستی نیاز بود.

حق را باید به حقدار داد، این غول فناوری صمیمانه از این حادثه از مشتریان کلود خود عذرخواهی کرده و همچنین اقداماتی را که برای جلوگیری از چنین مشکلی در آینده انجام داده است، مشخص کرده است:

“به مشتریان گوگل کلود که سرویس‌هایشان در طول این اختلال تحت تأثیر قرار گرفت، صمیمانه عذرخواهی می‌کنیم. این سطح کیفیت و قابلیت اطمینانی نیست که ما تلاش می‌کنیم به شما ارائه دهیم و ما در حال برداشتن گام‌های فوری برای بهبود عملکرد و دسترس‌پذیری پلتفرم هستیم.”

 

گوگل متعهد شده است که از تکرار این مشکل در آینده جلوگیری کند و اقدامات زیر را انجام می‌دهد:

• تقویت مسیر خرابی و بازیابی خوشه برای دستیابی به زمان قابل پیش‌بینی و سریع‌تر برای سرویس‌دهی پس از بازگشت برق • ممیزی سیستم‌هایی که به طور خودکار failover نشدند و رفع هر گونه شکافی که مانع این عملکرد شد • همکاری با فروشنده سیستم تأمین برق بدون وقفه (UPS) برای درک و رفع مشکلات در سیستم پشتیبان باتری

گوگل متعهد است که به سرعت و به طور مداوم فناوری و عملیات خود را برای جلوگیری از اختلالات سرویس بهبود بخشد. ما از صبر و شکیبایی شما قدردانی می‌کنیم و مجدداً برای تأثیر بر سازمان شما عذرخواهی می‌کنیم. از کسب و کار شما سپاسگزاریم.

source

توسط nastoor.ir