داستان اینکه چگونه CrowdStrike یک به روز رسانی را در روز جمعه منتشر کرد و هزاران، ده ها هزار یا شاید حتی صدها هزار کامپیوتر را در سراسر جهان از کار انداخت.
داستان CrowdStrike که با انتشار یک آپدیت کوچک در یک صبح جمعه معمولی، باعث قطعی بزرگ در سراسر جهان شد.
بهروزرسانی نادرست راهحل EDR (تشخیص و پاسخ نقطه پایانی) CrowdStrike بر دستگاههای ویندوز در سراسر جهان تأثیر گذاشته است و به کاربران شرکتها صفحه آبی مرگ (BSOD) را میدهد. به عنوان مثال، این شکست بر سیستم های اطلاعات فرودگاه در ایالات متحده، اسپانیا، آلمان، هلند و سایر کشورها تأثیر گذاشته است.
چه کسانی تحت تأثیر انتشار جمعه CrowdStrike و نحوه بازگرداندن رایانههای آجری قرار گرفتند – همه در این پست…
چه شد؟
همه چیز در اوایل صبح جمعه با کاربران شرکتی در سراسر جهان شروع شد که مشکلات ویندوز را گزارش کردند. در ابتدا، یک نقص در Microsoft Azure مقصر شناخته شد، اما بعداً CrowdStrike تأیید کرد که علت اصلی در درایور csagent.sys یا C-00000291*.sys برای CrowdStrike EDR آن است. و این راننده بود که باعث انبوهی از عکسهای احمقانه دفتر شد که صفحههای آبی (هولناک) را نشان میداد.
اگر بخواهیم همه افرادی را که تحت تأثیر این قطعی قرار گرفته اند فهرست کنیم، چنین لیستی مطمئناً در این پست نمی گنجد – یا ده ها مورد از آنها. بنابراین در عوض به طور خلاصه به قربانیان اصلی سهل انگاری CrowdStrike خواهیم پرداخت. شرکتهای هواپیمایی، فرودگاهها و افرادی که میخواهند به خانه برگردند یا به تعطیلات مورد انتظار بروند، بیشترین تأثیر را داشتند:
- فرودگاه هیترو لندن، مانند بسیاری دیگر، تاخیر پروازها را به دلیل نقص فنی اعلام کرد.
- خطوط هوایی اسکاندیناوی در وبسایت خود اطلاعیهای را منتشر کرد که میگوید: «برخی از مشتریان ممکن است به دلیل مشکل فناوری اطلاعات که چندین کشور را تحت تأثیر قرار میدهد، در رزروهای خود با مشکل مواجه شوند. SAS به طور کامل عملیاتی است، اما تأخیر انتظار می رود.
- در نیوزلند، سیستم های بانکی، ارتباطات و حمل و نقل با مشکلاتی روبرو هستند.
مراکز مختلف پزشکی، فروشگاه های زنجیره ای، متروی نیویورک، بزرگترین بانک آفریقای جنوبی و بسیاری از سازمان های دیگر که زندگی روزمره را راحت تر و راحت تر می کنند، تحت تأثیر قرار گرفتند. لیست کاملی از کسانی که تحت تأثیر قطع برق قرار گرفته اند اینجا است – و لحظه به لحظه در حال افزایش است.
نحوه حل مشکل
در این مرحله، تخمین اینکه چقدر طول می کشد تا کامپیوترهای آسیب دیده در سراسر جهان به طور کامل بازیابی شوند، مشکل ساز است. همه چیز با این واقعیت پیچیده است که کاربران باید به صورت دستی رایانه های خود را در حالت Safe Mode راه اندازی مجدد کنند. و در شرکت های بزرگ، معمولاً انجام این کار به تنهایی و بدون کمک یک مدیر سیستم غیرممکن است.
با این وجود، در اینجا دستورالعمل هایی برای خلاص شدن از شر صفحه آبی مرگ ناشی از به روز رسانی درایور CrowdStrike آمده است:
کامپیوتر خود را در حالت ایمن بوت کنید.
به C:\Windows\System32\drivers\CrowdStrike بروید.
فایل csagent.sys یا C-00000291*.sys را پیدا کرده و حذف کنید.
کامپیوتر خود را در حالت عادی ریستارت کنید.
و در حالی که sysadminهای شما این کار را انجام میدهند، میتوانید از هکی استفاده کنید که امروز از هند منتشر شده است: کارمندان یکی از فرودگاههای کشور شروع به پر کردن کارتهای پرواز به صورت دستی کردهاند.
چگونه میتوانستیم از شکست جلوگیری کنیم؟
اجتناب از این وضعیت باید ساده باشد. اولاً، بهروزرسانی نباید در روز جمعه منتشر میشد. این طبق قاعدهای است که از سال نقطه برای همه در صنعت شناخته شده است: اگر خطایی رخ دهد، زمان بسیار کمی برای رفع آن قبل از تعطیلات آخر هفته وجود دارد، بنابراین مدیران سیستم در تمام شرکتهای تحت تأثیر باید در آخر هفته کار کنند. چیزها را اصلاح کنید
مهم است که تا حد امکان در مورد کیفیت به روز رسانی های منتشر شده مسئولیت پذیر باشید. Kaspersky در سال 2009 برنامه ای را برای جلوگیری از خرابی های انبوه مانند این مورد در مشتریان خود راه اندازی کرد و یک ممیزی SOC 2 را گذراندیم که امنیت فرآیندهای داخلی ما را تأیید می کند. اکنون 15 سال است که هر بهروزرسانی در تنظیمات و نسخههای سیستم عامل مختلف تحت آزمایش عملکرد چند سطحی قرار گرفته است. این به ما امکان می دهد تا مشکلات احتمالی را از قبل شناسایی کرده و آنها را در محل حل کنیم.
اصل رهاسازی دانه ای باید رعایت شود. به روز رسانی ها باید به تدریج توزیع شوند، نه همه به یکباره بین همه مشتریان. این رویکرد به ما امکان میدهد فوراً واکنش نشان دهیم و در صورت لزوم، بهروزرسانی را متوقف کنیم. اگر کاربران ما مشکلی داشته باشند، آن را ثبت می کنیم و حل آن در همه سطوح شرکت در اولویت قرار می گیرد.
همانند حوادث امنیت سایبری، علاوه بر رفع آسیب قابل مشاهده، باید علت اصلی را نیز پیدا کنید تا از تکرار این نوع مشکلات در آینده جلوگیری کنید. لازم است بهروزرسانیهای نرمافزاری در زیرساخت آزمایشی از نظر عملکرد و خطاها قبل از ارائه آنها به زیرساخت «مبارزهای» شرکت بررسی شود و تغییرات بهتدریج اعمال شوند – نظارت مستمر برای خرابیهای احتمالی.
رسیدگی به حوادث باید بر اساس یک رویکرد یکپارچه برای حفاظت از ساختمان از یک تامین کننده قابل اعتماد با سخت ترین الزامات داخلی برای امنیت، کیفیت و در دسترس بودن خدمات آن باشد. مبنای این کار می تواند خط راه حل های Kaspersky Next باشد. این به شرکت شما کمک می کند نه تنها سرپا بماند – بلکه کارایی سیستم امنیت اطلاعات شما را نیز افزایش می دهد. این را می توان به تدریج انجام داد – افزایش حفاظت مرحله به مرحله – یا همه در یک حرکت. امروز با ما از زیرساخت های خود محافظت کنید تا قطعی جهانی بعدی بر مشتریان شما تأثیر نگذارد.
ترجمه:
پیشگامان تجارت امن ایرانیان