蓝屏死机,因更新存在缺陷,有用户重启次才成功
在过去的48小时里,发生了一场震撼全球互联网和IT基础设施的数字灾难,全世界的机场、火车系统、银行、医疗机构、酒店、电视台纷纷受到了影响,许多人的生活被打乱,造成的经济损失更是难以估量。
表面上,这场大规模IT系统崩溃体现在Windows电脑的“蓝屏死机”上。大量Windows用户在社交媒体上发布了他们遭遇的蓝屏。
有在机场信息屏上的:
(来源:X)有在室外电子广告牌上的:
(来源:X)还有在赛车场公告牌上的:
(来源:X)甚至连医疗器械也受到了影响:
(来源:X)然而,蓝屏死机,因更新存在缺陷,有用户重启次才成功Windows系统和微软并不是这场崩溃的主角,真正的“元凶”是一家名为CrowdStrike的安全公司,它发布了一个有缺陷的软件(驱动)更新,导致Windows电脑陷入了灾难性的重启循环。
在系统崩溃出现不久后,CrowdStrike的CEO乔治·库尔茨(GeorgeKurtz)就在X平台上强调,这不是一起安全事件或网络攻击,而且“问题已经被识别、隔离并部署了修复”。但并非所有组织都能迅速采取正确的行动。
受此影响,微软365服务出现异常,云端储存服务OneDrive和邮件服务Outlook都出现了宕机。
美国达美航空公司和美国联合航空公司的航班被迫停飞,英国希思罗机场、荷兰阿姆斯特丹国际机场和新加坡樟宜机场等重要机场的IT系统崩溃,导致值机失败、航班延误和停飞,大量乘客被迫滞留在机场。英国和马来西亚的铁路系统也遭遇了类似的问题。
同时,欧洲、澳大利亚和印度的许多银行客户无法访问在线银行,也不能完成转账等交易。
英国的医生办公室和医院失去了对患者记录和预约系统的访问权限。美国的911应急服务也遭遇了技术故障,许多呼叫中心无法正常工作。
在历史上,极少有一个软件(甚至是几行代码)能在短时间内破坏全球的计算机系统,我们有所耳闻的主要是蠕虫和木马攻击,比如2003年的SQLSlammer蠕虫攻击和2017年的勒索软件WannaCry传播。
最近几年的全球大宕机主要发生在IT系统的“服务器端”,例如云服务提供商出现问题、互联网电缆中断或分布式拒绝服务攻击。
滑稽的是,这次的混乱并非由黑客传播的恶意软件引发的,而是由旨在阻止黑客攻击的软件引发的。
一张张荒诞而又带点艺术色彩的照片仿佛在说:“看吧,这个世界就是一个巨大的草台班子。”
问题的起因
大崩溃的根本原因是网络安全公司CrowdStrike为Windows设备发布的一个更新中存在bug。
该更新旨在用于CrowdStrike的Falcon软件,这是一款“端点检测和响应(endpointdetectionandresponse)”软件,旨在保护公司的计算机系统免受网络攻击和恶意软件的侵害。
此次更新属于“内核驱动程序”更新,但它并没有按预期工作,而是导致运行Windows系统的计算机崩溃并无法成功重启。
运行Windows的家用电脑不太可能受到影响,因为CrowdStrike主要由大型组织使用。
独立网络安全研究员兼顾问卢卡斯·奥利尼克(LukaszOlejnik)表示,CrowdStrike软件在低级操作系统层工作,在这里出现任何问题都可能会使操作系统无法启动。
他指出,并非所有运行Windows的计算机都会受到影响。如果一台机器在CrowdStrike推送更新时处于关机状态,它就不会自动更新。
如何修复
当然,在发现问题后,CrowdStrike和微软已经撤回了此次更新,目前也发布了一些解决方法。
令人啼笑皆非的是,官方最早发布的解决方法竟然是大名鼎鼎的“重启试试”。
微软Azure云服务页面指出,一些客户反馈称,他们通过多次重启虚拟机成功解决了系统崩溃。有的客户称其重启了15次才成功。
图|微软最早给出的“重启试试”解决方案(来源:微软)究其原因,似乎是重启可以让受影响的设备有更多机会尝试获取CrowdStrike的未损坏更新。如果重启无法解决问题,微软的建议是使用备份,将系统恢复到CrowdStrike驱动更新之前。
如果不想或无法恢复备份,那就只能由IT管理员开启电脑的安全模式,手动删除受影响的驱动(位于C:\Windows\System32\drivers\CrowdStrike目录下的C-00000291*.sys文件),然后让机器正常启动并获取未损坏的驱动。
对于管理成百上千台电脑和服务器的大公司来说,IT部门无疑面临着巨大的工作量,完全修复可能需要几天的时间,许多IT管理员的周末不得不用来加班。
不过,人类的悲喜并不相通。因为电脑蓝屏,很多打工人的周末从周五就“开始”了。
此次全球宕机潮反映出了IT基础设施是多么的脆弱:如果这是一种勒索软件而不是一次意外的更新bug,情况将比现在糟糕多了。
在IT管理员争先恐后地修复问题、降低影响时,如何防止类似危机再次发生的问题仍没有答案。
“人们可能会现在要求改变现在这种运行模式。”网络安全咨询公司HunterStrategy的研发副总裁杰克·威廉姆斯(JakeWilliams)表示,“CrowdStrike刚刚展示了在没有IT介入的情况下,为何推送更新是不可持续的原因。”
参考资料:
https://www.technologyreview.com/2024/07/19/1095161/fix-windows-pc-microsoft-crowdstrike-outage/
https://arstechnica.com/information-technology/2024/07/crowdstrike-fixes-start-at-reboot-up-to-15-times-and-get-more-complex-from-there/
https://www.theverge.com/24202037/microsoft-crowdstrike-outage-blue-screen-error-photos
排版:朵克斯