亞馬遜云業(yè)務(wù)AWS經(jīng)歷了一場(chǎng)嚴(yán)重故障,上千受影時(shí)潛損失導(dǎo)致全球眾多大型網(wǎng)站癱瘓。網(wǎng)站務(wù)年
當(dāng)?shù)貢r(shí)間10月20日下午3點(diǎn)左右,響亞亞馬遜AWS發(fā)布公告稱,馬遜美元已解決了當(dāng)天持續(xù)了約15小時(shí)的云服服務(wù)故障問(wèn)題,“所有AWS服務(wù)均恢復(fù)正常運(yùn)行”。最嚴(yán)重宕不過(guò),或超部分服務(wù)(例如AWS Config、百億Redshift和Connect)仍有積壓的上千受影時(shí)潛損失消息,將在接下來(lái)的網(wǎng)站務(wù)年數(shù)小時(shí)內(nèi)處理完畢。
目前,響亞AWS尚未給出詳細(xì)的馬遜美元故障原因報(bào)告。根據(jù)Synergy Research Group的云服數(shù)據(jù),作為全球規(guī)模最大的最嚴(yán)重宕云服務(wù)巨頭之一,AWS占有全球云服務(wù)市場(chǎng)份額的或超30%以上,在世界各地設(shè)有數(shù)據(jù)中心。
故障觸發(fā)原因:核心節(jié)點(diǎn)出現(xiàn)DNS解析故障
此次故障由數(shù)據(jù)庫(kù)網(wǎng)絡(luò)故障引發(fā),影響了全球成百上千個(gè)網(wǎng)站和應(yīng)用程序。20日當(dāng)天,美西時(shí)間凌晨12點(diǎn)左右,AWS的核心節(jié)點(diǎn)之一美國(guó)東部1區(qū)(US-EAST-1)首先報(bào)告出現(xiàn)“顯著的錯(cuò)誤率和延遲”現(xiàn)象。該節(jié)點(diǎn)位于美國(guó)弗吉尼亞州北部,是最早啟用、規(guī)模最大的主要節(jié)點(diǎn),許多全球服務(wù)默認(rèn)部署于此。
最早一批受到嚴(yán)重影響的網(wǎng)站和應(yīng)用程序包括亞馬遜、聊天軟件Snapchat和Facebook,以及熱門游戲Fortnite和學(xué)習(xí)平臺(tái)Canvas等等。根據(jù)公告,AWS在20日當(dāng)天凌晨12時(shí)26分確認(rèn),故障的觸發(fā)原因是“區(qū)域性DynamoDB(AWS旗下云原生數(shù)據(jù)庫(kù))服務(wù)端點(diǎn)的DNS解析問(wèn)題”。
DNS(域名系統(tǒng))是一種將網(wǎng)址轉(zhuǎn)換為IP地址的系統(tǒng),這也就意味著,客戶端無(wú)法把DynamoDB的域名以正常的速度解析成正確的IP地址,從而導(dǎo)致了后續(xù)一連串服務(wù)故障。在凌晨2時(shí)24分,AWS解決了美國(guó)東部1區(qū)DynamoDB的DNS問(wèn)題,各項(xiàng)服務(wù)開始恢復(fù)。
然而,就在大家以為問(wèn)題得到解決時(shí),第二波故障開始出現(xiàn)。AWS發(fā)現(xiàn),其依賴于DynamoDB的虛擬機(jī)服務(wù)EC2的內(nèi)部子系統(tǒng)也出現(xiàn)了問(wèn)題,導(dǎo)致無(wú)法正常啟動(dòng)EC2實(shí)例,而AWS的多個(gè)服務(wù)也受其影響出現(xiàn)了網(wǎng)絡(luò)連接問(wèn)題。
在恢復(fù)過(guò)程中,AWS對(duì)啟動(dòng)EC2實(shí)例等操作進(jìn)行了限流,直到當(dāng)天下午3時(shí)01分,所有AWS服務(wù)才恢復(fù)正常運(yùn)行。
根據(jù)網(wǎng)絡(luò)故障追蹤網(wǎng)站Downdetector的統(tǒng)計(jì),金融服務(wù)公司Venmo和Robinhood、加密貨幣交易所Coinbase、蘋果公司的音樂(lè)和電視產(chǎn)品、AI公司Perplexity、視頻網(wǎng)站Zoom、索尼游戲平臺(tái)PlayStation、美國(guó)聯(lián)合航空等網(wǎng)站或應(yīng)用都在當(dāng)天經(jīng)歷了服務(wù)中斷,而英國(guó)政府網(wǎng)站Gov.uk和英國(guó)稅務(wù)海關(guān)總署也遇到了問(wèn)題。在故障發(fā)生后的短短兩小時(shí)內(nèi),僅美國(guó)地區(qū)的相關(guān)投訴量便突破2萬(wàn)條。
專家:全球網(wǎng)絡(luò)對(duì)幾大云巨頭的依賴程度越來(lái)越深
分析指出,此次宕機(jī)事件凸顯了全球互聯(lián)網(wǎng)基礎(chǔ)設(shè)施的脆弱性。
根據(jù)互聯(lián)網(wǎng)性能監(jiān)控公司Catchpoint的估算,AWS此次服務(wù)中斷造成的經(jīng)濟(jì)損失將至少達(dá)到數(shù)十億美元。Catchpoint的CEO Mehdi Daoudi指出,如果將本次宕機(jī)的后續(xù)影響、公司停業(yè)損失和“數(shù)百萬(wàn)名無(wú)法進(jìn)行工作的員工的生產(chǎn)力損失”都考慮在其中,累計(jì)損失金額將會(huì)是數(shù)百億美元乃至千億美元。
咨詢公司Duckbill的首席云計(jì)算經(jīng)濟(jì)學(xué)家Corey Quinn表示,此次事故可能是AWS自2021年12月發(fā)生重大中斷以來(lái)最嚴(yán)重的一次:“問(wèn)題在于,這次到底算不算那種‘大規(guī)模災(zāi)難’,還是由于我們的系統(tǒng)之間更加緊密相連、對(duì)亞馬遜的依賴更深,所以造成的影響看起來(lái)更大?”
這讓人聯(lián)想起去年7月時(shí),網(wǎng)絡(luò)安全公司CrowdStrike造成的微軟大規(guī)模藍(lán)屏事件。那次大規(guī)模宕機(jī)事件因CrowdStrike公司升級(jí)安全軟件而引發(fā),影響了全球大約850萬(wàn)臺(tái)安裝微軟Windows操作系統(tǒng)的設(shè)備。
網(wǎng)絡(luò)安全公司NymVPN的首席數(shù)字官Rob Jardin表示,AWS的本次宕機(jī)事件似乎并非由網(wǎng)絡(luò)攻擊引起,更可能是由于“亞馬遜某個(gè)主要數(shù)據(jù)中心出現(xiàn)技術(shù)故障”所致:“當(dāng)系統(tǒng)過(guò)載或網(wǎng)絡(luò)中的關(guān)鍵組件宕機(jī)時(shí),就可能出現(xiàn)這種問(wèn)題。由于大量網(wǎng)站和應(yīng)用程序都依賴AWS,影響往往會(huì)迅速蔓延?!?/p>
美國(guó)圣母大學(xué)(University of Notre Dame)門多薩商學(xué)院的信息技術(shù)教授Mike Chapple也強(qiáng)調(diào),問(wèn)題并非出在數(shù)據(jù)庫(kù)本身,而是域名解析系統(tǒng):“這次事件提醒我們,整個(gè)世界對(duì)亞馬遜、微軟和谷歌這少數(shù)幾家大型云服務(wù)商的依賴有多深。當(dāng)一家主要的云廠商‘打噴嚏’時(shí),整個(gè)互聯(lián)網(wǎng)都會(huì)感冒。”
或許是事故讓市場(chǎng)重新認(rèn)識(shí)到了AWS的重要性,20日當(dāng)天,亞馬遜(Nasdaq:AMZN)股價(jià)漲1.61%收于每股216.48美元,總市值2.31萬(wàn)億美元。
澎湃新聞?dòng)浾?胡含嫣