中經記者 秦梟 北京報道 近日,故障網絡安全與基礎設施服務商Cloudflare遭遇自2019年以來最嚴重的全球服務中斷事件,故障持續(xù)近5小時,互聯(lián)導致ChatGPT、網混網絡社交媒體平臺X等多家網站部分用戶無法正常訪問。代集 值得注意的中式是,此次事件并非網絡攻擊所致,可靠考而是性待由配置文件異常引發(fā)系統(tǒng)崩潰。 Cloudflare在隨后不久發(fā)表聲明:“Cloudflare已察覺并正在調查一個影響多個客戶的故障問題:大范圍500錯誤,Cloudflare儀表板和API也出現(xiàn)故障。全球” 該事件再次引發(fā)業(yè)界對集中式網絡基礎設施可靠性的互聯(lián)廣泛討論。 Akamai亞太地區(qū)及日本安全技術和戰(zhàn)略總監(jiān)Reuben Koh在接受《中國經營報》記者采訪時表示,網混網絡問題的代集核心在于集中性風險,現(xiàn)代技術棧的中式復雜性意味著沒有服務商能夠完全避免故障。此次事件進一步證明,可靠考當核心基礎設施出現(xiàn)故障時,可能會拖累部分互聯(lián)網生態(tài)系統(tǒng)。 實際上,集中式網絡基礎設施的崛起源于數(shù)字化浪潮中對效率、成本與技術標準化的追求。在云計算普及初期,亞馬遜AWS、微軟Azure、Cloudflare等巨頭通過構建規(guī)?;瘮?shù)據(jù)中心集群、統(tǒng)一技術架構與全球分發(fā)網絡,大幅降低了企業(yè)數(shù)字化門檻,企業(yè)無須自建復雜的服務器集群與安全防護系統(tǒng),僅需按需付費即可獲得穩(wěn)定服務。 但集中式網絡基礎設施在AI時代面臨嚴峻挑戰(zhàn)。隨著數(shù)字化進程的加速,互聯(lián)網對少數(shù)關鍵基礎設施的依賴程度日益加深。這種高度集中的架構雖然提高了效率,但也使得整個系統(tǒng)變得異常脆弱。一旦核心節(jié)點出現(xiàn)問題,就可能引發(fā)連鎖反應,導致大范圍的服務中斷。 Reuben Koh認為,當關鍵基礎設施過度集中于少數(shù)幾家中心化的超大規(guī)模供應商時,單個配置錯誤或硬件故障的影響范圍將被急劇放大。例如,一個本地故障可能引發(fā)全球范圍的連鎖反應,導致關鍵服務同時癱瘓。問題的根源在于過度的集中性風險。 “行業(yè)一味追求100%的正常運行時間并未觸及核心問題?!痹赗euben Koh看來,“我們必須預設故障必然發(fā)生,并以韌性為核心采用不同的架構設計。這也意味著需要建立多層次的容錯機制,擺脫對中心化可用區(qū)的依賴,轉向更靈活、去中心化的模式。將降級的設計原則融入系統(tǒng),使其在出現(xiàn)故障或承受壓力時能夠靈活應變而非徹底崩潰?!?/p> 近年來,全球云廠商也開始紛紛布局分布式邊緣計算,試圖通過分散式架構降低集中性風險。亞馬遜AWS、微軟Azure、Akamai等云廠商近年來不斷加大在邊緣計算領域的投入,將計算資源從中心化數(shù)據(jù)中心向網絡邊緣延伸,構建起覆蓋全球的分布式計算網絡。這種架構不僅縮短了數(shù)據(jù)傳輸距離,提升了響應速度,更重要的是通過地理分散性降低了單一區(qū)域故障對全局服務的影響。 Reuben Koh表示,展望未來,隨著AI工作負載和實時推理成為數(shù)字常態(tài),性能與運行時間的容錯空間將進一步收窄。依賴單一中心化供應商處理關鍵任務型AI,將成為企業(yè)難以承受的高風險策略。 (編輯:張靖超 審核:李正豪 校對:顏京寧) |