![]() |
新聞中心
當前位置:網站首頁 > 新聞中心
“宕機”背后:云安全的問題有多少?
近日,阿里云突發(fā)的宕機事件又將云安全推到風口浪尖,但是比起賠償,業(yè)內人士更加關注此次宕機事件帶來的影響和事件背后折射出的問題。經過十余年的發(fā)展,中國的云計算市場已經初具規(guī)模,各種新技術、新應用、新場景、新架構成為公有云/私有云平臺市場能夠保持快速、持續(xù)增長的助推器。目前越來越多的企業(yè)將其業(yè)務系統(tǒng)、數(shù)據部署在云上,云服務器一旦宕機,企業(yè)業(yè)務必然會受波及。因而安全被各企業(yè)視為頭等要務。理論上不存在“永不宕機”的云
事實上,不止是阿里云,其他云服務提供商也都出現(xiàn)過宕機事件。僅2018年一年,全球主流云計算廠商曾發(fā)生數(shù)十起宕機事故。2018年1月18日,谷歌云自動化失效導致宕機;
2018年3月2日,AWS宕機致部分Alexa失聲;
2018年5月31日,AWS北弗吉尼亞地區(qū)數(shù)據中心出現(xiàn)硬件問題;
2018年6月17日,因愛爾蘭數(shù)據中心的恒溫系統(tǒng)出現(xiàn)問題,微軟Azure愛爾蘭數(shù)據中心宕機;
2018年7月20日,騰訊云云硬盤故障;
2018年9月4日,微軟云Azure數(shù)據中心遭雷劈宕機;
2018年11月9日,谷歌公有云下的Kubernetes服務(GKE)宕機……不難發(fā)現(xiàn),雖然宕機的原因不盡相同,但宕機卻時有發(fā)生。
據悉,云服務產生故障的原因一般分為兩類:一是因為誤操作導致的問題(其實用不用云服務都有這個問題),二是云平臺故障導致的問題。中國信息通信研究院云計算與大數(shù)據研究所所長何寶宏也表示,目前發(fā)生的宕機事故約80%是因為技術人員操作不規(guī)范或誤操作導致的,相比于“誤操作”,云平臺故障的技術問題僅占20%。
云服務提供商的云平臺可提供服務器快照、數(shù)據庫備份和日志備份等諸多功能,這些功能為企業(yè)帶來了便利,遠比企業(yè)自己構建類似的服務簡單好用,但是涉及到權限問題就值得思考了。使用云平臺上的賬戶權限管理時,嚴格地避免無意或者惡意的“誤操作”很重要,因為如果云服務管理權限每個人都有,那么很容易出現(xiàn)“誤操作”的問題,所以要嚴格控制賬戶管理的權限。
無論是傳統(tǒng)的環(huán)境,還是云環(huán)境,都不能做到絕對的“持續(xù)可用”。何寶宏對此表示,理論上任何技術或者服務出現(xiàn)中斷都是不可避免的,僅是概率大小的問題。
雖然所有的云服務都不是絕對安全的,沒有辦法100%保證正常的系統(tǒng)。但是大部分情況下,云環(huán)境的可用性和可靠性都比傳統(tǒng)環(huán)境高,這主要是因為云平臺的運維更加專業(yè)??梢姡M管云會發(fā)生故障,但云仍然是值得信任的。
服務可靠性、業(yè)務連續(xù)性需不斷加強
未來云服務或將像水電煤一樣成為基礎設施。停電1分鐘,對于一般家庭而言,也許只意味著少看一會兒電視、少吹一會兒空調,但對于企業(yè)而言,或許意味著一條生產線的癱瘓、整個生產流程的推倒重來。同理,云服務器宕機1分鐘,對于云服務提供商來說是一次運維故障,但對企業(yè)而言,或許意味著客戶的流失甚至破產,特別是不可逆的故障不是云服務提供商賠償就能挽回的。
有業(yè)內專家透露,宕機的后果可以分為兩類,一種是可恢復的,一種是不可恢復的。例如,此前騰訊云因硬盤故障導致一家初創(chuàng)公司近千萬元級的平臺數(shù)據丟失,且不能恢復,讓騰訊云元氣大傷,與之相比,阿里云的損失就沒有那么慘了。
可見此次事件折射出來的問題并不完全屬于云安全范疇,而是隨著云計算在各垂直領域的不斷滲透,云服務的可靠性、業(yè)務連續(xù)性成為下一步發(fā)展云計算的重中之重。
可靠性和業(yè)務連續(xù)性一直是電信業(yè)非常重視的指標,而云廠商對于服務可靠性的要求還不夠。何寶宏指出,該問題并不只出現(xiàn)于云廠商提供的服務中,而是新興行業(yè)發(fā)展初期常常會遇到的問題。例如,2016年國家電網公司經營區(qū)域內城市配電網和農村配電網的供電可靠率分別達到99.946%、99.782%,但隨著近年來工業(yè)互聯(lián)網的需求越來越大,對電網的依賴性越來越高,99.9999%的供電可靠率也逐漸出現(xiàn)。由此可見,一項服務的可靠性可以隨著人們對于該服務的依賴性而越來越高的。
未來,云服務的可靠性和業(yè)務連續(xù)性將會隨著企業(yè)上云以及垂直行業(yè)對云服務的依賴程度越來越高而不斷提升。當然這樣的提升需要更多經驗的積累和時間的考驗,眼下還是應該盡量避免宕機事件的發(fā)生。?
“多云”部署或成為新的保障
諸多宕機事件告訴我們,不論是公有云還是私有云,面對天災人禍,都不能獨善其身。為減少業(yè)務中斷帶來的損失,云服務廠商需要構建云容災方案。
何寶宏指出,預防宕機發(fā)生可以從多個方面著手。
一是云廠商技術上的完善,即增強云服務的可靠性和業(yè)務連續(xù)性,但毋庸置疑的是無論可靠性達到幾個9都無法保證云服務“永不宕機”。
二是企業(yè)需根據自身特點選擇云災備和云保險服務,盡量在經濟和人員條件可行的情況下使用這些分散風險,如果故障只出現(xiàn)在一個服務器集群,如果采用異地災備的方案,就可以在最快時間切換到另一個集群下,保持系統(tǒng)可用;云保險則是企業(yè)的最后一道保障。
三是增強用云規(guī)范意識,為避免由于人員的誤操作或者相關人員操作不規(guī)范造成的宕機事故,相關企業(yè)和政府機構應加強技術人員的培訓和災備意識的建立,企業(yè)的IT人員日常應做到異機備份、數(shù)據容災、業(yè)務雙活、定期對災備和雙活進行演練等,盡可能避免云故障帶來的損失。
宕機事件的發(fā)生使不少企業(yè)對云服務的部署方式產生了質疑,于是,“多云戰(zhàn)略”成為很多企業(yè)正在考慮的方案。業(yè)內分析師也坦言,真正安全的方式需要將重要業(yè)務分別放在不同的“籃子”里,也就是選擇多個供應商,進行“多云”部署?!岸嘣啤辈渴鸨旧硪彩且环N災備預案,如果自身服務非常重要,可以考慮租用多個云服務互為主備,或者自建機房,只是這樣成本和技術復雜度會成倍增加。
對于初創(chuàng)企業(yè)或中小企業(yè)而言,自建機房的運維難度很大,運維水平也遠低于大的云服務廠商,因而故障概率更大、損失更加不可控。所以采用多云或混合云可能是未來最為靠譜的方案,純公有云、純私有云都是不太安全的解決方案。
而有實力的企業(yè)應該盡可能自建服務器,將核心數(shù)據、核心業(yè)務邏輯放在自己的內網服務器上,前端模塊等可以考慮放在公有云服務器上,這樣的話可以最大限度地實現(xiàn)分離,保障企業(yè)的用云安全。
|