7 月 22 日,就在云服務廠商青云第一屆用戶大會進行的同時,青云的云服務出現(xiàn)了中斷。恰好國內(nèi)的一些科技網(wǎng)站使用的都是青云,網(wǎng)站無法點擊,也使得這次云故障被快速傳播。
業(yè)界的第一反應是:這可能是一起蓄謀的 DDoS攻擊,為的就是讓青云在開用戶大會的同時應接不暇。
媒體Bianews 第一時間爆出了青云故障的報道,隨即有人拿著這篇報道質(zhì)問阿里云的公關(guān),因為當天也恰逢阿里云 6 周年大會。
后來的事實證明,青云的這次事故其實源自于其內(nèi)部硬件故障,與友商并無關(guān)系。
突如其來的云服務中斷,使得青云大會上宣布的技術(shù)創(chuàng)新、合作伙伴演講甚至降價策略變得十分尷尬,因為云服務的穩(wěn)定性比這一切都遠遠重要。
合作伙伴融云的首席架構(gòu)師不得不趕到青云現(xiàn)場辦公,解決用戶問題。而據(jù)了解 OneAPM、快忘牛盾、綠盟、運智慧、聽云等 10 多家企業(yè)級服務公司都在青云上,這些企業(yè)級服務公司間接會影響到更多的公司。
云安全的標準應該是機房被轟炸也應該毫無感覺。
「云服務要做就要做高容錯,別說一臺設備壞了,一個機房被轟成渣也要讓客戶毫無感覺才對。」一位用戶在青云的微博下如此評價。
但在青云的事故中,直到第二天 7 月 23 日下午,青云對外發(fā)出第一條危機公關(guān)微博,說明是其所采用的H3C(華三)服務器出現(xiàn)故障。
青云官方微博錯過了對外的最佳危機公關(guān)時間,遲到的說明反而加重了業(yè)界對故障的各種猜測。
首先,青云出現(xiàn)故障確實不僅僅是青云軟件層面的問題。青云對故障的解釋為:
「本次網(wǎng)絡中斷是完全因罕見的硬件故障導致,故障發(fā)生在匯聚層,我們將兩臺 H3C S5820V2 交換機為 IRF2 堆疊使用,在一臺設備故障后,S5820V2 的 IRF2 分裂檢測機制并未觸發(fā),導致設備堆疊的冗余能力失效。我們在故障發(fā)生后立即將匯聚層的兩臺交換機進行了切換,徹底杜絕了此類的事情的發(fā)生。」
青云內(nèi)部人士對極客公園記者解釋:“我們確實做了100%的冗余措施,但是因為H3C的硬件出現(xiàn)了軟件故障,導致堆疊失效。并且是經(jīng)過業(yè)界人士的鑒定?!?/p>
事故最后并沒有確定的說法到底是否是H3C的硬件出現(xiàn)了軟件層面的故障,但在H3C官微在青云更換交換機的微博下留言,承認這起事故確實是H3C的原因。
H3C及其低調(diào)地承認青云的故障是是因為自己的設備問題導致。
盡管青云向外界解釋了這起事故并不全是自身的原因,但依然沒有得到原諒。最主要的原因是因為:青云是直接面對客戶的服務商,一旦云服務中斷,客戶的第一投訴人是青云,而不是其背后的硬件提供商。
其次,H3C和思科的硬件設備是云行業(yè)普遍采用的設備,出現(xiàn)這樣的問題是首次,青云的運氣實在差,趕上了低概率硬件問題。但甲方把乙方的交換機故障公布出來是業(yè)界首次,在云服務出現(xiàn)故障時揭露是合作伙伴原因?qū)е拢谀撤N程度被業(yè)界理解為是一種推卸責任。
而且,青云并沒有做好即時的危機公關(guān),22 號出現(xiàn)問題的當天,并沒有在微博第一時間公布處理的情況,而是到 23 號才發(fā)出第一條解釋的微博。而且遺憾的是,在關(guān)鍵解釋硬件型號的地方—— S5820 被錯寫成 S5280。
最后,在技術(shù)上的處理,青云的措施依然是比較殘暴而毫無解釋的——“直接關(guān)閉北京 2 區(qū)的訪問”,這再一次導致了很多用戶的網(wǎng)站無法打開。用戶的質(zhì)疑是:“為什么不能選擇用戶晚上流量最少的時刻進行更換?!?/p>
用戶對此次安全事故的最終評價是:“在正常危機過程中,青云處理故障的能力、方法,還有公關(guān)的介入和能力都不得人意?!?/p>
云安全三大隱患
「失望」、「準備遷移」、「賠錢」,這是用戶在云服務中斷后的普遍反應。每一家云廠商都可能面臨像青云一樣類似的技術(shù)隱患。提早發(fā)生安全事故對云廠商自身是一個非常好的提醒,對今后用戶占據(jù)大量市場后是有利的。梳理近 1 年以來發(fā)生的云安全事故,我們發(fā)現(xiàn):
去年 11 月,今年 3 月微軟 Azure 出現(xiàn)過云故障。
蘋果在3月和7月都出現(xiàn)過問題,3 月的癱瘓更是超過 11 個小時,App Store、Apple Music、Apple Radio、Apple TV 等,甚至是 OS X 軟件更新都受到了影響。
黑色 5 月里,網(wǎng)易、支付寶、攜程都連續(xù)出現(xiàn)問題。其中支付寶出現(xiàn)的問題和今年 7 月紐交所技術(shù)故障導致的交易暫停都是設計金融領(lǐng)域比較嚴重的事故。
支付寶解釋自己故障的原因是運營商的光纖被挖斷導致。
6 月阿里云香港機房癱瘓 12 個小時。
今年 3 月騰訊云也曾出現(xiàn)用戶無法訪問,回應是上海機房出現(xiàn)問題。
每一個事故都有自己獨特的原因,那么如何系統(tǒng)地看待云事故,我請教了百度云安全部技術(shù)主席王宇。
王宇認為,涉及之前出現(xiàn)的云事故大體可以分為三類:
「首先是硬件故障。云環(huán)境下硬件故障是十分常見的情況,在設計支撐云服務的底層基礎設施之初就應該充分考慮。如何避免單點,如何實現(xiàn)熱備及自動故障恢復甚至「帶傷運轉(zhuǎn)」是每個云服務商在事前就必須考慮的問題,傳統(tǒng)意義上簡單的災備并不能滿足云服務的高可靠要求。
除了青云的此次事故,5 月網(wǎng)易出現(xiàn)的部分服務無法訪問,業(yè)界也有觀點認為是其網(wǎng)絡設備板卡出現(xiàn)問題,這都屬于硬件方面的準備和考慮不足所致?!?/p>
「其次人為誤操作。對于云環(huán)境下的業(yè)務來說,單次誤操作的影響力無疑被很大程度的放大了。雖然每個云服務商都應該有 SOP(Standard Operation Procedure,即標準作業(yè)程序,就是將某一事件的標準操作步驟和要求以統(tǒng)一的格式描述出來,用來指導和規(guī)范日常的工作)和 BCP(業(yè)務持續(xù)性計劃、Business Continuity Plan),但在實際的制定和執(zhí)行過程中經(jīng)常會出現(xiàn)考慮不周或者執(zhí)行不到位的情況。云服務提供商需要通過對外不斷的學習評估業(yè)內(nèi)之前出現(xiàn)過的案例,以及其處理方式的妥善與否來改進完善自己的 SOP 和 BCP,對內(nèi)結(jié)合自己的業(yè)務場景不斷進行演練改進,提升其執(zhí)行力度和熟練程度。
簡單來看,出現(xiàn)問題后的恢復時間長短其實成為衡量一個廠商服務能力的一個重要指標,之前國外云廠商能在完全中斷服務的情況下,2 個小時內(nèi)恢復云,屬于相對成功的案例?!?/p>
「第三點不得不提到由于被攻擊或人為惡意操作導致的問題。
云服務模式下的信息和數(shù)據(jù)高度集中,對云服務提供商的安全能力提出了非常高的要求,如何抗住外部黑客攻擊入侵以及內(nèi)部惡意人員的覬覦,讓服務和數(shù)據(jù)安全的存儲和使用,滿足 CIA(機密性,完整性和可用性)要求,云服務商需要重點在安全上花大力氣和大投入。」
DDoS成為針對服務和數(shù)據(jù)的最猖獗的攻擊之一
2014 年的雙十一,一家云安全公司服務的互聯(lián)網(wǎng)金融客戶被攻擊,這次攻擊持續(xù)時間很長。云安全公司通過自己的線人找到了蓄意攻擊的黑客。
此時的黑客正在泰國享受海灘和陽光,并夸下??冢骸肝乙呀?jīng)收入定金 2 萬,如果攻下來還會有更多獎勵,我會一直攻擊的?!?這家云安全公司和黑客繼續(xù)搏斗了一天一宿,黑客不斷變化策略,工程師隨即加強防護,最終黑客放棄了,也不得不把 2 萬的定金還回去。
像這樣的攻擊幾乎始終在云計算領(lǐng)域上演著,來自于競爭對手雇傭黑客進行攻擊;黑客為顯示自己的技術(shù)發(fā)起攻擊;通過對用戶網(wǎng)站攻擊進行敲詐勒索,各種 DDoS 攻擊在此消彼長。攻擊者會輪流嘗試流量攻擊、CC 攻擊、混合型攻擊等,斷斷續(xù)續(xù)持續(xù)幾天時間,直到攻擊者得手或死心。其中 CC 攻擊(Challenge Collapsar,挑戰(zhàn)黑洞)主打應用層,也是 DDoS 攻擊的一種。
DDoS 的含義是「分布式拒絕服務」。第一個D表示用的是分布式的資源,而 DoS 是目標和結(jié)果,通過拒絕服務讓用戶業(yè)務失去可用性,這里可能是不能訪問網(wǎng)頁、不能下單、看不到商品、搜索不出來結(jié)果等等。
黑客試圖把云服務商的寬帶占滿,或者耗盡其系統(tǒng)或數(shù)據(jù)庫計算或 IO 能力。由于其攻擊手段是分布式的,攻擊源可能來自很多機器,比如一些被控制的肉機或者花錢包下來的機房。肉機來源多種多樣,可能是被控制的個人計算機、服務器或者網(wǎng)絡設備。
近些年來的 DDOS 攻擊源和攻擊方式上有一些流行趨勢:
1 反射 DdoS(DrDDOS) 攻擊被廣泛的利用,利用開放在互聯(lián)網(wǎng)上的一些公共服務或操作系統(tǒng)的特性,攻擊者發(fā)出的一個小流量數(shù)據(jù)包通過反射擴大到幾十倍或上百倍。比如 1G 的流量經(jīng)過存在漏洞的服務器變成 10G 流量,可以快速堵滿一個小機房的出口寬帶。
2 嵌入式設備變成攻擊源日漸頻繁。隨著 IOT 的普及,智能家居,路由器,無線接入點,甚至是城市的公共服務比如全城 Wi-Fi 等。這些終端成為黑客可攻擊的目標。我們甚至觀察到,使用手機參與的網(wǎng)絡攻擊行為。這其中,有些嵌入式設備如路由器作為網(wǎng)絡最前端的接入點,其擁有的帶寬和數(shù)據(jù)包收發(fā)處理能力是相當恐怖的。
3 第三種方式就是包機房。這種方式雖然并不新鮮,屬于老生常談,但很多大流量的攻擊如 Syn Flood 一般都是此種類型的環(huán)境打出,由于其來源 IP 偽造,在實際的攻擊源追溯方面,也存在一定的難度。DDoS 一般都是蓄意攻擊,黑客愿意付出一定的成本包機房是顯而易見的。有時云服務商被攻擊,看到攻擊來源是世界各地的,其實往往是黑客包的一個機房。
王宇認為有一個重要趨勢是所有云服務商都必須注意:自己的服務可能會被黑客作為攻擊源打外部用戶。云服務商需要對自己提供的服務提高檢測能力,防止自己的機器被黑客利用,同時在攻擊發(fā)生時,云服務商需要要有一定的預警和壓制能力。
目前各家云服務和安全廠商都在推廣自己的 CDN 服務,CDN 在某種程度商可以抗擊 DDoS 攻擊,為了了解其中的機制,我也求助了 UPYUNCTO 黃慧攀。
「一般黑客通過 DDos 攻擊云服務商或者云上的某家企業(yè),會主要攻打一個機房或者說某一個節(jié)點,讓這個節(jié)點的帶寬全部跑滿。這就像是你的身體有多大,你就能承受多少力量。如在被攻擊時,可以釋放更多的 CDN 節(jié)點給到被攻擊方,同時把受到攻擊的用戶全部轉(zhuǎn)移到高防機房,在半小時內(nèi)逐一排查,最后確認被攻擊的客戶和攻擊來源。這就是 CDN 防止 DDos 的機制?!?/p>
相關(guān) DDoS 的 qq 群
新型隱患 0day 漏洞與持續(xù)升溫的 APT 攻擊
不久前,在知名論壇軟件系統(tǒng) Discuz X3.2 最新版源碼包中的默認插件 dzapp_haodai 中,被發(fā)現(xiàn)存在高危漏洞。Discuz 是國內(nèi)最主流的論壇軟件系統(tǒng),用戶量大,影響范圍廣。dzapp_haodai 是一款好貸站長聯(lián)盟插件,站長安裝之后可以增加社區(qū)貸款頻道,實現(xiàn)銀行、小貸公司等上萬種產(chǎn)品的數(shù)據(jù)展示和使用。
近1年,黑客緊盯互聯(lián)網(wǎng)金融領(lǐng)域,該漏洞對黑客的吸引力不言自明。一旦黑客獲取到服務器權(quán)限,就可以盜取用戶信息、資金賬戶。0day 漏洞主要是軟件漏洞導致的黑客攻擊。在 SaaS 軟件層面,因為涉及到用戶的加密和解密,黑客會偽造成訪客,即便沒有證書讀取加密的數(shù)據(jù),也能夠入侵你的系統(tǒng)。
Gartner 的最新統(tǒng)計,75% 的攻擊行為已經(jīng)由網(wǎng)絡層轉(zhuǎn)移到了應用層,在最近美國計算機安全協(xié)會 (CSI)/美國聯(lián)邦調(diào)查局 (FBI) 的一項研究中也表明:在接受調(diào)查的公司中有 52% 的公司的系統(tǒng)遭受過外部入侵,但其中有 98% 的公司都是裝有防火墻的。
代表黑客攻擊最高水平的當屬 APT(Advanced Persistent Threat 高級持續(xù)性威脅)攻擊,其是一種利用 0day 等先進的攻擊手段對特定目標進行長期持續(xù)性網(wǎng)絡攻擊的攻擊形式。A 表示高級,是指在資源和時間商的有非常多的充足,可能包括漏洞,用到的木馬,滲透用的定制化工具。P 體現(xiàn)在持續(xù)性,T 是有針對性威脅。
0day 漏洞之所以可怕,是因為黑客已經(jīng)掌握而官方還沒有相關(guān)補丁,但最可怕的不是漏洞存在的先天性,而是 0day 的不可預知性,擁有 0day 的黑客完全可以猶如無人之境在目標系統(tǒng)中肆意窺視破壞。只有早于黑客發(fā)現(xiàn)漏洞,或者在黑客展開 0day 攻擊之前打上補丁,才能避免安全事故的發(fā)生。在尚未升級漏洞補丁之前,包含 0day 漏洞的網(wǎng)站都處在「裸奔」狀態(tài)。
而APT 攻擊是隱藏性的,專門針對的是核心數(shù)據(jù)或情報,比如阿里云在金融和政府領(lǐng)域應用較多,最近收購的瀚海源,也是為了更多的防范 APT 攻擊。
判斷云服務是否安全的「潛規(guī)則」
今年 UPYUN 也曾出現(xiàn)了因為數(shù)據(jù)中心光纖被挖斷導致的服務中斷,受到影響的客戶都按照 150 倍的賠償,基數(shù)是前一天的消費額度。而這次青云事故對用戶的賠付也超過百萬。
但實際上,云服務終端對用戶的賠付也只是后話,用戶真正的損失很難有一個具體的量化指標。因此在選擇云服務商的具體指標上就要更加仔細。
對于用戶而言,哪些因素是判斷一家云服務商安全的重點呢?UPYUNCTO 黃慧攀告訴我了一些可以評判的「潛規(guī)則」。
第一通過業(yè)務成熟度,判斷某一類云廠商所提供的服務的能力。在簽訂云廠商的時候,要考量合同和業(yè)績,SLA 保障資質(zhì)是關(guān)注重點,SLA 是 Service-Level Agreement 的縮寫,意思是服務等級協(xié)議。是關(guān)于網(wǎng)絡服務供應商和客戶間的一份合同,其中定義了服務類型、服務質(zhì)量和客戶付款等術(shù)語。比如保障服務中斷時間不能超過多少,在線達到 99.9%,幾個 9 的穩(wěn)定性;一年內(nèi)問題累計時長不能超過多少。
其次,用戶在選擇服務商的地方,用戶對自己的技術(shù)部署也要有考量,不能全部依賴云服務商。有條件的用戶,在云上要自己設計災備制,避免單點服務。可以選擇一個服務商不同地區(qū)的機房,或者同時采用多家云服務。
另外,在具體運營中還要照顧到一些細節(jié),比如用戶登錄的賬號安全。
UCloud和洋蔥令牌合作,在用戶登陸時提供手勢、人臉、聲紋生物模式驗證身份。
在比較具體的一些做法上,可以優(yōu)先考慮規(guī)模,一般云服務商的規(guī)模越大保障能力越強。
還可以連續(xù)一個星期在各個云上做實驗,跑壓力測試,如果云服務比較穩(wěn)定,波動較少是比較值得使用的。目前云服務廠商會出現(xiàn)一些超賣云主機的行為,超賣,簡單解釋就是云主機實際只能支持100臺虛擬機,但云平臺賣了120臺。如果波動較少,意味著超賣的可能性降低。
在總結(jié)了這些技術(shù)、機制以及攻擊帶來了云在服務上的安全隱患,另外一個值得注意的則是數(shù)據(jù)安全問題。
在美國,數(shù)據(jù)泄漏要云服務商承擔很高昂的代價,因此沒有公司會這么明目張膽地買賣數(shù)據(jù)。數(shù)據(jù)泄露的另外原因則是云服務商內(nèi)部員工操作導致。
云上的用戶都是弱勢群體,很多數(shù)據(jù)泄露都是在用戶不知情的情況下被泄漏出去。盡管公有云廠商會承諾存放在其上的數(shù)據(jù)一定是加密的,但現(xiàn)實是公有云廠商可以直接把用戶的數(shù)據(jù)拷走。
「數(shù)據(jù)在云平臺上的隔離其實只是一個說法。用戶對數(shù)據(jù)的所有權(quán)和管理權(quán)是分離的。數(shù)據(jù)是用戶的,但你卻管不著,除非那些非常核心的數(shù)據(jù),公有云服務商為你加密,但依照現(xiàn)在的技術(shù),全部數(shù)據(jù)加密是很難做到的?!筓PYUNCTO 黃慧攀道出行業(yè)的真實情況。
「數(shù)據(jù)技術(shù)還無法加密到只有客戶能看見,對服務商和運營商是黑盒子。數(shù)據(jù)只給客戶看,但要讓數(shù)據(jù)在云上跑起來,就必須檢索查詢運行,這是個悖論。」
題圖來源:海洛創(chuàng)意
以上就是【天??!這居然是!越早知道越好(云安全防護)云安全的威脅來源于-阻擊黑客,你需要了解這些云安全「潛規(guī)則」】的全部內(nèi)容。
評論