推動板塊化運維,破解大規(guī)模分布式服務(wù)框架下的運維難題
- 2023-05-04 瀏覽:1592
作者:工商銀行軟件開發(fā)中心副總經(jīng)理 王旭光
近年來,工商銀行聚力創(chuàng)新變革,全面實施智慧銀行生態(tài)建設(shè)工程(ECOS),實現(xiàn)了從傳統(tǒng)集中式向全分布式的轉(zhuǎn)型突破,自主研發(fā)了全球銀行業(yè)規(guī)模最大的企業(yè)級云計算平臺,在大型銀行中率先通過全面分布式架構(gòu)承載主要業(yè)務(wù)系統(tǒng)運行,實現(xiàn)了傳統(tǒng)單一核心銀行系統(tǒng)向去核心化開放生態(tài)銀行系統(tǒng)的代際躍升。與此同時,工商銀行將防范IT系統(tǒng)風(fēng)險作為防范系統(tǒng)性風(fēng)險的重點課題之一。當(dāng)前,工商銀行云上節(jié)點數(shù)量超5萬個,容器規(guī)模超過30萬個,服務(wù)數(shù)量超過3萬個,日均服務(wù)調(diào)用量達(dá)160億次。對于以“云計算+分布式”為核心、涵蓋系列企業(yè)級新技術(shù)平臺的技術(shù)體系,其配套運維能力不斷提高,監(jiān)管機構(gòu)及客戶對銀行信息系統(tǒng)的安全性提出了更高的要求,這給信息系統(tǒng)高效、安全、穩(wěn)定運行帶來新的挑戰(zhàn)。
一、分布式服務(wù)框架下運維工作面臨的挑戰(zhàn)
以分布式、微服務(wù)為代表的新架構(gòu),在部署節(jié)點數(shù)量以及服務(wù)交互復(fù)雜程度等方面都上升到了新的等級,對基礎(chǔ)設(shè)施、網(wǎng)絡(luò)環(huán)境、基礎(chǔ)組件的穩(wěn)定性有較高要求,同時所形成的網(wǎng)狀拓?fù)浣Y(jié)構(gòu)服務(wù)調(diào)用鏈路為生產(chǎn)運行穩(wěn)定性也帶來新的挑戰(zhàn)。
一是業(yè)務(wù)場景通常涉及多個應(yīng)用組合服務(wù)、多個技術(shù)組件調(diào)用,鏈路較為復(fù)雜,服務(wù)組件體量巨大,進而大幅提升了鏈路分析、跟蹤、故障診斷、根因定位等的運維管控難度,在發(fā)生基礎(chǔ)設(shè)施故障或服務(wù)異常時,往往難以快速準(zhǔn)確地判斷業(yè)務(wù)影響范圍。
二是故障爆炸半徑難以控制。由于服務(wù)調(diào)用關(guān)系復(fù)雜,且對基礎(chǔ)設(shè)施及技術(shù)組件的穩(wěn)定性存在依賴,因此故障會隨調(diào)用鏈延長而持續(xù)蔓延,技術(shù)基礎(chǔ)組件的局部故障可能造成其上層調(diào)用的服務(wù)出現(xiàn)大面積故障。
三是業(yè)務(wù)場景全鏈路上應(yīng)用的運維能力參差不齊,木桶效應(yīng)影響了鏈路所支撐重要業(yè)務(wù)的可靠性,如何快速識別和補齊短板,確保關(guān)鍵業(yè)務(wù)鏈路穩(wěn)定高效運轉(zhuǎn)成為關(guān)鍵。
四是為傳統(tǒng)運維組織協(xié)作模式帶來很大壓力。傳統(tǒng)的運維組織架構(gòu)大多以應(yīng)用研發(fā)組織分組進行適配管理,實際運維過程中,問題的反映通?;跇I(yè)務(wù)視角,同一重要業(yè)務(wù)鏈路上的應(yīng)用可能分屬不同運維組織,這將增加上下游協(xié)同的溝通和管理成本。
二、分布式服務(wù)框架下的運維破局之道
面對上述挑戰(zhàn),工商銀行結(jié)合業(yè)界最佳實踐及自身實際情況,開展了基于業(yè)務(wù)運維板塊的運維轉(zhuǎn)型方案研究與實踐。按照企業(yè)級業(yè)務(wù)架構(gòu)及技術(shù)架構(gòu)頂層規(guī)劃,積極推動面向業(yè)務(wù)的板塊化運維體系建設(shè)和轉(zhuǎn)型,將“以業(yè)務(wù)為中心,構(gòu)建安全、高效、穩(wěn)定的技術(shù)運營服務(wù)”作為管理目標(biāo),以板塊為抓手,推進運維管控能力提升。
具體而言,運維體系的建設(shè)思路主要包括四個方面:一是基于業(yè)務(wù)和客戶視角,將更合理有效的端到端的業(yè)務(wù)運維板塊作為運維單位,將運維視角從單體應(yīng)用延伸至業(yè)務(wù)的場景運營;二是推動各業(yè)務(wù)運維板塊內(nèi)應(yīng)用架構(gòu)的優(yōu)化及板塊間的解耦,強化面向業(yè)務(wù)板塊的基礎(chǔ)設(shè)施、資源部署和邊界管理,實現(xiàn)板塊間的風(fēng)險隔離;三是提升基于業(yè)務(wù)板塊和關(guān)鍵業(yè)務(wù)場景的鏈路級監(jiān)控、應(yīng)急、變更管控及容災(zāi)等核心生產(chǎn)運維能力,補齊短板,結(jié)合運維智能化轉(zhuǎn)型發(fā)展,賦能業(yè)務(wù)的數(shù)字化轉(zhuǎn)型;四是建立和完善與業(yè)務(wù)運維板塊相適配的組織保障體系,進一步優(yōu)化相關(guān)管理機制及工作流程,形成面向業(yè)務(wù)的板塊化運營管控機制。
三、推動板塊化運維實施
一是定義與劃分業(yè)務(wù)運維板塊。業(yè)務(wù)運維板塊是基于工商銀行企業(yè)級業(yè)務(wù)架構(gòu)及IT架構(gòu),結(jié)合業(yè)務(wù)領(lǐng)域劃分、業(yè)務(wù)應(yīng)用分組及生產(chǎn)運維實際經(jīng)驗,圍繞端到端的業(yè)務(wù)場景定義的,用于承接生產(chǎn)運維、風(fēng)險管控等運維工作的一組應(yīng)用或服務(wù)群組。結(jié)合工商銀行IT架構(gòu)分層體系,明確業(yè)務(wù)運維板塊的三大劃分原則:
第一,面向業(yè)務(wù)的高內(nèi)聚原則。將渠道、業(yè)務(wù)產(chǎn)品的應(yīng)用或群組以業(yè)務(wù)板塊和場景為邊界進行端到端聚合,形成渠道類、業(yè)務(wù)產(chǎn)品類業(yè)務(wù)運維板塊。渠道類業(yè)務(wù)運維板塊如融e行板塊、遠(yuǎn)程銀行板塊等;業(yè)務(wù)產(chǎn)品類業(yè)務(wù)運維板塊如對公板塊、信用卡板塊等。
第二,將業(yè)務(wù)基礎(chǔ)的應(yīng)用或群組以面向業(yè)務(wù)的服務(wù)能力為邊界進行聚合,形成業(yè)務(wù)基礎(chǔ)類業(yè)務(wù)運維板塊,如快捷支付板塊、e支付板塊、清算管理板塊等。
第三,將技術(shù)基礎(chǔ)的應(yīng)用或群組以所支撐的業(yè)務(wù)板塊為邊界進行從屬關(guān)系的劃分和聚合,確保技術(shù)基礎(chǔ)服務(wù)資源相對隔離。不同類型的板塊根據(jù)板塊自身特點梳理關(guān)鍵業(yè)務(wù)場景,識別服務(wù)鏈路,明確板塊建設(shè)目標(biāo)。工商銀行業(yè)務(wù)運維板塊劃分示意如圖1所示。
圖1 工商銀行業(yè)務(wù)運維板塊劃分示意
二是優(yōu)化運維組織架構(gòu)。基于業(yè)務(wù)運維板塊進行運維組織架構(gòu)調(diào)整,改變原來參考應(yīng)用所屬IT架構(gòu)分層和研發(fā)組織歸屬以及各運維專業(yè)進行團隊組織劃分的形式,轉(zhuǎn)為按業(yè)務(wù)運維板塊進行運維團隊的分組并輻射至業(yè)務(wù)、研發(fā)、測試部門。如圖2所示,業(yè)務(wù)板塊核心圈內(nèi)的應(yīng)用歸屬同一實體物理團隊運維,以此減少同一業(yè)務(wù)場景的跨部門、跨專業(yè)溝通;虛線框內(nèi)為與板塊核心業(yè)務(wù)緊密相關(guān)的技術(shù)及業(yè)務(wù)基礎(chǔ)應(yīng)用,以配備專人配合的虛擬團隊為板塊提供穩(wěn)定性保障。通過對板塊化組織的調(diào)整,實現(xiàn)運維工作本身的解耦和內(nèi)聚,加速運維視角從科技應(yīng)用視角向業(yè)務(wù)視角轉(zhuǎn)換,強化科技與業(yè)務(wù)的聯(lián)動,提升問題處置的有效性和響應(yīng)速度,挖掘運維數(shù)據(jù)價值,賦能業(yè)務(wù)運營。
圖2 工商銀行業(yè)務(wù)運維板塊結(jié)構(gòu)示意
三是開展全鏈路服務(wù)治理及部署調(diào)優(yōu)。明確各板塊的核心場景及關(guān)鍵服務(wù)調(diào)用鏈路,以板塊為邊界做好風(fēng)險隔離,對標(biāo)板塊內(nèi)應(yīng)用高內(nèi)聚、松耦合的目標(biāo),做好服務(wù)調(diào)用關(guān)系管控,非關(guān)鍵鏈路服務(wù)采取異步調(diào)用、可熔斷、降級等措施與關(guān)鍵鏈路解耦,發(fā)生故障時能通過自動化應(yīng)急手段避免對板塊核心業(yè)務(wù)產(chǎn)生影響。板塊之間的調(diào)用比照系統(tǒng)內(nèi)外調(diào)用控制,合理劃分和部署支撐板塊業(yè)務(wù)的技術(shù)基礎(chǔ)平臺資源,重點保障場景基礎(chǔ)設(shè)施、網(wǎng)絡(luò)資源相對隔離,有效控制技術(shù)基礎(chǔ)組件故障對業(yè)務(wù)產(chǎn)生的影響范圍,減少系統(tǒng)風(fēng)險在板塊間的擴散。
四是構(gòu)建面向業(yè)務(wù)全鏈路的故障診斷中心。建立面向業(yè)務(wù)全鏈路的監(jiān)控規(guī)范,基于流量染色等技術(shù)構(gòu)建業(yè)務(wù)調(diào)用鏈拓?fù)淠芰Γ詣訉崟r生成業(yè)務(wù)場景實際調(diào)用鏈的拓?fù)渫敢晥D,為板塊全鏈路構(gòu)建可觀測監(jiān)控底座;對于板塊內(nèi)重要業(yè)務(wù)場景開展業(yè)務(wù)生死線指標(biāo)監(jiān)控,依托可觀測監(jiān)控底座,加速建設(shè)智能基線、故障定位等智能化監(jiān)控體系,打造一站式全鏈路可觀測中心,提升業(yè)務(wù)連續(xù)性保障能力。
五是拉齊板塊內(nèi)各相關(guān)應(yīng)用的運維能水平。圍繞板塊內(nèi)重要業(yè)務(wù)場景做好全鏈路性能容量管控、壓測,構(gòu)建板塊的實際業(yè)務(wù)支撐能力,確保鏈路上各節(jié)點達(dá)到高可用保障要求,并完善同城、異地的災(zāi)備環(huán)境,構(gòu)建快速容災(zāi)切換能力;提升突發(fā)業(yè)務(wù)量激增、基礎(chǔ)設(shè)施或應(yīng)用節(jié)點故障情況下的系統(tǒng)自我保護能力;建立健全鏈路級應(yīng)急預(yù)案、一鍵式應(yīng)急處置能力,提升板塊業(yè)務(wù)連續(xù)性水平。
六是健全組織機制,挖掘運維價值,推動板塊化業(yè)務(wù)運營。結(jié)合近年來工商銀行開展的站點可靠性工程師(SRE)運維模式,建立應(yīng)用運維團隊和業(yè)務(wù)部門、應(yīng)用研發(fā)團隊、測試團隊的組織匹配關(guān)系,圍繞各專業(yè)板塊核心業(yè)務(wù)協(xié)同建設(shè),共同對業(yè)務(wù)穩(wěn)定性負(fù)責(zé);同時,通過對運維領(lǐng)域的用數(shù)賦智場景的挖掘,完善鏈路級的技術(shù)運營能力,支撐業(yè)務(wù)運營能力的數(shù)字化轉(zhuǎn)型,賦能面向業(yè)務(wù)的運維價值提升。
以快捷支付業(yè)務(wù)板塊為例,工商銀行建立了研發(fā)、測試、生產(chǎn)三中心跨專業(yè)保障團隊,通過SRE運維模式共同對系統(tǒng)穩(wěn)定性負(fù)責(zé),推動板塊全鏈路接入全息監(jiān)控、應(yīng)用畫像,構(gòu)建動態(tài)展示服務(wù)拓?fù)滏溌穲D,完善一鍵式應(yīng)急工具,進一步提升面向業(yè)務(wù)的異常感知能力、故障定位和應(yīng)急處置能力,推動落實板塊內(nèi)核心應(yīng)用基礎(chǔ)設(shè)施內(nèi)聚部署和技術(shù)支撐平臺應(yīng)用單獨群組板塊劃分等重大架構(gòu)調(diào)整,實現(xiàn)對電商大促等重要業(yè)務(wù)高峰時點備戰(zhàn)態(tài)資源和獨立PaaS資源池的部署調(diào)優(yōu)。經(jīng)過團隊全體成員的共同努力,工商銀行快捷支付業(yè)務(wù)在監(jiān)管機構(gòu)排名穩(wěn)步提升并保持前列,電商大促保障水平逐年提升。
四、板塊化運維實施成效與展望
板塊化運維是工商銀行對運維模式的新探索,是工商銀行運維轉(zhuǎn)型的重要實踐。經(jīng)過一年的建設(shè),從試點到形成目前20余個重要業(yè)務(wù)板塊,工商銀行板塊化運維體系逐步走向成熟,系統(tǒng)性風(fēng)險防控能力、應(yīng)急處置效能等各個方面都取得了階段性進展,影響較大的問題數(shù)量降到歷年最低水平,應(yīng)急處置效率不斷提高,整體運維水平保持業(yè)內(nèi)領(lǐng)先。后續(xù),工商銀行將繼續(xù)在以下幾個方面尋求突破:一是進一步深化板塊化運維工作,加強對智能化轉(zhuǎn)型成果的轉(zhuǎn)化和運用;二是進一步強化業(yè)務(wù)視角和全局視角,在實際工作中保持全局觀,從業(yè)務(wù)價值和業(yè)務(wù)運營視角看待板塊化運維;三是依托板塊化運維實踐,在完善運維架構(gòu)的同時反哺應(yīng)用架構(gòu),推動應(yīng)用架構(gòu)與運維架構(gòu)進一步適配。
當(dāng)前,工商銀行正處于數(shù)字化轉(zhuǎn)型的關(guān)鍵期。工商銀行將以“優(yōu)化場景聯(lián)動、數(shù)據(jù)驅(qū)動的生產(chǎn)運維管理體系,防范系統(tǒng)性風(fēng)險”為運維目標(biāo),不斷強化科技與業(yè)務(wù)的融合,使“科技”成為驅(qū)動、賦能全行業(yè)務(wù)的“業(yè)務(wù)伙伴”,助力數(shù)字工行建設(shè);繼續(xù)運用好“目標(biāo)導(dǎo)向、問題導(dǎo)向、結(jié)果導(dǎo)向”的科學(xué)方法,確保運維技術(shù)水平同業(yè)領(lǐng)先,堅守“金融為民”的初心和使命,夯實風(fēng)險抵御能力,為數(shù)字中國建設(shè)貢獻(xiàn)“工行力量”。
本文來源:微信公眾號《中國金融電腦》2023年第4期
免責(zé)聲明:所載內(nèi)容來源互聯(lián)網(wǎng)、微信公眾號等公開渠道,我們對文中觀點保持中立,僅供參考、交流等非商業(yè)目的。轉(zhuǎn)載的稿件版權(quán)歸原作者和機構(gòu)所有,如有侵權(quán),請聯(lián)系我們刪除。