推動(dòng)板塊化運(yùn)維,破解大規(guī)模分布式服務(wù)框架下的運(yùn)維難題
- 2023-05-04 瀏覽:1558
作者:工商銀行軟件開(kāi)發(fā)中心副總經(jīng)理 王旭光
近年來(lái),工商銀行聚力創(chuàng)新變革,全面實(shí)施智慧銀行生態(tài)建設(shè)工程(ECOS),實(shí)現(xiàn)了從傳統(tǒng)集中式向全分布式的轉(zhuǎn)型突破,自主研發(fā)了全球銀行業(yè)規(guī)模最大的企業(yè)級(jí)云計(jì)算平臺(tái),在大型銀行中率先通過(guò)全面分布式架構(gòu)承載主要業(yè)務(wù)系統(tǒng)運(yùn)行,實(shí)現(xiàn)了傳統(tǒng)單一核心銀行系統(tǒng)向去核心化開(kāi)放生態(tài)銀行系統(tǒng)的代際躍升。與此同時(shí),工商銀行將防范IT系統(tǒng)風(fēng)險(xiǎn)作為防范系統(tǒng)性風(fēng)險(xiǎn)的重點(diǎn)課題之一。當(dāng)前,工商銀行云上節(jié)點(diǎn)數(shù)量超5萬(wàn)個(gè),容器規(guī)模超過(guò)30萬(wàn)個(gè),服務(wù)數(shù)量超過(guò)3萬(wàn)個(gè),日均服務(wù)調(diào)用量達(dá)160億次。對(duì)于以“云計(jì)算+分布式”為核心、涵蓋系列企業(yè)級(jí)新技術(shù)平臺(tái)的技術(shù)體系,其配套運(yùn)維能力不斷提高,監(jiān)管機(jī)構(gòu)及客戶(hù)對(duì)銀行信息系統(tǒng)的安全性提出了更高的要求,這給信息系統(tǒng)高效、安全、穩(wěn)定運(yùn)行帶來(lái)新的挑戰(zhàn)。
一、分布式服務(wù)框架下運(yùn)維工作面臨的挑戰(zhàn)
以分布式、微服務(wù)為代表的新架構(gòu),在部署節(jié)點(diǎn)數(shù)量以及服務(wù)交互復(fù)雜程度等方面都上升到了新的等級(jí),對(duì)基礎(chǔ)設(shè)施、網(wǎng)絡(luò)環(huán)境、基礎(chǔ)組件的穩(wěn)定性有較高要求,同時(shí)所形成的網(wǎng)狀拓?fù)浣Y(jié)構(gòu)服務(wù)調(diào)用鏈路為生產(chǎn)運(yùn)行穩(wěn)定性也帶來(lái)新的挑戰(zhàn)。
一是業(yè)務(wù)場(chǎng)景通常涉及多個(gè)應(yīng)用組合服務(wù)、多個(gè)技術(shù)組件調(diào)用,鏈路較為復(fù)雜,服務(wù)組件體量巨大,進(jìn)而大幅提升了鏈路分析、跟蹤、故障診斷、根因定位等的運(yùn)維管控難度,在發(fā)生基礎(chǔ)設(shè)施故障或服務(wù)異常時(shí),往往難以快速準(zhǔn)確地判斷業(yè)務(wù)影響范圍。
二是故障爆炸半徑難以控制。由于服務(wù)調(diào)用關(guān)系復(fù)雜,且對(duì)基礎(chǔ)設(shè)施及技術(shù)組件的穩(wěn)定性存在依賴(lài),因此故障會(huì)隨調(diào)用鏈延長(zhǎng)而持續(xù)蔓延,技術(shù)基礎(chǔ)組件的局部故障可能造成其上層調(diào)用的服務(wù)出現(xiàn)大面積故障。
三是業(yè)務(wù)場(chǎng)景全鏈路上應(yīng)用的運(yùn)維能力參差不齊,木桶效應(yīng)影響了鏈路所支撐重要業(yè)務(wù)的可靠性,如何快速識(shí)別和補(bǔ)齊短板,確保關(guān)鍵業(yè)務(wù)鏈路穩(wěn)定高效運(yùn)轉(zhuǎn)成為關(guān)鍵。
四是為傳統(tǒng)運(yùn)維組織協(xié)作模式帶來(lái)很大壓力。傳統(tǒng)的運(yùn)維組織架構(gòu)大多以應(yīng)用研發(fā)組織分組進(jìn)行適配管理,實(shí)際運(yùn)維過(guò)程中,問(wèn)題的反映通?;跇I(yè)務(wù)視角,同一重要業(yè)務(wù)鏈路上的應(yīng)用可能分屬不同運(yùn)維組織,這將增加上下游協(xié)同的溝通和管理成本。
二、分布式服務(wù)框架下的運(yùn)維破局之道
面對(duì)上述挑戰(zhàn),工商銀行結(jié)合業(yè)界最佳實(shí)踐及自身實(shí)際情況,開(kāi)展了基于業(yè)務(wù)運(yùn)維板塊的運(yùn)維轉(zhuǎn)型方案研究與實(shí)踐。按照企業(yè)級(jí)業(yè)務(wù)架構(gòu)及技術(shù)架構(gòu)頂層規(guī)劃,積極推動(dòng)面向業(yè)務(wù)的板塊化運(yùn)維體系建設(shè)和轉(zhuǎn)型,將“以業(yè)務(wù)為中心,構(gòu)建安全、高效、穩(wěn)定的技術(shù)運(yùn)營(yíng)服務(wù)”作為管理目標(biāo),以板塊為抓手,推進(jìn)運(yùn)維管控能力提升。
具體而言,運(yùn)維體系的建設(shè)思路主要包括四個(gè)方面:一是基于業(yè)務(wù)和客戶(hù)視角,將更合理有效的端到端的業(yè)務(wù)運(yùn)維板塊作為運(yùn)維單位,將運(yùn)維視角從單體應(yīng)用延伸至業(yè)務(wù)的場(chǎng)景運(yùn)營(yíng);二是推動(dòng)各業(yè)務(wù)運(yùn)維板塊內(nèi)應(yīng)用架構(gòu)的優(yōu)化及板塊間的解耦,強(qiáng)化面向業(yè)務(wù)板塊的基礎(chǔ)設(shè)施、資源部署和邊界管理,實(shí)現(xiàn)板塊間的風(fēng)險(xiǎn)隔離;三是提升基于業(yè)務(wù)板塊和關(guān)鍵業(yè)務(wù)場(chǎng)景的鏈路級(jí)監(jiān)控、應(yīng)急、變更管控及容災(zāi)等核心生產(chǎn)運(yùn)維能力,補(bǔ)齊短板,結(jié)合運(yùn)維智能化轉(zhuǎn)型發(fā)展,賦能業(yè)務(wù)的數(shù)字化轉(zhuǎn)型;四是建立和完善與業(yè)務(wù)運(yùn)維板塊相適配的組織保障體系,進(jìn)一步優(yōu)化相關(guān)管理機(jī)制及工作流程,形成面向業(yè)務(wù)的板塊化運(yùn)營(yíng)管控機(jī)制。
三、推動(dòng)板塊化運(yùn)維實(shí)施
一是定義與劃分業(yè)務(wù)運(yùn)維板塊。業(yè)務(wù)運(yùn)維板塊是基于工商銀行企業(yè)級(jí)業(yè)務(wù)架構(gòu)及IT架構(gòu),結(jié)合業(yè)務(wù)領(lǐng)域劃分、業(yè)務(wù)應(yīng)用分組及生產(chǎn)運(yùn)維實(shí)際經(jīng)驗(yàn),圍繞端到端的業(yè)務(wù)場(chǎng)景定義的,用于承接生產(chǎn)運(yùn)維、風(fēng)險(xiǎn)管控等運(yùn)維工作的一組應(yīng)用或服務(wù)群組。結(jié)合工商銀行IT架構(gòu)分層體系,明確業(yè)務(wù)運(yùn)維板塊的三大劃分原則:
第一,面向業(yè)務(wù)的高內(nèi)聚原則。將渠道、業(yè)務(wù)產(chǎn)品的應(yīng)用或群組以業(yè)務(wù)板塊和場(chǎng)景為邊界進(jìn)行端到端聚合,形成渠道類(lèi)、業(yè)務(wù)產(chǎn)品類(lèi)業(yè)務(wù)運(yùn)維板塊。渠道類(lèi)業(yè)務(wù)運(yùn)維板塊如融e行板塊、遠(yuǎn)程銀行板塊等;業(yè)務(wù)產(chǎn)品類(lèi)業(yè)務(wù)運(yùn)維板塊如對(duì)公板塊、信用卡板塊等。
第二,將業(yè)務(wù)基礎(chǔ)的應(yīng)用或群組以面向業(yè)務(wù)的服務(wù)能力為邊界進(jìn)行聚合,形成業(yè)務(wù)基礎(chǔ)類(lèi)業(yè)務(wù)運(yùn)維板塊,如快捷支付板塊、e支付板塊、清算管理板塊等。
第三,將技術(shù)基礎(chǔ)的應(yīng)用或群組以所支撐的業(yè)務(wù)板塊為邊界進(jìn)行從屬關(guān)系的劃分和聚合,確保技術(shù)基礎(chǔ)服務(wù)資源相對(duì)隔離。不同類(lèi)型的板塊根據(jù)板塊自身特點(diǎn)梳理關(guān)鍵業(yè)務(wù)場(chǎng)景,識(shí)別服務(wù)鏈路,明確板塊建設(shè)目標(biāo)。工商銀行業(yè)務(wù)運(yùn)維板塊劃分示意如圖1所示。
圖1 工商銀行業(yè)務(wù)運(yùn)維板塊劃分示意
二是優(yōu)化運(yùn)維組織架構(gòu)。基于業(yè)務(wù)運(yùn)維板塊進(jìn)行運(yùn)維組織架構(gòu)調(diào)整,改變?cè)瓉?lái)參考應(yīng)用所屬I(mǎi)T架構(gòu)分層和研發(fā)組織歸屬以及各運(yùn)維專(zhuān)業(yè)進(jìn)行團(tuán)隊(duì)組織劃分的形式,轉(zhuǎn)為按業(yè)務(wù)運(yùn)維板塊進(jìn)行運(yùn)維團(tuán)隊(duì)的分組并輻射至業(yè)務(wù)、研發(fā)、測(cè)試部門(mén)。如圖2所示,業(yè)務(wù)板塊核心圈內(nèi)的應(yīng)用歸屬同一實(shí)體物理團(tuán)隊(duì)運(yùn)維,以此減少同一業(yè)務(wù)場(chǎng)景的跨部門(mén)、跨專(zhuān)業(yè)溝通;虛線(xiàn)框內(nèi)為與板塊核心業(yè)務(wù)緊密相關(guān)的技術(shù)及業(yè)務(wù)基礎(chǔ)應(yīng)用,以配備專(zhuān)人配合的虛擬團(tuán)隊(duì)為板塊提供穩(wěn)定性保障。通過(guò)對(duì)板塊化組織的調(diào)整,實(shí)現(xiàn)運(yùn)維工作本身的解耦和內(nèi)聚,加速運(yùn)維視角從科技應(yīng)用視角向業(yè)務(wù)視角轉(zhuǎn)換,強(qiáng)化科技與業(yè)務(wù)的聯(lián)動(dòng),提升問(wèn)題處置的有效性和響應(yīng)速度,挖掘運(yùn)維數(shù)據(jù)價(jià)值,賦能業(yè)務(wù)運(yùn)營(yíng)。
圖2 工商銀行業(yè)務(wù)運(yùn)維板塊結(jié)構(gòu)示意
三是開(kāi)展全鏈路服務(wù)治理及部署調(diào)優(yōu)。明確各板塊的核心場(chǎng)景及關(guān)鍵服務(wù)調(diào)用鏈路,以板塊為邊界做好風(fēng)險(xiǎn)隔離,對(duì)標(biāo)板塊內(nèi)應(yīng)用高內(nèi)聚、松耦合的目標(biāo),做好服務(wù)調(diào)用關(guān)系管控,非關(guān)鍵鏈路服務(wù)采取異步調(diào)用、可熔斷、降級(jí)等措施與關(guān)鍵鏈路解耦,發(fā)生故障時(shí)能通過(guò)自動(dòng)化應(yīng)急手段避免對(duì)板塊核心業(yè)務(wù)產(chǎn)生影響。板塊之間的調(diào)用比照系統(tǒng)內(nèi)外調(diào)用控制,合理劃分和部署支撐板塊業(yè)務(wù)的技術(shù)基礎(chǔ)平臺(tái)資源,重點(diǎn)保障場(chǎng)景基礎(chǔ)設(shè)施、網(wǎng)絡(luò)資源相對(duì)隔離,有效控制技術(shù)基礎(chǔ)組件故障對(duì)業(yè)務(wù)產(chǎn)生的影響范圍,減少系統(tǒng)風(fēng)險(xiǎn)在板塊間的擴(kuò)散。
四是構(gòu)建面向業(yè)務(wù)全鏈路的故障診斷中心。建立面向業(yè)務(wù)全鏈路的監(jiān)控規(guī)范,基于流量染色等技術(shù)構(gòu)建業(yè)務(wù)調(diào)用鏈拓?fù)淠芰?,自?dòng)實(shí)時(shí)生成業(yè)務(wù)場(chǎng)景實(shí)際調(diào)用鏈的拓?fù)渫敢晥D,為板塊全鏈路構(gòu)建可觀測(cè)監(jiān)控底座;對(duì)于板塊內(nèi)重要業(yè)務(wù)場(chǎng)景開(kāi)展業(yè)務(wù)生死線(xiàn)指標(biāo)監(jiān)控,依托可觀測(cè)監(jiān)控底座,加速建設(shè)智能基線(xiàn)、故障定位等智能化監(jiān)控體系,打造一站式全鏈路可觀測(cè)中心,提升業(yè)務(wù)連續(xù)性保障能力。
五是拉齊板塊內(nèi)各相關(guān)應(yīng)用的運(yùn)維能水平。圍繞板塊內(nèi)重要業(yè)務(wù)場(chǎng)景做好全鏈路性能容量管控、壓測(cè),構(gòu)建板塊的實(shí)際業(yè)務(wù)支撐能力,確保鏈路上各節(jié)點(diǎn)達(dá)到高可用保障要求,并完善同城、異地的災(zāi)備環(huán)境,構(gòu)建快速容災(zāi)切換能力;提升突發(fā)業(yè)務(wù)量激增、基礎(chǔ)設(shè)施或應(yīng)用節(jié)點(diǎn)故障情況下的系統(tǒng)自我保護(hù)能力;建立健全鏈路級(jí)應(yīng)急預(yù)案、一鍵式應(yīng)急處置能力,提升板塊業(yè)務(wù)連續(xù)性水平。
六是健全組織機(jī)制,挖掘運(yùn)維價(jià)值,推動(dòng)板塊化業(yè)務(wù)運(yùn)營(yíng)。結(jié)合近年來(lái)工商銀行開(kāi)展的站點(diǎn)可靠性工程師(SRE)運(yùn)維模式,建立應(yīng)用運(yùn)維團(tuán)隊(duì)和業(yè)務(wù)部門(mén)、應(yīng)用研發(fā)團(tuán)隊(duì)、測(cè)試團(tuán)隊(duì)的組織匹配關(guān)系,圍繞各專(zhuān)業(yè)板塊核心業(yè)務(wù)協(xié)同建設(shè),共同對(duì)業(yè)務(wù)穩(wěn)定性負(fù)責(zé);同時(shí),通過(guò)對(duì)運(yùn)維領(lǐng)域的用數(shù)賦智場(chǎng)景的挖掘,完善鏈路級(jí)的技術(shù)運(yùn)營(yíng)能力,支撐業(yè)務(wù)運(yùn)營(yíng)能力的數(shù)字化轉(zhuǎn)型,賦能面向業(yè)務(wù)的運(yùn)維價(jià)值提升。
以快捷支付業(yè)務(wù)板塊為例,工商銀行建立了研發(fā)、測(cè)試、生產(chǎn)三中心跨專(zhuān)業(yè)保障團(tuán)隊(duì),通過(guò)SRE運(yùn)維模式共同對(duì)系統(tǒng)穩(wěn)定性負(fù)責(zé),推動(dòng)板塊全鏈路接入全息監(jiān)控、應(yīng)用畫(huà)像,構(gòu)建動(dòng)態(tài)展示服務(wù)拓?fù)滏溌穲D,完善一鍵式應(yīng)急工具,進(jìn)一步提升面向業(yè)務(wù)的異常感知能力、故障定位和應(yīng)急處置能力,推動(dòng)落實(shí)板塊內(nèi)核心應(yīng)用基礎(chǔ)設(shè)施內(nèi)聚部署和技術(shù)支撐平臺(tái)應(yīng)用單獨(dú)群組板塊劃分等重大架構(gòu)調(diào)整,實(shí)現(xiàn)對(duì)電商大促等重要業(yè)務(wù)高峰時(shí)點(diǎn)備戰(zhàn)態(tài)資源和獨(dú)立PaaS資源池的部署調(diào)優(yōu)。經(jīng)過(guò)團(tuán)隊(duì)全體成員的共同努力,工商銀行快捷支付業(yè)務(wù)在監(jiān)管機(jī)構(gòu)排名穩(wěn)步提升并保持前列,電商大促保障水平逐年提升。
四、板塊化運(yùn)維實(shí)施成效與展望
板塊化運(yùn)維是工商銀行對(duì)運(yùn)維模式的新探索,是工商銀行運(yùn)維轉(zhuǎn)型的重要實(shí)踐。經(jīng)過(guò)一年的建設(shè),從試點(diǎn)到形成目前20余個(gè)重要業(yè)務(wù)板塊,工商銀行板塊化運(yùn)維體系逐步走向成熟,系統(tǒng)性風(fēng)險(xiǎn)防控能力、應(yīng)急處置效能等各個(gè)方面都取得了階段性進(jìn)展,影響較大的問(wèn)題數(shù)量降到歷年最低水平,應(yīng)急處置效率不斷提高,整體運(yùn)維水平保持業(yè)內(nèi)領(lǐng)先。后續(xù),工商銀行將繼續(xù)在以下幾個(gè)方面尋求突破:一是進(jìn)一步深化板塊化運(yùn)維工作,加強(qiáng)對(duì)智能化轉(zhuǎn)型成果的轉(zhuǎn)化和運(yùn)用;二是進(jìn)一步強(qiáng)化業(yè)務(wù)視角和全局視角,在實(shí)際工作中保持全局觀,從業(yè)務(wù)價(jià)值和業(yè)務(wù)運(yùn)營(yíng)視角看待板塊化運(yùn)維;三是依托板塊化運(yùn)維實(shí)踐,在完善運(yùn)維架構(gòu)的同時(shí)反哺應(yīng)用架構(gòu),推動(dòng)應(yīng)用架構(gòu)與運(yùn)維架構(gòu)進(jìn)一步適配。
當(dāng)前,工商銀行正處于數(shù)字化轉(zhuǎn)型的關(guān)鍵期。工商銀行將以“優(yōu)化場(chǎng)景聯(lián)動(dòng)、數(shù)據(jù)驅(qū)動(dòng)的生產(chǎn)運(yùn)維管理體系,防范系統(tǒng)性風(fēng)險(xiǎn)”為運(yùn)維目標(biāo),不斷強(qiáng)化科技與業(yè)務(wù)的融合,使“科技”成為驅(qū)動(dòng)、賦能全行業(yè)務(wù)的“業(yè)務(wù)伙伴”,助力數(shù)字工行建設(shè);繼續(xù)運(yùn)用好“目標(biāo)導(dǎo)向、問(wèn)題導(dǎo)向、結(jié)果導(dǎo)向”的科學(xué)方法,確保運(yùn)維技術(shù)水平同業(yè)領(lǐng)先,堅(jiān)守“金融為民”的初心和使命,夯實(shí)風(fēng)險(xiǎn)抵御能力,為數(shù)字中國(guó)建設(shè)貢獻(xiàn)“工行力量”。
本文來(lái)源:微信公眾號(hào)《中國(guó)金融電腦》2023年第4期
免責(zé)聲明:所載內(nèi)容來(lái)源互聯(lián)網(wǎng)、微信公眾號(hào)等公開(kāi)渠道,我們對(duì)文中觀點(diǎn)保持中立,僅供參考、交流等非商業(yè)目的。轉(zhuǎn)載的稿件版權(quán)歸原作者和機(jī)構(gòu)所有,如有侵權(quán),請(qǐng)聯(lián)系我們刪除。