![]() |
—— IBM 大中華區(qū)技術(shù)服務(wù)部總經(jīng)理潘軍
北京2026年4月10日 /美通社/ -- AI 正快速融入企業(yè)關(guān)鍵業(yè)務(wù)領(lǐng)域,但支撐其落地運(yùn)行的 IT 體系尚未完全做好準(zhǔn)備。IBM 調(diào)研數(shù)據(jù)顯示,77%的受訪高管希望加快 AI 應(yīng)用落地節(jié)奏,而僅有25%認(rèn)為現(xiàn)有 IT 基礎(chǔ)設(shè)施能夠支撐 AI 的規(guī)模化落地。
這一"就緒度缺口"表明,AI 帶來的變革并非單一技術(shù)升級,而是對企業(yè)整體 IT體系的系統(tǒng)性重構(gòu)。在 IBM 技術(shù)服務(wù)部看來,AI 正在融入企業(yè)運(yùn)營模型,推動 IT 運(yùn)維從傳統(tǒng)后端支持職能,向支撐業(yè)務(wù)創(chuàng)新的關(guān)鍵能力演進(jìn)。
運(yùn)維模式重構(gòu):從響應(yīng)式腳本進(jìn)化為智能體驅(qū)動的運(yùn)維
長期以來,企業(yè) IT 運(yùn)維以"故障響應(yīng)"為核心。隨著企業(yè) IT 系統(tǒng)復(fù)雜度持續(xù)攀升,運(yùn)維模式正從傳統(tǒng)自動化腳本向"自主智能體 AI(Agentic AI)"演進(jìn)。
這一轉(zhuǎn)變的核心在于運(yùn)維邏輯的升級:基于 IBM watsonx 平臺,AI 不再僅執(zhí)行預(yù)設(shè)規(guī)則,而是具備一定的自主推理能力,能夠拆解業(yè)務(wù)目標(biāo)并規(guī)劃端到端運(yùn)維任務(wù)的執(zhí)行路徑。通過多智能體協(xié)同,企業(yè)運(yùn)維體系可實(shí)現(xiàn)從狀態(tài)感知到?jīng)Q策執(zhí)行的閉環(huán)管理。在部分場景下,系統(tǒng)可自主完成根因分析并實(shí)現(xiàn)故障自愈,平均修復(fù)時間可縮短最高 80%。
目前,基于 IBM TLS Support Insights 平臺,公司已在全球?yàn)槌^ 3000 家客戶管理超過 400 萬個 IT 資產(chǎn)。在 IBM 相關(guān)實(shí)踐中,91%的 Call Home 設(shè)備告警請求已實(shí)現(xiàn)自動化響應(yīng)和處置,從而緩解運(yùn)維壓力并提升系統(tǒng)穩(wěn)定性。
技術(shù)底座演進(jìn):應(yīng)對 AI 規(guī)模化基礎(chǔ)設(shè)施約束
AI 規(guī)模化落地對基礎(chǔ)設(shè)施提出系統(tǒng)性挑戰(zhàn),其算力、運(yùn)力與存力的協(xié)同表現(xiàn),以及安全與混合云架構(gòu)設(shè)計,直接影響基礎(chǔ)設(shè)施對業(yè)務(wù)目標(biāo)的支撐能力。
作為支撐算力集群效能的關(guān)鍵基礎(chǔ)設(shè)施,IDC 報告指出,在生成式 AI 訓(xùn)練場景中,網(wǎng)絡(luò)投入已占基礎(chǔ)設(shè)施總成本的約 44%。在運(yùn)力層面,AI 工作負(fù)載高度依賴海量"東西向流量"以及 GPU 間穩(wěn)定的低延遲通信,訓(xùn)練、推理、微調(diào)等核心場景對帶寬需求呈指數(shù)級增長,網(wǎng)絡(luò)接口正從 400G、800G 向更高速率演進(jìn)。以千卡級 GPU 集群為例,計算網(wǎng)絡(luò)與管理網(wǎng)絡(luò)的疊加導(dǎo)致單個集群的線路規(guī)模激增(高達(dá)數(shù)千條),迫使布線方式從傳統(tǒng)直接跳線向更易于維護(hù)的結(jié)構(gòu)化布線轉(zhuǎn)型。
在存力層面,大模型應(yīng)用對數(shù)據(jù)吞吐、訪問延遲與帶寬穩(wěn)定性提出了更高要求。為支撐海量運(yùn)維數(shù)據(jù)的實(shí)時處理與模型分析,企業(yè)正在探索存算分離與存算協(xié)同相結(jié)合的架構(gòu)模式。在此過程中,NVMe over Fabric 等高速存儲網(wǎng)絡(luò)技術(shù),可在一定程度上提升遠(yuǎn)程數(shù)據(jù)訪問效率。在實(shí)際落地中,仍需結(jié)合本地高速存儲與數(shù)據(jù)分層策略,以降低對網(wǎng)絡(luò)路徑的依賴。整體來看,面向 AI 負(fù)載的存儲體系正呈現(xiàn)出熱數(shù)據(jù)全閃化、分層存儲與高帶寬互聯(lián)協(xié)同演進(jìn)的趨勢,從而緩解"算力等待數(shù)據(jù)"的問題,支撐 AI 運(yùn)維場景的高效運(yùn)行。
此外,在算力效能層面,面對能耗壓力,企業(yè)需要通過 AI 驅(qū)動的容量規(guī)劃與動態(tài)資源調(diào)度,精細(xì)化調(diào)節(jié) NPU/GPU 服務(wù)器功耗并優(yōu)化負(fù)載分布。在特定優(yōu)化場景中,資源利用率可由約 65%提升至約 89%,在滿足業(yè)務(wù)峰值需求的同時提升整體算力效率。
在電力方面,智能風(fēng)控、智能客服等大規(guī)模 AI 應(yīng)用落地,對算力需求持續(xù)攀升,但傳統(tǒng)數(shù)據(jù)中心在供電密度與部署周期上難以適配 AI 發(fā)展節(jié)奏。高性能 GPU 集群,推動單機(jī)柜功率從傳統(tǒng)的 5–10 千瓦快速提升至 30 千瓦以上,甚至在高密度部署場景中達(dá)到更高水平,使得大規(guī)模部署面臨供電與散熱改造的現(xiàn)實(shí)約束。同時,能耗成本持續(xù)上升,疊加電力資源與 PUE 優(yōu)化壓力,進(jìn)一步加劇數(shù)據(jù)中心的運(yùn)營負(fù)擔(dān)。
人機(jī)協(xié)同:以業(yè)務(wù)洞察引導(dǎo) AI 增強(qiáng),而非替代
在轉(zhuǎn)型過程中,IBM 強(qiáng)調(diào) AI 的核心價值在于增強(qiáng)專業(yè)能力,而非簡單替代人力。AI 擅長處理海量數(shù)據(jù)與重復(fù)性任務(wù),而人類專家的核心價值在于對業(yè)務(wù)場景的理解與決策能力。
調(diào)研顯示,64%的 CEO 認(rèn)為,AI 的成功更依賴人的采納,而非技術(shù)本身,這反映出組織與流程因素在 AI 落地過程中的關(guān)鍵作用。在實(shí)際落地中,這通常體現(xiàn)為將 AI 能力嵌入一線工作流程。例如,在 IBM 內(nèi)部"零號客戶(Client Zero)"實(shí)踐中,通過坐席助手(Agent Assist)提供實(shí)時建議,初級工程師可借助 AI 完成專家級任務(wù),在緩解技能短缺的同時,將問題解決時間縮短約32%。
這一協(xié)作模式的關(guān)鍵在于"釋放與重塑":AI 減少重復(fù)性勞動,使運(yùn)維人員從"救火式"工作中轉(zhuǎn)向更具業(yè)務(wù)價值的領(lǐng)域。企業(yè)轉(zhuǎn)型效果在很大程度上取決于員工技能升級與人機(jī)協(xié)同能力的提升。
以全生命周期方法構(gòu)建"AI 就緒"的 IT 體系
企業(yè)需從局部單點(diǎn)優(yōu)化轉(zhuǎn)向體系化的"集成數(shù)據(jù)中心(Integrated Data Center)"建設(shè)。這不僅是技術(shù)堆棧的升級,更是基于"AI 優(yōu)先(AI-First)"理念對 IT 體系的整體重塑,覆蓋基礎(chǔ)設(shè)施規(guī)劃設(shè)計、部署實(shí)施、運(yùn)維優(yōu)化以及汰新下線的全生命周期管理。
在基礎(chǔ)設(shè)施層面,企業(yè)可通過 AI 驅(qū)動的容量規(guī)劃,精準(zhǔn)匹配算力、網(wǎng)絡(luò)和存儲需求,從而降低資源浪費(fèi)和總體擁有成本。在運(yùn)行階段,AI 驅(qū)動的預(yù)防性維護(hù)可在部分場景下提前約 7 至 24 小時預(yù)測硬件瓶頸或潛在故障,實(shí)現(xiàn)從事后響應(yīng)向事前預(yù)防的轉(zhuǎn)變。在安全與合規(guī)層面,推進(jìn)"安全左移"策略,在規(guī)劃初期即引入自動化治理機(jī)制。
IBM Support Insights(ISI)可對全球超過 400 萬個資產(chǎn)及 150 萬個活躍漏洞進(jìn)行實(shí)時監(jiān)測,使運(yùn)維視野從單一可用性擴(kuò)展至全生命周期的合規(guī)與安全管理,從而在受控環(huán)境下充分釋放 AI 算力價值。
運(yùn)維能力成為企業(yè)長期競爭力的重要組成部分
總體來看,AI 正在推動企業(yè) IT 體系持續(xù)演進(jìn)。運(yùn)維能力不再只是保障系統(tǒng)運(yùn)行的支持職能,而正逐步成為企業(yè)數(shù)字化能力的重要組成部分。數(shù)據(jù)中心運(yùn)維要求對基礎(chǔ)設(shè)施故障進(jìn)行快速發(fā)現(xiàn)與快速解決,避免引起大規(guī)模應(yīng)用系統(tǒng)異常。
構(gòu)建"1-5-10"安全可控智能閉環(huán),面對 AI 負(fù)載帶來的系統(tǒng)復(fù)雜性,運(yùn)維體系正致力于實(shí)現(xiàn)"1 分鐘感知異常、5 分鐘定位根因、10 分鐘閉環(huán)修復(fù)"的目標(biāo)。通過 AI 智能體與標(biāo)準(zhǔn)化協(xié)議(如 MCP 等)實(shí)時感知系統(tǒng)狀態(tài),系統(tǒng)能夠利用上下文推理迅速收斂根因;隨后調(diào)用預(yù)設(shè)的"授權(quán)動作庫"(Skill),在安全權(quán)限內(nèi)執(zhí)行自主修復(fù)。這一從"分鐘級感知"到"確定性自愈"的跨越,正推動 IT 運(yùn)維從傳統(tǒng)支持職能向企業(yè)數(shù)字化核心競爭力加速演進(jìn)。
在這一過程中,IBM 技術(shù)服務(wù)部作為全生命周期合作伙伴,致力于將 AI 能力與業(yè)務(wù)洞察結(jié)合,幫助客戶構(gòu)建具備故障自愈、資源優(yōu)化與成本可控能力的智能運(yùn)維體系,將 IT 資產(chǎn)轉(zhuǎn)化為可持續(xù)的競爭優(yōu)勢。未來企業(yè) IT 的關(guān)鍵能力,不僅在于系統(tǒng)的穩(wěn)定運(yùn)行,更在于使系統(tǒng)具備被 AI 理解、調(diào)度與持續(xù)優(yōu)化的能力。
參考信息:
https://www.ibm.com/think/topics/ai-for-it-support
https://www.ibm.com/new/product-blog/technology-lifecycle-services-envisioning-the-next-generation-of-support-with-ai
https://www.ibm.com/cn-zh/new/product-blog/new-idc-report-how-ai-is-reshaping-enterprise-networks
https://www.ciscolive.com/c/dam/r/ciscolive/emea/docs/2025/pdf/PARAI-1323.pdf
媒體聯(lián)絡(luò)人
李波
libole@cn.ibm.com
IBM中國