凌晨三点十七分,地下机房只剩机器的低鸣。
监控屏角落跳出一条不起眼的黄框:c区液冷回路流速异常,下降12%。
值班的周凯正捧着第三杯咖啡,眼皮像压了铅。他瞥一眼,调出曲线——确实下滑,但还在安全线内,幅度不大。他想起上周那次“假警报”,半小时翻腾,最后是探针接触不良。
“八成又是误报。”他点了个“持续监控”,把页面最小化,继续赶报告。
五分钟后,黄框还在。曲线“略低但可接受”。周凯打了个哈欠,视线回到代码。
他没看见——也没人看见——机房最深处,承担“元基”核心任务的一排机柜,温度正以每分钟0.3度的速度默默上爬。
三点二十六分,警告由黄跳红。蜂鸣骤起,像刀。
流速跌破阈值;c区温度急升;核心负载97%。
周凯从椅子上弹起,咖啡泼了一身:“机房紧急!c区冷却故障,请求支援!”
三十秒后,整层灯火通明。
程启珩第一个冲进来,睡裤t恤,眼神却极冷。他掠一眼屏幕,快步到机柜,把手背贴上金属外壳——烫。
“主泵?”
“数据显示正常……”
“数据是假的。”程启珩收回手,手背微红,“要么泵没坏、但流路被堵;要么监测点失真。”
李浩然、陈峰、王璐接连赶到。温度曲线几乎垂直上冲,空气里隐隐有焦糊味。
“按预案强制降载?”李浩然。
“降载损失太大,模拟跑了三十小时。”陈峰。
“那等着烧芯片?”李浩然反问。
“温度破九十了!”周凯喊。
所有人看向程启珩。
他没答话,先去工具柜掏出红外测温枪,沿关键节点“咔咔”扫过,又抬头望天花板上冷却管路图。
“副回路。”他低声,“主泵没问题,是备用支路堵了。热交换器被杂质卡死,冷却液走不动。”
调出三维结构图,标号c-7支路的流量是0。
“现在两条路。”他把话掷出去。
“一,立刻降载到40%以下,保硬件。代价是前面三十小时全部报废。
二,停掉c区,手动疏通副回路。至少断电十五分钟,中间数据全丢,从头再来。”
蜂鸣更急。温度显示92°。再上去,就是硬件熔断的红线。
程启珩闭眼——一秒、两秒。
睁眼时,语气像斧子:“执行预案c-3:紧急降载保硬件。”
“程博——”
“我说执行! 进度可以重跑,硬件烧了是真完。”他指向日志,“流量从两小时前就在缓降,系统报了三次黄色,我们当成误报——这叫自找。”
强制降载确认。
负载从97%往下压——80%、60%、35%。
温度曲线开始回落:91°→90°→89°……
危险暂退,可每个人心口都压着石头。
“凯,去拿疏通套装和备用冷却液。”
“浩然、陈峰,跟我拆机柜。”
“王璐,上楼请林晚照,顺便把张薇她们叫下来。”
——降载只是缓兵,根因不除,还会卷土重来。
凌晨四点,机房变成一间临时手术室。
三组机柜断电、外盖拆除,密密麻麻的管与板裸露在冷光下。程启珩半跪,手持柔性疏通杆,对着内窥镜屏一点点探入。
“看见了——一团灰白色的絮。”他盯着屏,“像氧化铝屑,夹着一点密封胶。量不大,但刚好卡在最细处。”
“为什么会有?”陈峰自语。
“高温循环下的微腐蚀,上次维护胶挤多了。”程启珩手稳,“三月五载,积少成灾。”
杆头缓缓拨动,像挪一根刺。太猛会推得更深,太慢会错过窗口。
一分钟、三分钟、十分钟——时间像被拉长的橡皮筋。
四点三十七分。
“出来了。”
灰白小团落进取样袋。管路复位,阀门开启。
监控屏右下角,c-7支路流量从零慢慢跳动:0.1%→0.5%→2%→10%……
五十秒后,回到85%。主副并联,总流量恢复。
“够了。”程启珩站起,膝盖发出轻响,“开始缓升负载,每分钟+10%,盯温度。”
进度条重新向前。
这一次,没有人鼓掌。
每双眼都盯着温度曲线稳稳压在安全线下,盯着那条缓慢追回的进度。
五点出头,林晚照到了。她第一眼看向中央白板——九问便签还在,像一面无声的镜子。
“所以,”她的声音很平,却让人背脊一冷,“我们被自己的侥幸打了一记耳光。”
无人作声。
“黄色预警三次。 因为‘上次是误报’,因为‘看起来不严重’,因为‘可能没问题’,没人深究。”她指点历史日志,“九问才立一天,我们就忘了第一问和第九问。”
她看向众人:“今天运气好。启珩判断快、执行准,硬件保住了,进度只损失三十小时。如果主泵真的坏了?如果堵在更深处疏不通?如果我们晚五分钟发现?”
本小章还未完,请点击下一页继续阅读后面精彩内容!
喜欢打脸假千金后,清北大学抢疯了请大家收藏:打脸假千金后,清北大学抢疯了更新速度全网最快。
每一个“如果”,都像巴掌。
“我们会烧掉价值千万的集群,毁掉连续三天的模拟,让‘元基’至少延后一周。”她停住,压低,“而这一切,只因——有人觉得黄色可以先不管。”
周凯低着头,肩膀在抖。
“不是追责。”林晚照收了锋,“是要所有人记住今晚:在无人区,没有‘可能’,只有100%准备和100%执行。”
她转向程启珩:“今天的决策正确。先活下来,再谈一切。”
程启珩点头,却没露轻松:“还要把‘活下来’变成系统化。”
“所以,三条新规,立刻生效。”林晚照在白板上写下:
1)任何警告(含黄色),10分钟内必须响应并记录处理。
2)冷却系统每周做一次全链路压力测试,数据归档3年。
3)为关键硬件建立“寿命-性能”衰减模型,提前3个月预警更换。
她收笔,又加一条:“冗余改造提前。 冷却双路备份原定下月完成——改为本周完成。李浩然带队,72小时内提交完工报告与现场验收视频。”
“明白!”李浩然当场应下,声音哑却硬。
程启珩接上:“我加一个自检升级:凡关键指标连续三次同向微小异常,系统自动提升告警级别,并强制两名负责人电子签后才能退回。”
“通过。”林晚照点头,“再加:每日晨会5分钟“昨日警告复盘”——每个人说清楚:昨天忽略了什么、为什么忽略、如何避免。”
窗外的天色在高窗缝里一点点泛白。
屏幕上,运算进度追回到故障前的92%,稳步前行。
危机过去了。
但这次午夜惊魂留下的东西,比那三十小时进度更重。
“都去休息,两小时后正常开工。”林晚照宣布。人群散去,脚步沉,却更稳。
最后关灯的是程启珩。他只留几盏指示灯,站在安静下来的机房里,看着那一排排重新平稳呼吸的机柜,很久没有说话。
林晚照走到他身侧:“在想什么?”
“在想我们造得越复杂,脆弱点就越多。”程启珩低声,“一撮屑、一滴胶,差点把一切点燃。这样的点,也许还有几十个、几百个,潜在,等着某个凌晨爆发。”
“所以才要百分百的准备。”林晚照望向渐亮的窗,“没有捷径,没有侥幸。一遍遍检查、测试、加固,直到系统能在最坏里活下去。”
“你怕吗?”
“怕。 但更怕,因为怕,就不走了。”
两人并肩出门。走廊尽头,九问便签在晨光里格外醒目。
第九问:有没有更简单、更笨但更稳的路?
有。
——对警告保持敬畏;把“可能没问题”从词典里删掉。
这条路笨、累、一点也不酷,
但它能让人在无人区的黑夜里,活着走到天亮。
喜欢打脸假千金后,清北大学抢疯了请大家收藏:打脸假千金后,清北大学抢疯了更新速度全网最快。