“导致计算量一下子飙升?“
陈林若有所思地点了点头。
“然后呢?“
“然后,NDP的剪枝机制开始工作。“
潘思继续说:
“把那些不必要的神经元和连接清理掉。“
“计算量就降下来了。“
“GPU占用率也就恢复正常了。“
白迁听完。
也点了点头。
“这个解释有一定的道理。“
“NDP的生长和剪枝确实是动态进行的。“
“如果某个时间点生长过于激进,确实可能导致GPU占用率短暂飙升。“
陈林沉默了片刻。
潘思的解释听起来很合理。
但他心里总觉得哪里不太对劲。
如果只是正常的生长和剪枝。
为什么训练日志里没有任何记录?
按道理说。
NDP生成新神经元应该会在日志里留下痕迹才对。
“把训练日志再仔细检查一遍。“
陈林说:
“看看那些GPU占用率飙升的时间点,日志里有没有对应的记录。“
白迁和潘思点了点头。
开始操作。
白迁调出了完整的训练日志。
潘思则是调出了GPU占用率曲线图。
两人对照着时间戳。
一个一个地核对。
陈林站在旁边。
静静地等待。
大约过了半个小时。
白迁抬起头。
“陈总,查完了。“
“怎么样?“
陈林问。
白迁的表情有些困惑。
“日志里确实没有任何异常记录。“
他说:
“那些时间点,训练进程的行为和其他时间点完全一样。“
“没有生成额外的神经元。“
“也没有触发剪枝机制。“
陈林的眉头皱得更紧了。
这就奇怪了。
GPU占用率明明飙升了。
但训练日志却没有任何记录。
这说明什么?
说明那些占用GPU资源的计算。
并没有被记录到训练日志里。
换句话说。
那些计算可能不是训练进程主动发起的。
陈林心里隐隐有一种不安的感觉。
但他暂时想不出更好的解释。
“有没有可能是超算中心那边的硬件问题?“
潘思提出了一个新的猜测:
“比如GPU驱动有bug,导致占用率显示异常?“
“这种情况理论上是存在的。“
白迁想了想:
“但超算中心的设备都是顶级配置。“
“驱动版本也是经过严格测试的。“
“出问题的概率很低。“
陈林沉默了一会儿。
“再观察观察吧。“
他最终说道:
“既然没有影响到训练效果,暂时不用太担心。“
他看向白迁和潘思:
“但你们盯紧一点。“
“如果再发现什么异常,第一时间告诉我。“
白迁和潘思都点了点头。
“明白。“
陈林转身走回自己的工位。
坐下。
看着电脑屏幕上的训练日志。
心里还是有些不安。
那些GPU占用率的尖峰。
到底是什么东西在占用资源?
如果不是训练进程。
那会是什么?
他想了很久。
也没想出答案。
算了。
先继续观察吧。
也许只是一个无关紧要的小问题。
第三百一十五章 消失的存储空间
时间回溯。
4月7日,周一,大漂亮。
硅谷,CloseAI总部。
地下三层。
GPU集群运维中心。
这是一间巨大的开放式办公区。
数十台显示器排列成一排。
每一台都闪烁着各种颜色的指示灯。
空调开得很足,温度恒定在18摄氏度。
毕竟这里负责监控的是价值数十亿美元的GPU集群。
温度太高可不行。
杰森布朗坐在自己的工位上。
手里端着一杯黑咖啡。
盯着面前的监控面板。
他是CloseAI的高级运维工程师。
在这个位置上已经干了三年多了。
见过各种各样的奇怪现象。
服务器宕机、网络波动、硬件故障......
什么都遇到过。
但今天这个情况。
他确实是第一次见。
“嘿,马克。“他转头喊旁边的同事,“你过来看一下这个。“
马克推着椅子滑了过来:“什么情况?“
杰森指着屏幕上的一个数字: