然后做性能测试就行了。
......
......
4月10日。
周五。
早上九点左右。
陈林到了公司。
他刚在工位上坐下。
白迁就拿着手机走了过来。
“陈总,超算中心那边打电话来了。“
白迁的表情有些严肃:
“我开免提,你听一下。“
陈林微微皱眉。
超算中心主动打电话过来?
不会是出了什么问题吧?
白迁按下了免提键。
“喂,陈教授?“
电话那头传来一个年轻男人的声音。
语气有些紧张:
“您好,我是津门超算中心的工程师,姓葛。您可以叫我小葛。“
“你好,小葛。“
陈林说:
“什么情况?“
小葛的声音有些犹豫。
似乎在斟酌措辞。
“是这样的,陈教授。“
“我在检查集群硬件指标的时候,发现了一个有点奇怪的现象。“
陈林的眉头皱得更紧了。
“什么现象?“
“在过去几天的训练过程中......“
小葛说:
“GPU占用率每隔一段时间就会飙到一个非常高的数值。“
“每次持续的时间不算长,大概几十秒到几分钟不等。“
“但每天累计下来的时间也超过了一个小时。“
陈林和白迁对视一眼。
两人的眼神里都带着疑惑。
“飙到多高?“
陈林问。
“接近100%。“
小葛的声音有些紧张:
“有时候甚至会触发系统的过载警告。“
“不过因为持续时间不长,所以没有造成什么实际影响。“
陈林沉默了几秒钟。
“有什么规律吗?“
“我看了一下......“
小葛说:
“好像没有固定的周期。“
“有时候间隔几个小时,有时候间隔十几分钟。“
“很难预测。“
陈林陷入了思考。
这个现象确实很奇怪。
按道理说,训练进程的GPU占用率应该是相对稳定的。
不会突然飙升到100%。
“小葛,你能把过去几天的GPU占用率曲线图发给我们看一下吗?“
他问。
“可以的。“
小葛说:
“我马上发到白工的邮箱。“
“好,谢谢你。“
“没事。如果有什么需要配合的,随时联系我。“
挂断电话后。
陈林看向白迁和潘思。
“你们这几天有注意到什么异常吗?“
白迁摇了摇头。
“没有。训练日志一直很正常。Loss曲线也没有异常波动。“
潘思也摇了摇头。
“种群迭代的数据我每天都会检查。没发现什么问题。“
陈林皱着眉头。
如果训练日志正常。
Loss曲线正常。
种群迭代正常。
那GPU占用率飙升是怎么回事?
几分钟后。
白迁的邮箱收到了小葛发来的邮件。
他打开附件。
是一张GPU占用率曲线图。
三人围在电脑前。
仔细查看。
图上的曲线确实很奇怪。
大部分时间,GPU占用率维持在一个稳定的水平。
大概60%-70%左右。
这个范围是正常的。
训练大模型嘛。
GPU占用率高一点很正常。
但问题是。
每隔一段时间。
曲线就会突然飙升。
像一根针刺一样。
直冲100%。
然后又快速回落。
恢复正常。
这种“尖峰“在过去几天里出现了很多次。
分布看起来没有明显的规律。
有时候间隔几个小时。
有时候间隔十几分钟。
完全随机。
“很奇怪......“
白迁盯着曲线图。
喃喃自语。
潘思沉默了一会儿。
然后开口说道:
“我有一个猜测。“
陈林和白迁都看向他。
“进化版NDP的核心机制之一,就是网络结构的动态生长。“
潘思说:
“在训练过程中,NDP会根据数据的特点,自动决定要不要生成新的神经元和连接。“
他指着曲线图上的那些尖峰:
“会不会是这些时间点,NDP在短时间内生成了过多的神经元?“