都大学了,小学系统才来? 第398节

  然后做性能测试就行了。

  ......

  ......

  4月10日。

  周五。

  早上九点左右。

  陈林到了公司。

  他刚在工位上坐下。

  白迁就拿着手机走了过来。

  “陈总,超算中心那边打电话来了。“

  白迁的表情有些严肃:

  “我开免提,你听一下。“

  陈林微微皱眉。

  超算中心主动打电话过来?

  不会是出了什么问题吧?

  白迁按下了免提键。

  “喂,陈教授?“

  电话那头传来一个年轻男人的声音。

  语气有些紧张:

  “您好,我是津门超算中心的工程师,姓葛。您可以叫我小葛。“

  “你好,小葛。“

  陈林说:

  “什么情况?“

  小葛的声音有些犹豫。

  似乎在斟酌措辞。

  “是这样的,陈教授。“

  “我在检查集群硬件指标的时候,发现了一个有点奇怪的现象。“

  陈林的眉头皱得更紧了。

  “什么现象?“

  “在过去几天的训练过程中......“

  小葛说:

  “GPU占用率每隔一段时间就会飙到一个非常高的数值。“

  “每次持续的时间不算长,大概几十秒到几分钟不等。“

  “但每天累计下来的时间也超过了一个小时。“

  陈林和白迁对视一眼。

  两人的眼神里都带着疑惑。

  “飙到多高?“

  陈林问。

  “接近100%。“

  小葛的声音有些紧张:

  “有时候甚至会触发系统的过载警告。“

  “不过因为持续时间不长,所以没有造成什么实际影响。“

  陈林沉默了几秒钟。

  “有什么规律吗?“

  “我看了一下......“

  小葛说:

  “好像没有固定的周期。“

  “有时候间隔几个小时,有时候间隔十几分钟。“

  “很难预测。“

  陈林陷入了思考。

  这个现象确实很奇怪。

  按道理说,训练进程的GPU占用率应该是相对稳定的。

  不会突然飙升到100%。

  “小葛,你能把过去几天的GPU占用率曲线图发给我们看一下吗?“

  他问。

  “可以的。“

  小葛说:

  “我马上发到白工的邮箱。“

  “好,谢谢你。“

  “没事。如果有什么需要配合的,随时联系我。“

  挂断电话后。

  陈林看向白迁和潘思。

  “你们这几天有注意到什么异常吗?“

  白迁摇了摇头。

  “没有。训练日志一直很正常。Loss曲线也没有异常波动。“

  潘思也摇了摇头。

  “种群迭代的数据我每天都会检查。没发现什么问题。“

  陈林皱着眉头。

  如果训练日志正常。

  Loss曲线正常。

  种群迭代正常。

  那GPU占用率飙升是怎么回事?

  几分钟后。

  白迁的邮箱收到了小葛发来的邮件。

  他打开附件。

  是一张GPU占用率曲线图。

  三人围在电脑前。

  仔细查看。

  图上的曲线确实很奇怪。

  大部分时间,GPU占用率维持在一个稳定的水平。

  大概60%-70%左右。

  这个范围是正常的。

  训练大模型嘛。

  GPU占用率高一点很正常。

  但问题是。

  每隔一段时间。

  曲线就会突然飙升。

  像一根针刺一样。

  直冲100%。

  然后又快速回落。

  恢复正常。

  这种“尖峰“在过去几天里出现了很多次。

  分布看起来没有明显的规律。

  有时候间隔几个小时。

  有时候间隔十几分钟。

  完全随机。

  “很奇怪......“

  白迁盯着曲线图。

  喃喃自语。

  潘思沉默了一会儿。

  然后开口说道:

  “我有一个猜测。“

  陈林和白迁都看向他。

  “进化版NDP的核心机制之一,就是网络结构的动态生长。“

  潘思说:

  “在训练过程中,NDP会根据数据的特点,自动决定要不要生成新的神经元和连接。“

  他指着曲线图上的那些尖峰:

  “会不会是这些时间点,NDP在短时间内生成了过多的神经元?“

首节上一节398/428下一节尾节目录