都大学了，小学系统才来？第393节_都市

　　陈林听完，陷入了沉思。

　　沈妍的分析很有道理。

　　从数学角度来说，梯度下降虽然是深度学习的主流优化方法。

　　但它有一个隐含的假设：

　　目标函数必须是可微的。

　　而NDP的发育过程包含大量的离散操作。

　　天然不满足这个假设。

　　强行使用梯度下降，就需要引入各种近似和放松。

　　这会损失一部分性能。

　　而进化策略（CMA-ES）则没有这个限制。

　　它把整个优化过程当作一个黑盒。

　　只关心输入输出。

　　不关心中间的具体操作。

　　这种“黑盒“的特性。

　　恰恰适合NDP这种包含大量离散操作的场景。

　　“好。“

　　陈林做出了决定。

　　“就用进化版NDP。“

　　他看向白迁和潘思。

　　“接下来，把进化版NDP和YanHai-30B进行融合。然后放到津门超算中心的集群上训练。“

　　白迁点了点头。

　　“没问题。融合的工作量不大，毕竟YanHai-30B和YanHai-1.5B的架构是一样的，只是参数量不同。“

　　潘思估算了一下。

　　“大概两三天就能完成。“

　　陈林点头。

　　“那就定下来了。争取周五下班前开始正式训练。“

第三百一十三章搬家

　　4月3日。

　　周五。

　　演海公司办公室。

　　阳光透过窗户洒进来，照在白迁和潘思的工位上。

　　两人正在专注地敲代码。

　　进化版NDP与YanHai-30B的融合工作进入了最后阶段。

　　正如白迁之前说的，这部分的工作量确实不大。

　　核心代码已经在和YanHai-1.5B融合的时候写好了。

　　现在要做的，只是把参数和接口调整一下。

　　适配YanHai-30B的规模。

　　“这个地方的batch size要改一下。“

　　白迁指着屏幕上的某一行代码说。

　　“YanHai-30B的参数量是YanHai-1.5B的20倍。如果还用原来的batch size，显存肯定会爆。“

　　潘思点了点头。

　　“我知道。已经改好了。“

　　他把代码提交到仓库。

　　“对了，learning rate也需要调整。大模型的学习率一般要设得更小一些。“

　　白迁“嗯“了一声。

　　“我来处理这个。“

　　两人配合默契，效率拉满。

　　与此同时。

　　陈林坐在自己的工位上。

　　拿起手机。

　　拨通了一个号码。

　　“喂，孟总工？“

　　电话那头传来孟敬辉爽朗的声音。

　　“哟，陈教授啊！什么事？“

　　“是这样的。“

　　陈林说：

　　“我们公司最近有一个新项目，需要用到超算中心的GPU集群。“

　　“想预约一下使用时间。“

　　孟敬辉“哦“了一声。

　　“什么项目？跟上次的YanHai-30B有关吗？“

　　“算是升级版吧。“

　　陈林解释道：

　　“我们研发了一套新的算法框架，叫神经发育程序。“

　　“现在要和YanHai-30B进行融合训练。“

　　“需要的算力不少。“

　　孟敬辉沉默了两秒钟。

　　似乎在思考什么。

　　然后开口了。

　　“陈教授，没问题。“

　　他的语气很爽快：

　　“4月6日的算力资源我已经预留好了。到时候直接用就行。“

　　陈林有些意外。

　　“这么快就确定了？不需要走什么审批流程吗？“

　　孟敬辉哈哈大笑。

　　“陈教授，你太客气了。“

　　“你忘了，之前廖长和我们说过要全力配合你们的模型研发。“

　　“再说了，上次你们的YanHai-30B推理服务上线。“

　　“反响可是非常好。“

　　“不少使用单位都跟我们反馈，说这个模型效果比之前用的那些强多了。“

　　“这次的新项目，我们超算中心肯定全力支持！“

　　陈林笑了笑。

　　“那就谢谢孟总工了。“

　　“客气什么。“

　　孟敬辉说：

　　“对了，具体的技术对接还是让白工来处理吧？“

　　“对，白博士那边会跟你们联系。“

　　“好嘞。那我等白工的消息。“

　　“好。“

　　挂断电话后。

　　陈林靠在椅背上。

　　心情不错。

　　算力资源的问题解决了。

　　接下来就等着周一开始训练了。

　　他打开电脑。

　　开始检查部署相关的准备工作。

　　代码已经通过了code review。

　　测试用例全部通过。

　　配置文件也已经准备好了。

　　一切就绪。

　　......

　　傍晚时分。

　　白迁从工位上站起身，伸了个懒腰。

　　“搞定了。“

　　他的声音里带着几分满足。

　　“融合工作全部完成。明天再做一轮集成测试，周一就可以开始正式训练了。“

　　潘思也点了点头。

　　“我这边也没问题了。配置文件已经全部调好。“

都大学了，小学系统才来？ 第393节

推荐阅读

都大学了，小学系统才来？第393节