都大学了,小学系统才来? 第393节

  陈林听完,陷入了沉思。

  沈妍的分析很有道理。

  从数学角度来说,梯度下降虽然是深度学习的主流优化方法。

  但它有一个隐含的假设:

  目标函数必须是可微的。

  而NDP的发育过程包含大量的离散操作。

  天然不满足这个假设。

  强行使用梯度下降,就需要引入各种近似和放松。

  这会损失一部分性能。

  而进化策略(CMA-ES)则没有这个限制。

  它把整个优化过程当作一个黑盒。

  只关心输入输出。

  不关心中间的具体操作。

  这种“黑盒“的特性。

  恰恰适合NDP这种包含大量离散操作的场景。

  “好。“

  陈林做出了决定。

  “就用进化版NDP。“

  他看向白迁和潘思。

  “接下来,把进化版NDP和YanHai-30B进行融合。然后放到津门超算中心的集群上训练。“

  白迁点了点头。

  “没问题。融合的工作量不大,毕竟YanHai-30B和YanHai-1.5B的架构是一样的,只是参数量不同。“

  潘思估算了一下。

  “大概两三天就能完成。“

  陈林点头。

  “那就定下来了。争取周五下班前开始正式训练。“

第三百一十三章 搬家

  4月3日。

  周五。

  演海公司办公室。

  阳光透过窗户洒进来,照在白迁和潘思的工位上。

  两人正在专注地敲代码。

  进化版NDP与YanHai-30B的融合工作进入了最后阶段。

  正如白迁之前说的,这部分的工作量确实不大。

  核心代码已经在和YanHai-1.5B融合的时候写好了。

  现在要做的,只是把参数和接口调整一下。

  适配YanHai-30B的规模。

  “这个地方的batch size要改一下。“

  白迁指着屏幕上的某一行代码说。

  “YanHai-30B的参数量是YanHai-1.5B的20倍。如果还用原来的batch size,显存肯定会爆。“

  潘思点了点头。

  “我知道。已经改好了。“

  他把代码提交到仓库。

  “对了,learning rate也需要调整。大模型的学习率一般要设得更小一些。“

  白迁“嗯“了一声。

  “我来处理这个。“

  两人配合默契,效率拉满。

  与此同时。

  陈林坐在自己的工位上。

  拿起手机。

  拨通了一个号码。

  “喂,孟总工?“

  电话那头传来孟敬辉爽朗的声音。

  “哟,陈教授啊!什么事?“

  “是这样的。“

  陈林说:

  “我们公司最近有一个新项目,需要用到超算中心的GPU集群。“

  “想预约一下使用时间。“

  孟敬辉“哦“了一声。

  “什么项目?跟上次的YanHai-30B有关吗?“

  “算是升级版吧。“

  陈林解释道:

  “我们研发了一套新的算法框架,叫神经发育程序。“

  “现在要和YanHai-30B进行融合训练。“

  “需要的算力不少。“

  孟敬辉沉默了两秒钟。

  似乎在思考什么。

  然后开口了。

  “陈教授,没问题。“

  他的语气很爽快:

  “4月6日的算力资源我已经预留好了。到时候直接用就行。“

  陈林有些意外。

  “这么快就确定了?不需要走什么审批流程吗?“

  孟敬辉哈哈大笑。

  “陈教授,你太客气了。“

  “你忘了,之前廖长和我们说过要全力配合你们的模型研发。“

  “再说了,上次你们的YanHai-30B推理服务上线。“

  “反响可是非常好。“

  “不少使用单位都跟我们反馈,说这个模型效果比之前用的那些强多了。“

  “这次的新项目,我们超算中心肯定全力支持!“

  陈林笑了笑。

  “那就谢谢孟总工了。“

  “客气什么。“

  孟敬辉说:

  “对了,具体的技术对接还是让白工来处理吧?“

  “对,白博士那边会跟你们联系。“

  “好嘞。那我等白工的消息。“

  “好。“

  挂断电话后。

  陈林靠在椅背上。

  心情不错。

  算力资源的问题解决了。

  接下来就等着周一开始训练了。

  他打开电脑。

  开始检查部署相关的准备工作。

  代码已经通过了code review。

  测试用例全部通过。

  配置文件也已经准备好了。

  一切就绪。

  ......

  ......

  傍晚时分。

  白迁从工位上站起身,伸了个懒腰。

  “搞定了。“

  他的声音里带着几分满足。

  “融合工作全部完成。明天再做一轮集成测试,周一就可以开始正式训练了。“

  潘思也点了点头。

  “我这边也没问题了。配置文件已经全部调好。“

首节上一节393/428下一节尾节目录