陈林听完,陷入了沉思。
沈妍的分析很有道理。
从数学角度来说,梯度下降虽然是深度学习的主流优化方法。
但它有一个隐含的假设:
目标函数必须是可微的。
而NDP的发育过程包含大量的离散操作。
天然不满足这个假设。
强行使用梯度下降,就需要引入各种近似和放松。
这会损失一部分性能。
而进化策略(CMA-ES)则没有这个限制。
它把整个优化过程当作一个黑盒。
只关心输入输出。
不关心中间的具体操作。
这种“黑盒“的特性。
恰恰适合NDP这种包含大量离散操作的场景。
“好。“
陈林做出了决定。
“就用进化版NDP。“
他看向白迁和潘思。
“接下来,把进化版NDP和YanHai-30B进行融合。然后放到津门超算中心的集群上训练。“
白迁点了点头。
“没问题。融合的工作量不大,毕竟YanHai-30B和YanHai-1.5B的架构是一样的,只是参数量不同。“
潘思估算了一下。
“大概两三天就能完成。“
陈林点头。
“那就定下来了。争取周五下班前开始正式训练。“
第三百一十三章 搬家
4月3日。
周五。
演海公司办公室。
阳光透过窗户洒进来,照在白迁和潘思的工位上。
两人正在专注地敲代码。
进化版NDP与YanHai-30B的融合工作进入了最后阶段。
正如白迁之前说的,这部分的工作量确实不大。
核心代码已经在和YanHai-1.5B融合的时候写好了。
现在要做的,只是把参数和接口调整一下。
适配YanHai-30B的规模。
“这个地方的batch size要改一下。“
白迁指着屏幕上的某一行代码说。
“YanHai-30B的参数量是YanHai-1.5B的20倍。如果还用原来的batch size,显存肯定会爆。“
潘思点了点头。
“我知道。已经改好了。“
他把代码提交到仓库。
“对了,learning rate也需要调整。大模型的学习率一般要设得更小一些。“
白迁“嗯“了一声。
“我来处理这个。“
两人配合默契,效率拉满。
与此同时。
陈林坐在自己的工位上。
拿起手机。
拨通了一个号码。
“喂,孟总工?“
电话那头传来孟敬辉爽朗的声音。
“哟,陈教授啊!什么事?“
“是这样的。“
陈林说:
“我们公司最近有一个新项目,需要用到超算中心的GPU集群。“
“想预约一下使用时间。“
孟敬辉“哦“了一声。
“什么项目?跟上次的YanHai-30B有关吗?“
“算是升级版吧。“
陈林解释道:
“我们研发了一套新的算法框架,叫神经发育程序。“
“现在要和YanHai-30B进行融合训练。“
“需要的算力不少。“
孟敬辉沉默了两秒钟。
似乎在思考什么。
然后开口了。
“陈教授,没问题。“
他的语气很爽快:
“4月6日的算力资源我已经预留好了。到时候直接用就行。“
陈林有些意外。
“这么快就确定了?不需要走什么审批流程吗?“
孟敬辉哈哈大笑。
“陈教授,你太客气了。“
“你忘了,之前廖长和我们说过要全力配合你们的模型研发。“
“再说了,上次你们的YanHai-30B推理服务上线。“
“反响可是非常好。“
“不少使用单位都跟我们反馈,说这个模型效果比之前用的那些强多了。“
“这次的新项目,我们超算中心肯定全力支持!“
陈林笑了笑。
“那就谢谢孟总工了。“
“客气什么。“
孟敬辉说:
“对了,具体的技术对接还是让白工来处理吧?“
“对,白博士那边会跟你们联系。“
“好嘞。那我等白工的消息。“
“好。“
挂断电话后。
陈林靠在椅背上。
心情不错。
算力资源的问题解决了。
接下来就等着周一开始训练了。
他打开电脑。
开始检查部署相关的准备工作。
代码已经通过了code review。
测试用例全部通过。
配置文件也已经准备好了。
一切就绪。
......
......
傍晚时分。
白迁从工位上站起身,伸了个懒腰。
“搞定了。“
他的声音里带着几分满足。
“融合工作全部完成。明天再做一轮集成测试,周一就可以开始正式训练了。“
潘思也点了点头。
“我这边也没问题了。配置文件已经全部调好。“