都大学了,小学系统才来? 第330节

  收件箱里多了一封新邮件。

  发件人是顾铭。

  标题是:【实分析历年期末试卷(2016-2025)】

  附件是一个压缩包。

  陈林下载下来,解压。

  整整十份卷子。

  每一份都是PDF格式,排版清晰规整。

  陈林随手点开一份,扫了一眼。

  题目涵盖了实数完备性、极限理论、连续函数、微分学、积分学、函数序列与级数……

  基本上实分析的核心内容都有涉及。

  “不错不错。“

  陈林满意地点了点头。

  有了这些卷子,他就有底了。

  不过他没有急着开始准备。

  今天是2月24号,大年初八。

  距离正式开课还有一个多星期。

  而且他和付杨青已经约好了,2月27号吃完午饭就出发,开车回津门。

  3月2号,周一,演海公司正式开工。

  备课的事情,完全可以等回津门以后再说。

  现在嘛……

  陈林关掉邮箱页面。

  他有更重要的事情要做。

  他打开一个新的Word文档。

  光标在空白的页面上闪烁。

  陈林思索了片刻。

  然后打下了文档的标题:《神经发育程序》

  这五个字敲下去的瞬间,陈林的眼神变得认真起来。

  这是他从大年夜看到白迁发来的YanHai-30B测试报告以后,就一直在思考的事情。

  YanHai-30B的表现确实很惊艳。

  同等参数量级下,碾压所有开源模型。

  甚至和那些千亿参数的顶级模型相比,也能打得有来有回。

  但问题是……

  然后呢?

  按照现在的路线继续往下走。

  下一步就是YanHai-100B。

  再往后是YanHai-300B、YanHai-800B……

  无限堆高参数量。

  陈林靠在椅背上,眉头微微皱起。

  这条路,他心里是有疑虑的。

  且不说津门超算中心的算力和大漂亮那几个科技巨头比起来根本不够看。

  就算他有无限的算力

  这种军备竞赛式的发展模式,真的是人工智能的未来吗?

  陈林对此是持怀疑态度的。

  他想起了去年下半年自学AI的时候,无意中读到的一篇论文。

  那篇论文提出了一个非常有意思的概念

  神经发育程序。

  Neuronal Developmental Program。

  核心理念是这样的:

  传统的深度学习,依赖于人工设计的网络架构。

  比如Transformer。

  先把架构设计好,然后通过训练来优化连接权重。

  架构是死的,只有权重是活的。

  但生物大脑不是这样工作的。

  人类大脑有大约100万亿个神经连接。

  但编码这些连接的基因,只有大约3万个。

  这意味着什么?

  意味着基因不可能直接编码每一个连接的位置和强度。

  基因编码的,应该是某种“生长规则“。

  大脑在发育的过程中,根据这些规则,自己长出那100万亿个连接来。

  这就是所谓的“基因瓶颈“理论。

  那篇论文的作者受此启发,提出了神经发育程序的概念。

  两个核心思想:

  第一,自组织生长。

  网络不是预先定义好的,而是从单个或少数神经元种子节点开始,通过局部通信动态生长而成。

  第二,间接编码。

  程序的参数编码的不是具体的突触配置,而是生长规则。

  这种压缩机制具有正则化效果,能提高系统的泛化能力。

  陈林第一次读到这篇论文的时候,就被里面的想法深深吸引了。

  因为这更符合他对人工智能的想象。

  真正的智能,应该是能够自我生长、自我进化的。

  而不是被人类设计好框架,然后在框架内做填空题。

  但那篇论文也有明显的局限性。

  作者只是简单介绍了一下自己的想法。

  并没有给出详细的算法架构和工作机制。

  而且作者自己也承认

  这种方法存在“复杂度收益递减“的问题。

  在某些任务中,随着生长步数增加,网络过于复杂,反而会导致性能下降。

  这是一个致命的缺陷。

  也是这个方向一直没有成为主流的原因之一。

  但是现在……

  陈林盯着屏幕上的标题,眼神里闪烁着兴奋的光芒。

  他有了一个大胆的想法。

  如果能把神经发育程序的理念,和演海大模型的算法架构融合起来呢?

  演海大模型的核心优势是什么?

  是陈林设计的那套新架构。

  计算复杂度比Transformer低得多。

  同样的算力,能训练出效果更好的模型。

  而神经发育程序的核心问题是什么?

  是复杂度收益递减。

  网络越复杂,性能反而越差。

  如果用演海架构的低复杂度特性,去对冲神经发育程序的复杂度膨胀……

  会发生什么?

  陈林越想越兴奋。

  他在脑海里快速构建着整个系统的框架。

  新的训练范式应该是这样的

  首先,潘思牵头开发的训练数据流水线会24小时不停地产出高质量的训练数据。

  这解决了数据来源的问题。

  然后,神经发育程序会在训练过程中自组织网络结构。

  网络不是一开始就固定好的,而是边训练边生长。

  遇到什么样的数据,就生长出什么样的结构来处理。

  最后,陈林的新架构会控制住整个系统的计算复杂度。

  避免网络无限膨胀,导致性能下降。

  如果这套系统能跑通……

  那诞生的大模型将是真正意义上的“训练推理一体“。

  它不需要像传统模型那样,先训练好,再部署上线。

  它可以在运行的同时持续学习、持续进化。

  今天的模型和明天的模型,可能就不是同一个模型。

  甚至每一秒的模型,都在悄悄变化。

首节上一节330/428下一节尾节目录