都大学了,小学系统才来? 第170节

  潘思接着说道:

  “至于对齐,指的是让模型的输出,符合人类的价值观和期望。“

  “比如说,你问模型一个问题,它给你的答案,应该是有用的、准确的、无害的。“

  “而不是胡说八道,或者输出一些有害信息。“

  “这就需要通过RLHF(基于人类反馈的强化学习)这种技术,对模型进行对齐训练。“

  潘思说到这里,忽然话锋一转。

  “不过,陈总,您在数学大会上推导出的那个算法,其实已经从数学层面,解决了模型幻觉的问题。“

  “这相当于,直接从源头上,提升了模型的可靠性。“

  “所以,如果您这边能把那个算法融入到模型训练里去的话......“

  潘思的眼睛里,闪过一丝兴奋的光芒。

  “我相信,我们训练出来的模型,在内容生成质量和可靠性上,一定能超越目前市面上所有的竞品!“

  陈林听完潘思的这番话,心中微微一动。

  他忽然发现,白迁和潘思,虽然对于模型架构的看法不太一样,但两个人的观点,其实是可以互补的。

  白迁更关注模型架构的创新,而潘思更关注数据和对齐。

  如果能把这两个人都招进来,让他们各自发挥所长......

第一百九十四章 我见得多了

  陈林看着潘思那双眼睛里闪烁的兴奋光芒,组织了一下语言,缓缓开口道:

  “潘博士,我得提醒你一下。“

  “我在数学大会上推导出的那个算法,是公开发表的。“

  陈林的语气很平静,但说得很清楚。

  “而且,后面我还会把它整理成正式的论文,发表在JAMS上。“

  “我不打算通过专利权,或者别的什么方式,去限制这个算法的使用。“

  潘思闻言,微微一愣。

  陈林接着说道:

  “这几天我在网上看到的信息显示,全世界的AI团队,无论是CloseAI、狗狗这些巨头,还是各个大学的实验室,都在尝试把这个算法融入到现有的模型训练流程中。“

  “所以,“陈林摊了摊手,“在这个算法的应用上,可能轮不到我们这个新团队抢先了。“

  潘思听完,脸上的兴奋神色稍稍收敛了几分。

  他推了推眼镜,若有所思地点了点头。

  “我明白了,陈总。“

  “确实,如果算法是开源的,那么在应用速度上,我们这种初创团队,肯定拼不过那些大公司。“

  陈林看到潘思的表情有些失落,立刻话锋一转:

  “不过,潘博士,你也不用着急。“

  他的语气里,透着一股自信。

  “我马上会开始新的数学研究,尝试研究出更新的更优的人工智能算法。“

  “到时候,我们就能用最新的成果,来训练我们自己的模型。“

  潘思听到这话,眼睛再次亮了起来。

  “陈总,您的意思是......您还会继续在AI算法方面做研究?“

  “没错。“陈林点了点头,“数学研究,本来就是我的强项。“

  “既然要做AI大模型,那我肯定会在算法层面,尽可能地提供支持。“

  潘思听完,整个人都兴奋起来。

  “那太好了!“

  他用力地拍了一下大腿。

  “陈总,如果您能持续产出新算法的话,那我们这个项目,就真的太有优势了!“

  “要知道,现在业界最缺的,就是能从数学层面做出创新的人才。“

  “大部分AI公司,都只是在工程实现上做优化,真正能从理论层面突破注意力机制的,几乎没有。“

  潘思说到这里,语气变得无比郑重:

  “如果陈总您能做到这一点,那我愿意加入!“

  陈林听到这话,嘴角勾起一丝笑意。

  “那待遇方面,潘博士你应该也清楚了吧?“

  “清楚。“潘思点了点头,“月薪税后十万,这个我可以接受。“

  “不过,“他顿了顿,补充道,“我希望能拿到一些公司的期权。“

  “毕竟,如果这个项目真的做成了,公司的估值肯定会暴涨。“

  “我也想分一杯羹。“

  陈林听到这个要求,并没有感到意外。

  像潘思这种在国外大厂工作过的海归,对于股权激励这套玩法,肯定是门儿清。

  “可以。“陈林很爽快地答应了,“具体的期权比例,我们后面可以详细谈。“

  “但有一点我得提前说清楚期权是有兑现期的,而且会和项目的进度绑定。“

  对于这一点陈林之前就有和黄依依做过沟通,给一些愿意加入演海的技术大牛股权激励的是可以的,只要他们在行权以后陈林按市价把股权回购就可以了。

  对于陈林来说股权还是很重要的,毕竟是可以直接被【小小理财师】算作为个人资产数字的。

  潘思闻言,立刻笑了起来。

  “这个当然,我理解。“

  两人又聊了一些细节,最终敲定了入职的相关事宜。

  潘思表示,自己最快能在下周一正式入职。

  送走潘思后,陈林回到自己的办公桌前,长长地舒了一口气。

  白迁和潘思,两个技术大牛,都搞定了!

  接下来,就该正式启动AI项目了。

  ……

  然而,陈林很快就发现,事情并没有他想象中那么顺利。

  11月10日,周一上午。

  演海公司的会议室里,陈林、白迁、潘思三人,第一次坐在了一起。

  会议室不大,一张长条形的会议桌,周围摆了十几把椅子。

  此刻,陈林坐在主位,白迁和潘思分坐两侧。

  孙宇、黄依依、云清、沈妍四人,则坐在稍远一些的位置,作为旁听。

  陈林环视了一圈,率先开口:

  “今天把大家叫过来,主要是想讨论一下,我们接下来AI项目的技术路线。“

  “白博士,潘博士,你们两位都是这个领域的专家,我希望能听听你们的意见。“

  白迁和潘思对视了一眼,随即几乎是同时开口:

  “我先说“

  两人说完,又同时停了下来。

  气氛,瞬间变得有些微妙。

  陈林见状,笑着打了个圆场:

  “要不,白博士你先说?“

  白迁点了点头,推了推眼镜,清了清嗓子。

  “那我就直说了。“

  他从背包里掏出平板电脑,点开了一个PPT文件,投屏到会议室的大屏幕上。

  “我认为,如果我们要做一个全新的AI大模型,那么首先要做的,就是在架构上进行革新。“

  屏幕上,出现了一张复杂的架构图。

  白迁指着图上的几个模块,开始详细讲解:

  “目前主流的Transformer架构,虽然在并行计算和长距离依赖捕捉上有优势,但它的参数利用效率非常低。“

  “而且,Transformer的自注意力机制,计算复杂度是O(n),这导致了在处理长文本的时候,计算成本会呈指数级增长。“

  “所以,“白迁的语气变得无比坚定,“我们必须要设计一种全新的架构,来解决这些问题。“

  他点开PPT的下一页,上面是一大堆数学公式和架构示意图。

  “我这几年一直在研究的,就是一种基于动态稀疏激活机制的新型神经网络架构。“

  “简单来说,就是让模型在推理的时候,不需要激活所有的参数,而是根据输入的内容,动态地选择需要激活的部分。“

  “这样一来,计算效率可以提升数倍,同时模型的容量也能得到大幅增加。“

  白迁说得非常投入,整个人都散发着一种学者的光芒。

  然而,坐在对面的潘思,脸上的表情却越来越古怪。

  等白迁终于讲完,潘思立刻开口了:

  “白博士,恕我直言。“

  他的语气很客气,但话里的意思却一点都不客气。

  “你说的这些东西,我在学术界见得太多了。“

  “每年都有无数的论文,声称自己设计出了某种'革命性'的新架构。“

  “但最后呢?“

  潘思摊了摊手,脸上带着一丝嘲讽的笑意。

  “绝大多数,都只是在实验室里跑跑toy model,根本没办法应用到实际的大规模模型训练中。“

  “为什么?“

  他没等白迁回答,便自顾自地继续说道:

  “因为这些所谓的'新架构',往往在理论上很美好,但在工程实现上,要么是训练不稳定,要么是推理速度太慢,要么是对硬件的要求过高。“

首节上一节170/428下一节尾节目录