潘思接着说道:
“至于对齐,指的是让模型的输出,符合人类的价值观和期望。“
“比如说,你问模型一个问题,它给你的答案,应该是有用的、准确的、无害的。“
“而不是胡说八道,或者输出一些有害信息。“
“这就需要通过RLHF(基于人类反馈的强化学习)这种技术,对模型进行对齐训练。“
潘思说到这里,忽然话锋一转。
“不过,陈总,您在数学大会上推导出的那个算法,其实已经从数学层面,解决了模型幻觉的问题。“
“这相当于,直接从源头上,提升了模型的可靠性。“
“所以,如果您这边能把那个算法融入到模型训练里去的话......“
潘思的眼睛里,闪过一丝兴奋的光芒。
“我相信,我们训练出来的模型,在内容生成质量和可靠性上,一定能超越目前市面上所有的竞品!“
陈林听完潘思的这番话,心中微微一动。
他忽然发现,白迁和潘思,虽然对于模型架构的看法不太一样,但两个人的观点,其实是可以互补的。
白迁更关注模型架构的创新,而潘思更关注数据和对齐。
如果能把这两个人都招进来,让他们各自发挥所长......
第一百九十四章 我见得多了
陈林看着潘思那双眼睛里闪烁的兴奋光芒,组织了一下语言,缓缓开口道:
“潘博士,我得提醒你一下。“
“我在数学大会上推导出的那个算法,是公开发表的。“
陈林的语气很平静,但说得很清楚。
“而且,后面我还会把它整理成正式的论文,发表在JAMS上。“
“我不打算通过专利权,或者别的什么方式,去限制这个算法的使用。“
潘思闻言,微微一愣。
陈林接着说道:
“这几天我在网上看到的信息显示,全世界的AI团队,无论是CloseAI、狗狗这些巨头,还是各个大学的实验室,都在尝试把这个算法融入到现有的模型训练流程中。“
“所以,“陈林摊了摊手,“在这个算法的应用上,可能轮不到我们这个新团队抢先了。“
潘思听完,脸上的兴奋神色稍稍收敛了几分。
他推了推眼镜,若有所思地点了点头。
“我明白了,陈总。“
“确实,如果算法是开源的,那么在应用速度上,我们这种初创团队,肯定拼不过那些大公司。“
陈林看到潘思的表情有些失落,立刻话锋一转:
“不过,潘博士,你也不用着急。“
他的语气里,透着一股自信。
“我马上会开始新的数学研究,尝试研究出更新的更优的人工智能算法。“
“到时候,我们就能用最新的成果,来训练我们自己的模型。“
潘思听到这话,眼睛再次亮了起来。
“陈总,您的意思是......您还会继续在AI算法方面做研究?“
“没错。“陈林点了点头,“数学研究,本来就是我的强项。“
“既然要做AI大模型,那我肯定会在算法层面,尽可能地提供支持。“
潘思听完,整个人都兴奋起来。
“那太好了!“
他用力地拍了一下大腿。
“陈总,如果您能持续产出新算法的话,那我们这个项目,就真的太有优势了!“
“要知道,现在业界最缺的,就是能从数学层面做出创新的人才。“
“大部分AI公司,都只是在工程实现上做优化,真正能从理论层面突破注意力机制的,几乎没有。“
潘思说到这里,语气变得无比郑重:
“如果陈总您能做到这一点,那我愿意加入!“
陈林听到这话,嘴角勾起一丝笑意。
“那待遇方面,潘博士你应该也清楚了吧?“
“清楚。“潘思点了点头,“月薪税后十万,这个我可以接受。“
“不过,“他顿了顿,补充道,“我希望能拿到一些公司的期权。“
“毕竟,如果这个项目真的做成了,公司的估值肯定会暴涨。“
“我也想分一杯羹。“
陈林听到这个要求,并没有感到意外。
像潘思这种在国外大厂工作过的海归,对于股权激励这套玩法,肯定是门儿清。
“可以。“陈林很爽快地答应了,“具体的期权比例,我们后面可以详细谈。“
“但有一点我得提前说清楚期权是有兑现期的,而且会和项目的进度绑定。“
对于这一点陈林之前就有和黄依依做过沟通,给一些愿意加入演海的技术大牛股权激励的是可以的,只要他们在行权以后陈林按市价把股权回购就可以了。
对于陈林来说股权还是很重要的,毕竟是可以直接被【小小理财师】算作为个人资产数字的。
潘思闻言,立刻笑了起来。
“这个当然,我理解。“
两人又聊了一些细节,最终敲定了入职的相关事宜。
潘思表示,自己最快能在下周一正式入职。
送走潘思后,陈林回到自己的办公桌前,长长地舒了一口气。
白迁和潘思,两个技术大牛,都搞定了!
接下来,就该正式启动AI项目了。
……
然而,陈林很快就发现,事情并没有他想象中那么顺利。
11月10日,周一上午。
演海公司的会议室里,陈林、白迁、潘思三人,第一次坐在了一起。
会议室不大,一张长条形的会议桌,周围摆了十几把椅子。
此刻,陈林坐在主位,白迁和潘思分坐两侧。
孙宇、黄依依、云清、沈妍四人,则坐在稍远一些的位置,作为旁听。
陈林环视了一圈,率先开口:
“今天把大家叫过来,主要是想讨论一下,我们接下来AI项目的技术路线。“
“白博士,潘博士,你们两位都是这个领域的专家,我希望能听听你们的意见。“
白迁和潘思对视了一眼,随即几乎是同时开口:
“我先说“
两人说完,又同时停了下来。
气氛,瞬间变得有些微妙。
陈林见状,笑着打了个圆场:
“要不,白博士你先说?“
白迁点了点头,推了推眼镜,清了清嗓子。
“那我就直说了。“
他从背包里掏出平板电脑,点开了一个PPT文件,投屏到会议室的大屏幕上。
“我认为,如果我们要做一个全新的AI大模型,那么首先要做的,就是在架构上进行革新。“
屏幕上,出现了一张复杂的架构图。
白迁指着图上的几个模块,开始详细讲解:
“目前主流的Transformer架构,虽然在并行计算和长距离依赖捕捉上有优势,但它的参数利用效率非常低。“
“而且,Transformer的自注意力机制,计算复杂度是O(n),这导致了在处理长文本的时候,计算成本会呈指数级增长。“
“所以,“白迁的语气变得无比坚定,“我们必须要设计一种全新的架构,来解决这些问题。“
他点开PPT的下一页,上面是一大堆数学公式和架构示意图。
“我这几年一直在研究的,就是一种基于动态稀疏激活机制的新型神经网络架构。“
“简单来说,就是让模型在推理的时候,不需要激活所有的参数,而是根据输入的内容,动态地选择需要激活的部分。“
“这样一来,计算效率可以提升数倍,同时模型的容量也能得到大幅增加。“
白迁说得非常投入,整个人都散发着一种学者的光芒。
然而,坐在对面的潘思,脸上的表情却越来越古怪。
等白迁终于讲完,潘思立刻开口了:
“白博士,恕我直言。“
他的语气很客气,但话里的意思却一点都不客气。
“你说的这些东西,我在学术界见得太多了。“
“每年都有无数的论文,声称自己设计出了某种'革命性'的新架构。“
“但最后呢?“
潘思摊了摊手,脸上带着一丝嘲讽的笑意。
“绝大多数,都只是在实验室里跑跑toy model,根本没办法应用到实际的大规模模型训练中。“
“为什么?“
他没等白迁回答,便自顾自地继续说道:
“因为这些所谓的'新架构',往往在理论上很美好,但在工程实现上,要么是训练不稳定,要么是推理速度太慢,要么是对硬件的要求过高。“