他们认为,培养本科生,尤其是那些有潜力的本科生,是一件非常重要的事情。
因为这些本科生,才是未来学术界的新鲜血液。
梁院士和丘教授都希望陈林能打破这个惯例,主动给本科生开课。
陈林对这个建议,其实是挺认同的。
但问题是......
他现在的情况,和那些传统的数学教授不太一样。
那些教授上课,是把自己多年积累的知识和经验,系统地传授给学生。
但陈林呢?
他的数学能力,全都来自于【小小数学家】称号。
这个称号的效果,是“面对任何数学题,总能得到最正确的答案“。
因为很多时候,他自己都说不清楚,为什么会想到这一步,为什么会用这个方法。
所以,如果要上课的话,陈林得好好思考一下,到底要用什么样的形式。
不过,这个问题也不着急。
现在已经是上半学期的第十二周了。
就算要上课,也得等到下半学期。
还有好几个月的时间,足够陈林慢慢琢磨了。
第二百零八章 租用服务器
11月25日,周二。
陈林昨天采访的内容,经过各大媒体的加工和传播,迅速在网上发酵。
围脖、编乎、哆嗦音......
几乎所有的社交平台上,都能看到关于陈林的新闻。
而其中最引人关注的,就是陈林透露的那个消息
演海公司要做AI大模型了!
这个消息一出,立刻在科技圈引起了巨大的轰动。
知乎上,有人专门开了个问题:
【如何看待陈林透露演海公司将进军AI大模型训练领域?】
这个问题下面,短短一天时间,就涌入了上千个回答。
有人看好:
【陈林在算法上的实力有目共睹,如果他真的亲自下场训练大模型,我觉得成功的概率很大。】
【演海虽然是小公司,但架不住陈林牛逼啊!别的公司拼资金拼算力,陈林直接从算法层面降维打击!】
也有人质疑:
【训练大模型可不是闹着玩的,光是数据清洗和标注,就需要海量的人力和资金。演海这种小公司,真的撑得起来吗?】
【我觉得陈林有点膨胀了。他在数学上确实很强,但做AI大模型,不只是数学问题,还涉及到工程实现、算力调度、数据处理等等一系列问题。这些东西,不是一个数学天才就能搞定的。】
还有人调侃:
【陈林:我随便搞搞。CloseAI:???】
【奥特曼和贾斯克看到这个新闻,估计要睡不着觉了哈哈哈!】
【坐等陈林把整个AI行业卷死!】
网络上的讨论如火如荼,但陈林本人,却已经不再关注这些了。
此刻的他,正坐在演海公司的办公室里,全神贯注地盯着电脑屏幕。
屏幕上,密密麻麻全是关于神经网络和Transformer架构的技术文档。
陈林已经花了小半年时间,自学人工智能大模型的知识。
而现在,他惊喜地发现,这些知识,居然可以和【小小数学家】的能力结合起来!
以前,陈林在解决客户问题的时候,往往需要沈妍或者黄依依这些学应用数学的人,先把工程问题“翻译“成纯数学问题,他才能用【小小数学家】的能力去解决。
但现在,在人工智能神经网络这个领域,陈林发现自己已经不需要“翻译“了。
他可以直接理解那些神经网络的结构和原理,可以直接思考如何从数学角度去优化这些结构。
而一旦他开始思考,【小小数学家】的能力就会自动启动,在他脑海中生成完整的解答过程。
这种感觉,简直太爽了!
陈林越想越兴奋,恨不得立刻就开始研究。
不过,他还是让自己冷静下来,继续把剩下的一些技术文档看完。
当前主流的Transformer架构,是一种基于自注意力机制的特征提取网络结构,主要用于自然语言处理领域。
自注意力机制可以对输入序列中的每个位置进行注意力计算,从而获取全局上下文信息。
Transformer的核心,就是self-attention机制。
它能够整句处理自然语言,因此训练效率较高,可以并行化处理。
但Transformer也有明显的缺点
计算复杂度高,时间复杂度是O(Nd),其中N是序列长度,d是token嵌入的维度。
这个时间复杂度,对长序列非常不友好。
举个例子,如果要处理一篇一万字的文章,那么计算量就是一万的平方,也就是一亿次计算。
如果要处理十万字的长文本呢?
那就是一百亿次计算。
这对算力的消耗,简直是天文数字。
所以,业界一直在寻找能够降低Transformer计算复杂度的方法。
而陈林的研究目标,就是希望结合线性模型和注意力机制的优势,让模型可以进行并行计算,在取得Transformer相近效果的情况下,改进计算复杂度。
这个目标听起来很简单,但实现起来,难度极大。
因为这相当于要重新设计一种全新的神经网络架构。
不过,陈林有信心。
因为他有【小小数学家】。
只要他能把问题想清楚,把目标定明确,剩下的数学推导不成问题。
想到这里,陈林深吸了一口气,调整了一下工作计划。
从今天开始,他每天上午会继续学习人工智能大模型相关的知识,顺便和潘思、白迁讨论一下他们的工作进展。
下午,则进行2小时40分钟的数学研究。
这个时间安排,和之前准备数学大会演讲的时候一样。
事实证明,这种节奏对陈林来说是最合适的。
既能保证学习和研究的效率,又不会让【小小数学家】的能力过度消耗,导致自己直接睡死过去。
陈林看了一眼时间,上午十点。
潘思和白迁应该都已经在公司了。
他站起身,来到潘思和白迁的办公桌旁边。
潘思正坐在电脑前,盯着屏幕上密密麻麻的代码。
白迁则坐在另一边,面前摊着一堆草稿纸,上面写满了数学公式。
“陈总。“潘思抬起头,冲陈林点了点头。
白迁也停下手里的笔,推了推眼镜:“陈总,有事吗?“
“我就是过来看看你们的进展。“陈林拉了把椅子坐下,“潘博士,你那边怎么样了?“
潘思闻言,脸上露出一丝兴奋的神色。
“陈总,我这边进展还不错!“
他转过电脑屏幕,让陈林能看到上面的内容。
“我已经把数据清洗的流程搭建好了,现在沈妍和孙宇正在帮忙做数据标注。“
“目前我们已经清洗了大概两千万条高质量的中英文语料。“
“按照这个进度,再有两周时间,应该就能积累到五千万条左右。“
“到那时候,我们就可以开始第一轮的预训练了。“
陈林听到这话,满意地点了点头。
“很好。服务器那边呢?方案想好了吗?“
“想好了。“潘思笑着说道,“我和白博士商量了一下,决定采用租云服务器的方案。“
“项目起步阶段,我们训练验证的都是小参数量的模型,模型参数控制在30B以内。“
“这样的话,租用云服务器就够了,每个月成本在10万美元左右。“
“虽然价格不算便宜,但因为我和白博士可以共用算力资源,所以其实还算划算。“
陈林点了点头。
10万美元一个月,折合人民币差不多70万。
对于演海公司现在的财力来说,完全可以承受。
“那就按这个方案执行吧。“陈林说道,“需要的费用,你们统计好以后报给黄助理,她会安排打款。“
“好的,陈总。“潘思应道。
第二百零九章 全新的架构
陈林又转头看向白迁,白迁虽然没说,但陈林也知道对方心里肯定有些急躁。
虽然上个礼拜陈林已经说好了自己会在一个月之内研究出新的算法,但是白迁毕竟和自己刚认识,之前对陈林的了解也只欲局限于新闻上的消息,没有信心是可以理解的。
陈林安慰白迁道:
“白博士,你现在可以先设计一下新算法落地以及验证可行性的工作流。“
陈林顿了顿,接着说道:
“我之前跟你说过,我会在一个月内,研究出一套全新的AI算法。“
“到时候,你可以基于我的算法,来设计新的模型架构,然后进行训练。“
“到时候沈妍也会从潘博士那边过来帮你一起做这个事情。“