都大学了,小学系统才来? 第184节

  他们认为,培养本科生,尤其是那些有潜力的本科生,是一件非常重要的事情。

  因为这些本科生,才是未来学术界的新鲜血液。

  梁院士和丘教授都希望陈林能打破这个惯例,主动给本科生开课。

  陈林对这个建议,其实是挺认同的。

  但问题是......

  他现在的情况,和那些传统的数学教授不太一样。

  那些教授上课,是把自己多年积累的知识和经验,系统地传授给学生。

  但陈林呢?

  他的数学能力,全都来自于【小小数学家】称号。

  这个称号的效果,是“面对任何数学题,总能得到最正确的答案“。

  因为很多时候,他自己都说不清楚,为什么会想到这一步,为什么会用这个方法。

  所以,如果要上课的话,陈林得好好思考一下,到底要用什么样的形式。

  不过,这个问题也不着急。

  现在已经是上半学期的第十二周了。

  就算要上课,也得等到下半学期。

  还有好几个月的时间,足够陈林慢慢琢磨了。

第二百零八章 租用服务器

  11月25日,周二。

  陈林昨天采访的内容,经过各大媒体的加工和传播,迅速在网上发酵。

  围脖、编乎、哆嗦音......

  几乎所有的社交平台上,都能看到关于陈林的新闻。

  而其中最引人关注的,就是陈林透露的那个消息

  演海公司要做AI大模型了!

  这个消息一出,立刻在科技圈引起了巨大的轰动。

  知乎上,有人专门开了个问题:

  【如何看待陈林透露演海公司将进军AI大模型训练领域?】

  这个问题下面,短短一天时间,就涌入了上千个回答。

  有人看好:

  【陈林在算法上的实力有目共睹,如果他真的亲自下场训练大模型,我觉得成功的概率很大。】

  【演海虽然是小公司,但架不住陈林牛逼啊!别的公司拼资金拼算力,陈林直接从算法层面降维打击!】

  也有人质疑:

  【训练大模型可不是闹着玩的,光是数据清洗和标注,就需要海量的人力和资金。演海这种小公司,真的撑得起来吗?】

  【我觉得陈林有点膨胀了。他在数学上确实很强,但做AI大模型,不只是数学问题,还涉及到工程实现、算力调度、数据处理等等一系列问题。这些东西,不是一个数学天才就能搞定的。】

  还有人调侃:

  【陈林:我随便搞搞。CloseAI:???】

  【奥特曼和贾斯克看到这个新闻,估计要睡不着觉了哈哈哈!】

  【坐等陈林把整个AI行业卷死!】

  网络上的讨论如火如荼,但陈林本人,却已经不再关注这些了。

  此刻的他,正坐在演海公司的办公室里,全神贯注地盯着电脑屏幕。

  屏幕上,密密麻麻全是关于神经网络和Transformer架构的技术文档。

  陈林已经花了小半年时间,自学人工智能大模型的知识。

  而现在,他惊喜地发现,这些知识,居然可以和【小小数学家】的能力结合起来!

  以前,陈林在解决客户问题的时候,往往需要沈妍或者黄依依这些学应用数学的人,先把工程问题“翻译“成纯数学问题,他才能用【小小数学家】的能力去解决。

  但现在,在人工智能神经网络这个领域,陈林发现自己已经不需要“翻译“了。

  他可以直接理解那些神经网络的结构和原理,可以直接思考如何从数学角度去优化这些结构。

  而一旦他开始思考,【小小数学家】的能力就会自动启动,在他脑海中生成完整的解答过程。

  这种感觉,简直太爽了!

  陈林越想越兴奋,恨不得立刻就开始研究。

  不过,他还是让自己冷静下来,继续把剩下的一些技术文档看完。

  当前主流的Transformer架构,是一种基于自注意力机制的特征提取网络结构,主要用于自然语言处理领域。

  自注意力机制可以对输入序列中的每个位置进行注意力计算,从而获取全局上下文信息。

  Transformer的核心,就是self-attention机制。

  它能够整句处理自然语言,因此训练效率较高,可以并行化处理。

  但Transformer也有明显的缺点

  计算复杂度高,时间复杂度是O(Nd),其中N是序列长度,d是token嵌入的维度。

  这个时间复杂度,对长序列非常不友好。

  举个例子,如果要处理一篇一万字的文章,那么计算量就是一万的平方,也就是一亿次计算。

  如果要处理十万字的长文本呢?

  那就是一百亿次计算。

  这对算力的消耗,简直是天文数字。

  所以,业界一直在寻找能够降低Transformer计算复杂度的方法。

  而陈林的研究目标,就是希望结合线性模型和注意力机制的优势,让模型可以进行并行计算,在取得Transformer相近效果的情况下,改进计算复杂度。

  这个目标听起来很简单,但实现起来,难度极大。

  因为这相当于要重新设计一种全新的神经网络架构。

  不过,陈林有信心。

  因为他有【小小数学家】。

  只要他能把问题想清楚,把目标定明确,剩下的数学推导不成问题。

  想到这里,陈林深吸了一口气,调整了一下工作计划。

  从今天开始,他每天上午会继续学习人工智能大模型相关的知识,顺便和潘思、白迁讨论一下他们的工作进展。

  下午,则进行2小时40分钟的数学研究。

  这个时间安排,和之前准备数学大会演讲的时候一样。

  事实证明,这种节奏对陈林来说是最合适的。

  既能保证学习和研究的效率,又不会让【小小数学家】的能力过度消耗,导致自己直接睡死过去。

  陈林看了一眼时间,上午十点。

  潘思和白迁应该都已经在公司了。

  他站起身,来到潘思和白迁的办公桌旁边。

  潘思正坐在电脑前,盯着屏幕上密密麻麻的代码。

  白迁则坐在另一边,面前摊着一堆草稿纸,上面写满了数学公式。

  “陈总。“潘思抬起头,冲陈林点了点头。

  白迁也停下手里的笔,推了推眼镜:“陈总,有事吗?“

  “我就是过来看看你们的进展。“陈林拉了把椅子坐下,“潘博士,你那边怎么样了?“

  潘思闻言,脸上露出一丝兴奋的神色。

  “陈总,我这边进展还不错!“

  他转过电脑屏幕,让陈林能看到上面的内容。

  “我已经把数据清洗的流程搭建好了,现在沈妍和孙宇正在帮忙做数据标注。“

  “目前我们已经清洗了大概两千万条高质量的中英文语料。“

  “按照这个进度,再有两周时间,应该就能积累到五千万条左右。“

  “到那时候,我们就可以开始第一轮的预训练了。“

  陈林听到这话,满意地点了点头。

  “很好。服务器那边呢?方案想好了吗?“

  “想好了。“潘思笑着说道,“我和白博士商量了一下,决定采用租云服务器的方案。“

  “项目起步阶段,我们训练验证的都是小参数量的模型,模型参数控制在30B以内。“

  “这样的话,租用云服务器就够了,每个月成本在10万美元左右。“

  “虽然价格不算便宜,但因为我和白博士可以共用算力资源,所以其实还算划算。“

  陈林点了点头。

  10万美元一个月,折合人民币差不多70万。

  对于演海公司现在的财力来说,完全可以承受。

  “那就按这个方案执行吧。“陈林说道,“需要的费用,你们统计好以后报给黄助理,她会安排打款。“

  “好的,陈总。“潘思应道。

第二百零九章 全新的架构

  陈林又转头看向白迁,白迁虽然没说,但陈林也知道对方心里肯定有些急躁。

  虽然上个礼拜陈林已经说好了自己会在一个月之内研究出新的算法,但是白迁毕竟和自己刚认识,之前对陈林的了解也只欲局限于新闻上的消息,没有信心是可以理解的。

  陈林安慰白迁道:

  “白博士,你现在可以先设计一下新算法落地以及验证可行性的工作流。“

  陈林顿了顿,接着说道:

  “我之前跟你说过,我会在一个月内,研究出一套全新的AI算法。“

  “到时候,你可以基于我的算法,来设计新的模型架构,然后进行训练。“

  “到时候沈妍也会从潘博士那边过来帮你一起做这个事情。“

首节上一节184/428下一节尾节目录