都大学了，小学系统才来？第184节_都市

　　他们认为，培养本科生，尤其是那些有潜力的本科生，是一件非常重要的事情。

　　因为这些本科生，才是未来学术界的新鲜血液。

　　梁院士和丘教授都希望陈林能打破这个惯例，主动给本科生开课。

　　陈林对这个建议，其实是挺认同的。

　　但问题是......

　　他现在的情况，和那些传统的数学教授不太一样。

　　那些教授上课，是把自己多年积累的知识和经验，系统地传授给学生。

　　但陈林呢？

　　他的数学能力，全都来自于【小小数学家】称号。

　　这个称号的效果，是“面对任何数学题，总能得到最正确的答案“。

　　因为很多时候，他自己都说不清楚，为什么会想到这一步，为什么会用这个方法。

　　所以，如果要上课的话，陈林得好好思考一下，到底要用什么样的形式。

　　不过，这个问题也不着急。

　　现在已经是上半学期的第十二周了。

　　就算要上课，也得等到下半学期。

　　还有好几个月的时间，足够陈林慢慢琢磨了。

第二百零八章租用服务器

　　11月25日，周二。

　　陈林昨天采访的内容，经过各大媒体的加工和传播，迅速在网上发酵。

　　围脖、编乎、哆嗦音......

　　几乎所有的社交平台上，都能看到关于陈林的新闻。

　　而其中最引人关注的，就是陈林透露的那个消息

　　演海公司要做AI大模型了！

　　这个消息一出，立刻在科技圈引起了巨大的轰动。

　　知乎上，有人专门开了个问题：

　　【如何看待陈林透露演海公司将进军AI大模型训练领域？】

　　这个问题下面，短短一天时间，就涌入了上千个回答。

　　有人看好：

　　【陈林在算法上的实力有目共睹，如果他真的亲自下场训练大模型，我觉得成功的概率很大。】

　　【演海虽然是小公司，但架不住陈林牛逼啊！别的公司拼资金拼算力，陈林直接从算法层面降维打击！】

　　也有人质疑：

　　【训练大模型可不是闹着玩的，光是数据清洗和标注，就需要海量的人力和资金。演海这种小公司，真的撑得起来吗？】

　　【我觉得陈林有点膨胀了。他在数学上确实很强，但做AI大模型，不只是数学问题，还涉及到工程实现、算力调度、数据处理等等一系列问题。这些东西，不是一个数学天才就能搞定的。】

　　还有人调侃：

　　【陈林：我随便搞搞。CloseAI：？？？】

　　【奥特曼和贾斯克看到这个新闻，估计要睡不着觉了哈哈哈！】

　　【坐等陈林把整个AI行业卷死！】

　　网络上的讨论如火如荼，但陈林本人，却已经不再关注这些了。

　　此刻的他，正坐在演海公司的办公室里，全神贯注地盯着电脑屏幕。

　　屏幕上，密密麻麻全是关于神经网络和Transformer架构的技术文档。

　　陈林已经花了小半年时间，自学人工智能大模型的知识。

　　而现在，他惊喜地发现，这些知识，居然可以和【小小数学家】的能力结合起来！

　　以前，陈林在解决客户问题的时候，往往需要沈妍或者黄依依这些学应用数学的人，先把工程问题“翻译“成纯数学问题，他才能用【小小数学家】的能力去解决。

　　但现在，在人工智能神经网络这个领域，陈林发现自己已经不需要“翻译“了。

　　他可以直接理解那些神经网络的结构和原理，可以直接思考如何从数学角度去优化这些结构。

　　而一旦他开始思考，【小小数学家】的能力就会自动启动，在他脑海中生成完整的解答过程。

　　这种感觉，简直太爽了！

　　陈林越想越兴奋，恨不得立刻就开始研究。

　　不过，他还是让自己冷静下来，继续把剩下的一些技术文档看完。

　　当前主流的Transformer架构，是一种基于自注意力机制的特征提取网络结构，主要用于自然语言处理领域。

　　自注意力机制可以对输入序列中的每个位置进行注意力计算，从而获取全局上下文信息。

　　Transformer的核心，就是self-attention机制。

　　它能够整句处理自然语言，因此训练效率较高，可以并行化处理。

　　但Transformer也有明显的缺点

　　计算复杂度高，时间复杂度是O(Nd)，其中N是序列长度，d是token嵌入的维度。

　　这个时间复杂度，对长序列非常不友好。

　　举个例子，如果要处理一篇一万字的文章，那么计算量就是一万的平方，也就是一亿次计算。

　　如果要处理十万字的长文本呢？

　　那就是一百亿次计算。

　　这对算力的消耗，简直是天文数字。

　　所以，业界一直在寻找能够降低Transformer计算复杂度的方法。

　　而陈林的研究目标，就是希望结合线性模型和注意力机制的优势，让模型可以进行并行计算，在取得Transformer相近效果的情况下，改进计算复杂度。

　　这个目标听起来很简单，但实现起来，难度极大。

　　因为这相当于要重新设计一种全新的神经网络架构。

　　不过，陈林有信心。

　　因为他有【小小数学家】。

　　只要他能把问题想清楚，把目标定明确，剩下的数学推导不成问题。

　　想到这里，陈林深吸了一口气，调整了一下工作计划。

　　从今天开始，他每天上午会继续学习人工智能大模型相关的知识，顺便和潘思、白迁讨论一下他们的工作进展。

　　下午，则进行2小时40分钟的数学研究。

　　这个时间安排，和之前准备数学大会演讲的时候一样。

　　事实证明，这种节奏对陈林来说是最合适的。

　　既能保证学习和研究的效率，又不会让【小小数学家】的能力过度消耗，导致自己直接睡死过去。

　　陈林看了一眼时间，上午十点。

　　潘思和白迁应该都已经在公司了。

　　他站起身，来到潘思和白迁的办公桌旁边。

　　潘思正坐在电脑前，盯着屏幕上密密麻麻的代码。

　　白迁则坐在另一边，面前摊着一堆草稿纸，上面写满了数学公式。

　　“陈总。“潘思抬起头，冲陈林点了点头。

　　白迁也停下手里的笔，推了推眼镜:“陈总，有事吗?“

　　“我就是过来看看你们的进展。“陈林拉了把椅子坐下，“潘博士，你那边怎么样了?“

　　潘思闻言，脸上露出一丝兴奋的神色。

　　“陈总，我这边进展还不错!“

　　他转过电脑屏幕，让陈林能看到上面的内容。

　　“我已经把数据清洗的流程搭建好了，现在沈妍和孙宇正在帮忙做数据标注。“

　　“目前我们已经清洗了大概两千万条高质量的中英文语料。“

　　“按照这个进度，再有两周时间，应该就能积累到五千万条左右。“

　　“到那时候，我们就可以开始第一轮的预训练了。“

　　陈林听到这话，满意地点了点头。

　　“很好。服务器那边呢?方案想好了吗?“

　　“想好了。“潘思笑着说道，“我和白博士商量了一下，决定采用租云服务器的方案。“

　　“项目起步阶段，我们训练验证的都是小参数量的模型，模型参数控制在30B以内。“

　　“这样的话，租用云服务器就够了，每个月成本在10万美元左右。“

　　“虽然价格不算便宜，但因为我和白博士可以共用算力资源，所以其实还算划算。“

　　陈林点了点头。

　　10万美元一个月，折合人民币差不多70万。

　　对于演海公司现在的财力来说，完全可以承受。

　　“那就按这个方案执行吧。“陈林说道，“需要的费用，你们统计好以后报给黄助理，她会安排打款。“

　　“好的，陈总。“潘思应道。

第二百零九章全新的架构

　　陈林又转头看向白迁，白迁虽然没说，但陈林也知道对方心里肯定有些急躁。

　　虽然上个礼拜陈林已经说好了自己会在一个月之内研究出新的算法，但是白迁毕竟和自己刚认识，之前对陈林的了解也只欲局限于新闻上的消息，没有信心是可以理解的。

　　陈林安慰白迁道:

　　“白博士，你现在可以先设计一下新算法落地以及验证可行性的工作流。“

　　陈林顿了顿，接着说道:

　　“我之前跟你说过，我会在一个月内，研究出一套全新的AI算法。“

　　“到时候，你可以基于我的算法，来设计新的模型架构，然后进行训练。“

　　“到时候沈妍也会从潘博士那边过来帮你一起做这个事情。“

都大学了，小学系统才来？ 第184节

推荐阅读

都大学了，小学系统才来？第184节