都大学了,小学系统才来? 第185节

  白迁听到这话,眼睛立刻亮了起来。

  “陈总,您的意思是......您已经开始研究新算法了?“

  “对。“陈林点了点头,“从今天开始,我每天下午会花时间专门进行数学研究。“

  “目标,就是找到一种比Transformer更优的神经网络架构的数学表达。“

  白迁闻言,整个人都激动起来。

  “太好了,陈总!“

  “如果您真的能研究出新算法,那我这边的工作,就有方向了!“

  陈林笑了笑,没有多说什么。

  他站起身,拍了拍白迁的肩膀:

  “加油吧,我也得去工作了。“

  说完,陈林便离开了会议室,回到了自己的办公桌前。

  他看了一眼时间,上午十一点。

  还有一个小时就到中午了。

  陈林决定,先把上午剩下的时间,用来继续学习一些技术细节。

  下午,再开始正式的数学研究。

  ......

  下午一点。

  陈林先处理一些杂事。

  他打开电脑,登录邮箱,看了一眼最近收到的邮件。

  大部分都是一些客户的咨询邮件,孙宇已经帮他筛选过了,把那些明显不靠谱的都过滤掉了。

  剩下的这些,基本都是真正有需求的客户。

  陈林注意到一份邮件,是科大的唐学兵教授写的。

  邮件里说自从上次陈林帮助燕南和科大的联合科研组解决了固态电池研究的数学瓶颈以后,科研组的工作进展很快,新一代的固态电池的样品已经进入了测试阶段。

  电池的测试,是一个相当繁琐且较为漫长的过程。

  从过充电,过放电,外部短路,强制放电等电学测试,到挤压,针刺,冲击,振动,跌落等机械测试.....需要花费大量的时间。

  这次发邮件给演海公司是因为项目组在进行测试的同时还在进行着别的研究,研究过程中的一个化学材料学的新问题,需要依靠陈林的数学能力来解决。

  如果陈林有时间的话,请回复一下邮件,项目组的几位负责人会通过微信联系陈林,约时间线下详细沟通。

  陈林想了一下,回复邮件说自己目前再进行比较重要的数学研究,自己会尽快完成研究,到时候陈林会联系唐学兵教授。

  处理完邮件,陈林又看了一眼公司的财务报表。

  黄依依每周都会整理一份详细的财务报表,发给陈林。

  上面清清楚楚地列着公司的收入、支出、以及账上的余额。

  陈林扫了一眼,发现公司账上现在还有大概四百多万软妹币的余额。

  这笔钱,足够支撑公司未来好几个月的开支了。

  更何况,陈林自己手里,还有【小小理财师】每个月带来的收入。

  所以,资金方面,完全不用担心。

  陈林合上财务报表,又看了一眼时间。

  下午一点五十。

  差不多了。

  他从抽屉里拿出一沓A4纸,又拿出几支黑色的中性笔。

  深吸了一口气,陈林闭上眼睛,开始在脑海中整理思路。

  他的研究目标很明确

  设计一种全新的神经网络架构,这种架构要能够保留Transformer的并行计算能力和全局建模能力,同时大幅降低计算复杂度。

  具体来说,就是要把Transformer的O(Nd)复杂度,降低到O(Ndlog N)甚至更低。

  要实现这个目标,就必须对self-attention机制进行根本性的改造。

  传统的self-attention,是对序列中的每一个token,都计算它和其他所有token之间的注意力权重。

  这就导致了N的复杂度。

  那么,有没有可能,不计算所有token之间的注意力,而是只计算一部分?

  或者说,能不能用某种更高效的方式,来近似self-attention的效果?

  陈林的脑海中,开始浮现出各种各样的想法。

  线性attention、局部attention、稀疏attention......

  这些都是业界已经提出过的方案。

  但它们要么效果不够好,要么实现起来太复杂。

  陈林需要找到一种更优雅、更高效的方法。

  想到这里,他睁开眼睛,拿起笔,开始在纸上写写画画。

  【小小数学家】的能力,悄然启动。

  陈林的思维,仿佛进入了一种奇妙的状态。

  他能感觉到,脑海中的想法,正在以一种前所未有的速度涌现出来。

  各种数学工具,各种理论框架,仿佛都在自动组合、排列、优化......

  陈林的笔,在纸上飞快地移动着。

  一行行公式,从笔尖流淌出来。

  首先,他从Fourier变换的角度,重新审视了self-attention机制。

  Fourier变换可以将时域信号转换到频域,这样就能用频域的乘法,来代替时域的卷积。

  那么,self-attention能不能也用类似的方法,进行加速呢?

  陈林继续推导。

  他发现,如果把self-attention的计算过程,用矩阵的形式表达出来,然后对矩阵进行特征分解......

  诶,有戏!

  陈林的眼睛越来越亮。

  他发现,通过引入一种特殊的核函数,可以把self-attention的计算,转化为一种线性形式。

  而这种线性形式,可以通过递推的方式进行计算,从而将复杂度降低到O(Nd)!

  不过,这种方法也有代价

  它会损失一部分全局建模能力。

  怎么办?

  陈林继续思考。

  他忽然想到,可以引入一种分层的注意力机制。

  在局部范围内,使用传统的self-attention,保证精度。

  在全局范围内,使用线性attention,降低复杂度。

  然后,通过一种巧妙的信息融合机制,把两者结合起来......

  陈林的笔越写越快。

  公式越来越复杂。

  他完全沉浸在了数学推导的世界里,完全忘记了时间的流逝。

  不知不觉中,两个多小时过去了。

  当陈林终于停下笔的时候,他面前的A4纸,已经写满了密密麻麻的公式。

  整整十几页纸。

  陈林靠在椅背上,长长地舒了一口气。

  他能感觉到,脑子里有些昏昏沉沉的,精神有些疲惫。

  不过,这种疲惫感,远没有达到“睡死“的程度。

  陈林低头,看着面前那十几页纸上的公式,嘴角勾起一丝满意的笑容。

  虽然还只是初步的框架,但他已经找到了方向。

第二百一十章 黑色星期四

  11月27日,周四。

  大洋彼岸,大漂亮国,纽约。

  凌晨四点,夜色还未褪去,墙街已经灯火通明。

  弗雷德米尔斯坐在斯比亚投资银行总部的办公室里,面前摆着三台电脑显示器,屏幕上密密麻麻全是跳动的数字和K线图。

  他的手里端着一杯已经凉透的咖啡,眼睛死死盯着屏幕,等待着那个即将到来的历史性时刻。

  距离美股开盘,还有五分半钟。

  办公室的门被推开,斯比亚的首席交易员大卫走了进来,脸上带着掩饰不住的兴奋。

  “弗雷德,我们的仓位都准备好了。“

  大卫在弗雷德身边坐下,压低声音说道:

  “CloseAI没有上市,但是这几天大多数机构对它的估值都降低了50%以上。

  我们在上周开始就已经陆续建立了Palantir、META、以及几家AI概念公司的做空仓位。“

  “杠杆倍数控制在五倍,总资金量......“

  大卫顿了顿,声音里带着几分颤抖:

  “两亿美元。“

  弗雷德听到这个数字,深吸了一口气。

  两亿美元,五倍杠杆,相当于十亿美元的做空仓位!

  这对于斯比亚这种规模的投行来说,已经是孤注一掷的豪赌了!

  如果判断错误,等待他们的,将是灭顶之灾。

  但如果判断正确......

首节上一节185/428下一节尾节目录