首富从AI浪潮开始 第180节

  不能解决的问题,靠这个工具依然解决不了。

  对于真正懂原理的人来说,节省下来的时间最多,帮助也最大。

  反而对那些本来就一知半解的人来说,即使有了这样的工具用处也不大,解决不了的问题还是解决不了。

  能做出十个算子的适配工作,这个技术团队的实力还是很强的。

  他相信,凭着自己的技术能力和经验,配合着这套工具,加上这样的团队,把国产显卡的全链路适配做出来,不是没有可能。

  江松然暗自点头。

  然后他开口指着屏幕上的结果说:“这个算子暂时不用做到百分之八十。”

  赵文渊一愣,问:“为什么?”

  “因为咱们现在缺的不是这个算子的单点性能。”江松然指了指屏幕,“它能跑,功能正确,性能有67%。如果目标是出论文,当然要把它调到80%以上,但如果目标是三月初跑通第一批国产卡集群,现在最应该做的不是继续死磕这个点。”

  赵文渊的表情认真起来。

  “那应该做什么?”

  “跑端到端。”

  江松然把屏幕上的几个文件夹点开。

  “把已经达标的这些算子拉出来,先组一条最小链路。模型可以小,分片可以小,数据可以用假的,但是链路必须完整,完成端到端的调试。”

  他一边说,一边在旁边的白板上写了起来。

  模型加载、前向、反向、梯度同步、优化器更新、检查点备份、恢复。

  江松然把七个步骤写在白板上,中间没有任何停滞。

  他这几年做的全部事情都在这条链上,对这些知识、和实践中可能遇到的问题,全都已经烂熟于心了。

  刚才写这个流程图,花时间最多的反而是在心里把这些词的英文都找到中文翻译。

  流程图写完,江松然开口道:“虽然三月初只跑推理,但训练才是大头,端到端必须现在就摸清,不然到时候再补就来不及了。咱们现在用的这个「算子打靶法」是对的,但是既然时间紧、任务重,现在这个阶段最重要的是有大局观,从宏观上调节好优先级。”

  他边说边用马克笔在白板上点了点:“否则,每个人都在优化自己手里的算子,等到最后拼起来的时候,真正的瓶颈才会显现出来,到那个时候就晚了。”

  赵文渊看着白板上的内容,陷入了沉思。

  江松然是对的。

  迄今为止赵文渊带领团队做的都是基于“点”的工作,一个算子一个算子在推进。

  这么做当然是必要的,没有所有的必须的点,是不可能连成线的。

  但是系统训练不只需要点,想要连线的时候不出错,那现在就得开始连了。

  赵文渊算是见识到江松然的厉害了,入职的第一天上午,连项目进度都没看全,就把现在这个路线最大的隐患指了出来。

  赵文渊转过椅子面对江松然,说道:“江博士,你觉得我们现在应该怎么办?”

  江松然整理了一下思路,回答道:“第一阶段的目标如果只是跑推理的话,没必要追求N卡80%的效率,用不满,优先把必要的算子做完跑通,我刚才看了一下,除了十个已经标绿的,还有二十三个已经过了 60%的线。”

  江松然说到这,低头看了一下屏幕,自己纠正自己道:“二十四个,加起来是三十四个。”

  江松然坐回椅子,把椅子往屏幕前挪了挪,开始在表格里圈算子。

  “反向、优化器更新、梯度同步,这几类先排后,三月初的推理用不到,等四月调训练的时候再回来做。”

  赵文渊点了点头,这几类在表里占了不少,确实都是训练才用得到的,先放一放完全合理。

  “再看推理路径。”江松然把光标移到表格的前半段,“矩阵乘、LayerNorm、softmax、激活,这几类已经标绿了。注意力相关的算子在哪儿?”

  赵文渊往下翻了翻,指了一项:“标准Attention,61%。Flash-Attention那一版还没排上。”

  “Flash不用,先用标准的,能跑就行。”江松然说,“KV-cache的读写呢?”

  “这里,64%。”

  “够了。”江松然往后靠了靠,“再加一个采样,一个 RMSNorm。这两个简单,融合不融合都行,先有了再说,我数一下啊。”

  他在表里点了点,停在最后。

  “差两个。”

  赵文渊愣了一下。

  他原本打算的是把所有的算子都做到 80%,卡住的地方直接呼叫随身老爷爷韩路一,按现在的速度可能要做到二月底了,到时候再做端到端。

  但是现在被江松然这么一拆

  只差两个了。

  “你这……”赵文渊一时不知道怎么接话了,“这两个我让组里今天就开。”

  “不急。”江松然摆了摆手,“先把已经达标的这三十四个用现成的脚手架串起来,跑一遍空载,把链路打通,这两个等做好了再补进去,到时候哪儿不对一目了然。”

  赵文渊点头,站起来转身去喊人。

  他一边走一边又有点儿懊恼。

  今天又装逼失败了。

  这是哪儿来的神仙啊。

  赵文渊把手下的组员都叫过来,交代了任务,今天就开始搭脚手架,尝试用最小模型拉一个链路出来,在 8卡环境下跑一圈。

  周围的工程师都是一愣:“今天?”

  江松然在旁边补了一句:“跑的时候把 Profiler打开,不要只看最后的成败,每一步的耗时、等待时间、内存拷贝、通信比例,这些数据都有价值。”

  众人还不认识江松然,都看向赵文渊,赵文渊点了点头,大家才散开。

  赵文渊转过身来对江松然说:“江博士,谢谢你,这个确实是我没想到的点。还好你现在指出来了。”

  江松然脸上倒是毫无骄傲的神情,他说:“这不是你的问题,咱们推进的太快了。”

  赵文渊不解:“太快了?”

  江松然说:“你知道我们当年做 TPU的时候,花了多久才意识到这个问题吗?”

  赵文渊递了个话:“多久?”

  “三年。”江松然说,“你们现在才做了多久?最多半年吧?”

  赵文渊已经没有纠正这个的欲望了,这点儿小逼不装也罢。

  江松然接着说:“正常来说,一个团队还卡在第一个SDPA的时候,不需要想这么远。咱们现在的问题,是已经把最难启动的部分打穿了,所以系统性问题提前暴露了”

  “这是好事。”

  说完,江松然又打开赵文渊电脑上的那几个已经超过 80%效率的算子文件夹,说道:“这些实现是你把关的吧?这得需要对底层有很深的理解才能做的出来,不管有没有智能体这种工具,这个理解是做不了假的。”

  江松然比赵文渊年长几岁,手底下也管理过几十个人,他现在说这番话就是怕刚才的行为在下属面前伤了赵文渊的权威,所以想鼓励他一下,修补一下关系,防患于未然。

  毕竟两人将来大概率要共事很久。

  没想到赵文渊听完,脸上又出现了那种不自在的神色,纠结了一会儿,他才开口道:“其实,这些不是我写的。”

  江松然好奇道:“那是谁写的?”

  “是韩总写的。”赵文渊说着看了一眼电梯方向,最近韩路一上班之后都会直接来十三楼报道。今天听说是京城有人过来,国网投资的尽职调查团队,黄宇带队来的,需要韩路一去对接,所以他到现在还没来。

  “韩总?”江松然今天惊讶太多次了,现在已经有点儿惊讶不出来了,“哪些是他写的?”

  赵文渊已经麻木了,你怎么哪壶不开提哪壶呢。

  “全是。”

  “全是?”江松然强提一口气,又惊讶了,他回想了一下韩路一,那天在医院见到的年轻人。两人只见了一面,他当时还以为对方是HR。江松然本来完全不考虑再加入一个创业公司,但是韩路一说话就像有魔力一样,能直击他内心深处的需求,聊了短短几十分钟,他就被说服了。

  从那之后,他觉得韩路一是个有天赋的管理者,他用他的技术来这里可以有所发挥,但是没想到,今天才知道,韩路一本人的技术也这么强。

  “韩总”江松然犹豫了一下,八卦道,“是哪个学校的博士?”

  “交大的本科。”赵文渊现在的心情很复杂,自己的逼没装成,但是替韩总装了一个,心里还莫名的有点儿爽。

  这句话说完,两个人都陷入了沉默,然后默契的结束了话题。

  江松然回到自己的新工位上,设置好了电脑,环顾了一下四周,还是乱糟糟的。

  他突然想起了沈丛云说的,源智科技已经融资过了。好奇心起,他打开电脑,在飞书里大概搜索了一下,确实有相关的公告。

  《源智科技完成4.5亿人民币A轮融资,加速国产算力基础设施研发》

  4.5亿融资,估值30亿人民币。

  江松然面露古怪。他本来以为自己是为了家庭拒绝了其他几家大厂的 Offer,降薪入职源智科技。没想到除了 200万的现金之外,那 2%的期权现在就值六千万,这比鼎盛和昆仑这两家给的都多了一大截。

  接下来江松然都有点心神不宁。

  他不缺钱,但是这么多钱,和这种信任,让他心中生出一种“士为知己者死”的感觉来。

  终于等到韩路一给他发来飞书私信:“江博士,入职第一天还适应吗?不好意思我这边有别的事走不开,没能第一时间欢迎你加盟。有什么问题可以咨询@赵文渊,他对这块最熟悉。”

  江松然犹豫了一下,还是回复道:“韩总,我一切顺利,谢谢关心。关于期权奖励,实在丰厚,再次感谢。”

  “期权在劳动合同上已经写明了吧,江博士对关于差旅的条款还有额外要求吗?”

  江松然心想,是写了,但我没想到那不是纸钱啊。

  他还没回复,韩路一又发了一条信息过来。

  “我相信你能对得起这个价格,这不是工资,而是合伙人的证明。期待和你的合作。”

  江松然沉默了一会儿,打出了自己的回复。

  “韩总,我也期待着和您的合作。”

  这个话题告一段落,韩路一又开启了新的话题。

  “刚才我听@赵文渊说了,你已经把训练链路大概理清楚了,这个工作量靠现有团队肯定不够,我这边会继续招人,但这个领域太窄,普通招聘效率太低。”

  江松然明白了他的意思:“你想让我推荐些人?”

  “你手底下的职位,如果你有合适的人,可以推过来见见。”

  “好的。”江松然回复道。

  然后他关掉飞书,打开了一个很久没说话的微信群。

  【AI Infra交流群】

  是个 500人的大群,天南海北哪里的人都有,有美国的,也有国内的;有在 Meta、亚马逊这种大厂的,也有在创业公司的,还有一些在国内大厂的技术负责人。

  唯一的共同点是,都是做这一行的。

  江松然思考了一下,没有用源智科技的名义发信息源智科技现在声名不显,发出去反而让潜在的应聘者有顾虑。

  他只以自己个人的名义发了一条信息。

  “我回国了,现在在一个创业公司带Infra团队,方向是做国产 AI加速卡的大模型训练栈。团队招人,方向包括训练系统、分布式调度、通信、容错、AI Infra工程化。有兴趣可以私信我。”

  消息发出去没多久,许久没人说话的群活了过来。

  “江神,你也回国了?”

  “江神,你看好国产算力替代这个方向吗?”

  “我前两天看了一篇论文,non-CUDA attention的,好像是一个国内团队写的?有人关注吗?”

首节上一节180/248下一节尾节目录