赵文渊写了一条长长的信息,把自己的困境简短说了一下。
如何从训练框架层面对新硬件做适配?自研芯片生态早期最难补的短板是什么?如果一个创业团队想在国产AI芯片上跑大模型,有没有现实一点的切入方式?
这里面可能会涉及一些保密内容,赵文渊和这个前同事也两年没联系了,他本来也不预期一定会收到回复。
没想到半个小时之后,对方回复了。
看到信息的内容,赵文渊气笑了。
回复很简短:
“别想了,没戏。”
原来人气极了真的会笑。
过了一会,对方又发了更长的一段话过来。
“TPU这条路不是创业公司能复制的。你们如果只是想省钱,直接买N卡。你们如果想支持国产芯片,那也应该让芯片厂来做生态,你们最多做应用层适配。总不能花几千万美元给硬件厂商补生态吧?”
几千万?美元?朋友,你说保守了。
赵文渊把手机锁屏,打开电脑,看着自己在飞机上写的那个文档。
《汤圆模型国产算力适配路线图》
有点儿讽刺。
他把标题删了,重新打了一个。
《汤圆模型国产显卡适配评估:暂不具备可行性》
整层办公楼已经只剩下赵文渊一个人了,他透过玻璃看向外面的黑夜,玻璃上映出他自己的脸,看起来有点陌生。
这时,手机震了一下,屏幕又亮了起来。
他低头一看,是韩路一发来的消息。
“文渊,我刚落地海城,周一早晨我们对一下模型训练的进度。”
赵文渊犹豫了一下,不知道该怎么回复韩路一。
第一百八十三章 这不是有戏了吗?
一月十一日,周一。
上午九点,韩路一走进前滩中心十二楼,源码科技的办公室。
周末刚过,办公室里已经恢复了工作日的节奏。开放工位区里零星坐着几个来的早的工程师,两个人一边看屏幕一边低声讨论,茶水间门口还有人端着咖啡往回走。
看见韩路一,他们都停下来打招呼。
没人奇怪韩路一为什么几天没在公司,又突然回来,大家都渐渐适应大老板的神出鬼没了。
韩路一没有去自己的办公室,而是先去了苏念念的办公室。
苏念念的电脑屏幕上正放着陈建业发来的评审流程数据。她看到韩路一过来,点了点头,又转头把注意力放在屏幕上。
“你回来啦。”
韩路一笑了:“累死我了,周末睡了两天回血。我不在的时候还顺利吗?”
苏念念听他这么说,抬头仔细观察了一下他的脸色,才放下心来,说:
“上次和你说的,小姜做的那个智能体编程,你应该去开发区看一眼。”
“效果很好?”韩路一挑了挑眉。
苏念念笑了笑:“给你留个惊喜,等小姜来了你去问她,她提前准备了报告呢。”
韩路一出门看了看,姜亦心已经在工位上了。
韩路一走过去,站在姜亦心的工位旁边,轻轻敲了敲隔板。
“韩总,你回来啦!”姜亦心转过头,吓了一小跳。
“苏总说你做的智能体效果很好?”
“是钱晓乐和我一起做的。”姜亦心一边拉数据一边强调,“韩总你看,这是上周的数据。”
“全公司一线开发共三十人,上周合并代码分支一百二十七个。”
姜亦心指了指右边的柱状图。
“之前的数据是平均每周四十七个。”
她又指了指左边的柱状图。
“但是这个数字还没到顶,因为大家都在适应。”
姜亦心又在数据上加了一个筛选条件。
“你看,钱晓乐,她用的最早,上周二一天就合并了十个代码分支,这可都是生产项目。”
韩路一看着这个数据,不禁身体前倾,把右手撑在了姜亦心面前的桌子上。
他自己做了五年多的程序员,他知道每天十个合并是什么概念。
一个代码合并包括从理解任务需求,和其他部门沟通,同步信息,完成改动,编写单元测试一系列步骤。改动有大有小,但是平均下来,一人一天能有一个合并就是合理的工作量了。
现在钱晓乐一个人就做了十个人的量。
从很多年前开始,硅谷就鼓吹“十倍工程师”的概念,指的是一个非常厉害的天才程序员可以一个人做出十个普通程序员的贡献。
现在的钱晓乐,至少在这一天里,已经接近了“十倍工程师”的样子了。
更重要的是,这种能力不是天赋。
而是工具带来的!
只要使用流程继续优化,源码科技的三十个开发,产出还会被整体再抬高一个档次。
“代码质量呢?把合并的改动拉出来我看看。”韩路一问道。
姜亦心早有准备:“智能体首次提交的通过率现在是百分之六十七。大概有三分之一的任务现在的智能体还没法独立完成,会卡死,这个时候需要人工介入。”
然后她直接打开代码库,找出了钱晓乐最近合并的改动。
韩路一开视界扫过去,基本全是绿的。
这是非常夸张的效率提升了。
三十个人干出来一百个人的活来。
本来上个月韩路一还在盘算,如果要把开发团队从三十人扩到六十人,光是招聘、面试、入职培训,最快也要三个月。而海城这个市场上,能招到的合格工程师,月薪没有三万打不住。
三十个人,一年就是一千多万的人力成本。
可是不招人,源码业务发展的又太快,需求都做不过来了。
现在姜亦心和钱晓乐搞出来的这个东西,等于他不用多花一分钱,凭空多了七十个人。
不对。
比多七十个人还好。
多七十个人意味着多七十个人的管理成本、沟通成本、磨合期。
而智能体不需要开会,不需要团建,不需要一对一沟通,管理成本大大降低了。
韩路一看向姜亦心,认真地说:“小姜,这个工具的优先级提到最高。你需要什么资源,直接找苏总要。”
姜亦心还是第一次见韩总用这种语气说话。
“好的韩总!”姜亦心顿了一下,补充道:
“对了,还要多亏陈总新设计的评审流程,我们最近在开发基于大模型的评审工具,除了用BugKiller做bug检测之外,还加入对代码风格和可维护性的建议。”
听到“陈总”两个字,韩路一恍惚了一下,他还以为是陈博文。
然后他才意识到,姜亦心指的是陈建业。
哦,对了,他升技术负责人了。
韩路一又表扬了姜亦心两句,给小姜夸的都不好意思了才离开。
他还要去十三楼模型组的地方找赵文渊。
……
“文渊,你说的不太顺利,具体是指什么?”韩路一问道。
“韩总,国产适配的事,恐怕不可行。”赵文渊苦着一张脸,开口道。
“技术上有难度?”韩路一挑了挑眉,已经准备自己开视界上了。
“不是。”赵文渊叹了口气,“工程量太大了。”
“CUDA做了十几年的生态,你让我带着模型组这几个人,别说适配生态了,一个算子的迁移都搞不定。”
韩路一倒是不觉得意外。
生态要是好做,国内的这些硬件厂商早做完了,哪还有这些问题?
“拿个例子来看看。”韩路一说。
赵文渊觉得韩路一有点儿多此一举。
就算你再能写,也不能让你一个一个写过去啊。
况且你不是已经在做标注了吗?
赵文渊没把这些话说出来,乖乖的从代码库里找出了一个算子的代码做例子。
scaled_dot_product_attention
这是变形金刚(Transformer)架构中比较重要的一个算子,可以说没有这个就做不了大模型。
“N卡那边有专门的函数,性能和精度都做过深度优化,我手头连个等价实现都没有。”
韩路一拉过一个椅子坐在电脑前,接过鼠标,打开浏览器把相关的CUDA源代码、国产显卡的IR文档、HCCL SDK都打开来。
赵文渊在旁边看的一愣:
“韩总,你要干什么?你不会是要,自己写吧。”
韩路一头也没抬:“试一试。”
试一试?赵文渊心里吐槽,韩总,这可是一个团队几个月的工作量。
韩路一已经打开视界,把CUDA实现中的几个关键地方都扫了出来,然后把要适配国产显卡的要点总结了一下。
接着韩路一在赵文渊的电脑上打开了姜亦心的AI智能体编程工具。
但他没把视界看到的关键信息都输进去。
他想先看一眼,仅靠模型自己能做到什么程度。
他输入了第一段提示词:
“把这个 CUDA算子翻译成国产卡 IR实现。要求精度误差小于 1e-5,性能不低于 N卡实现的70%。下面三份文档作为上下文。”
然后把浏览器里的链接地址都打了进去。