“人都齐了,开个会吧。“
接下来的半个小时里,白迁和潘思轮流汇报了这几天的工作进展。
核心内容就一个
YanHai-1.5B模型的测试结果已经全部出来了,各项指标都远超预期。
“用一句话总结就是“
白迁推了推眼镜,脸上难掩兴奋之色:
“我们用五分之一的参数量和十分之一的训练数据,打平甚至超越了市面上主流的中型模型。“
“这个结果,放在整个AI行业里,都是炸裂级别的。“
“现在我们要考虑的是下一步怎么办。“
潘思接过话茬:
“按照之前的计划,下一步是启动30B参数量模型的训练。“
“但是......“
他顿了顿,脸上的表情变得有些凝重:
“30B模型的训练,跟1.5B完全不是一个量级的。“
“哪怕有陈总的新架构加持,显存占用已经降低了60%,但全量训练下来,保守估计也需要至少一个月的时间。“
“而且还有一个问题“
潘思看向陈林:
“数据。“
“我之前准备的那批语料库,质量是没问题的,但在某些垂直领域的覆盖面还不够。“
“比如医疗、法律、金融这些专业性很强的领域。“
“如果想让30B模型在这些领域也能表现出色,我们需要更多高质量的专业数据。“
陈林听完,微微点了点头。
这个问题他之前就想到了。
“数据的事,我之前和科技部那边的廖副部长提过。“
陈林开口说道,语气平淡。
白迁和潘思同时竖起耳朵,眼睛里闪烁着期待的光芒。
如果能拿到国家级的数据权限,那可是梦寐以求的事情啊!
那些被各大官方机构严格保管的高质量数据,随便拿出来一点,都够他们训练好几个模型的。
然而
“廖副部长的回复是“
陈林顿了顿,看着两人那充满希望的眼神,有些不忍心继续说下去。
但该说的还是得说。
“首先,数据集团不归科技部管。“
“其次,目前全国各地都在各自筹建本地的数据集团,华夏数据集团并没有正式成立。“
“所以暂时没办法给我们全国性的数据权限。“
话音落下。
会议室里瞬间安静了下来。
白迁和潘思对视一眼,脸上的表情都有些失落。
“唉......“
白迁叹了口气,摘下眼镜揉了揉眉心:
“我就知道没这么简单。“
“国家级数据权限这种东西,怎么可能轻易开放。“
潘思也点了点头,脸上虽然有些失望,但很快就恢复了平静。
“行吧,既然官方渠道走不通,那就只能靠我们自己了。“
他推了推眼镜,语气变得认真起来:
“其实之前我就想过一个备用方案。“
“什么方案?“陈林问道。
“建一条训练数据流水线。“
潘思站起身,走到白板前,拿起马克笔开始画图:
“整个流程分三步“
“第一步,从网上爬数据。这一步本质上就是一个复杂一点的爬虫,技术上没什么难度。“
“第二步,清洗数据。这一步是关键。“
他在白板上画了一个方框,里面写着“YanHai-1.5B“:
“我们可以用已经训练好的1.5B模型作为底层,来快速判断和清洗爬取到的原始数据。“
“1.5B模型虽然参数量不大,但基本的语义理解和质量判断能力已经足够了。“
“用它来过滤掉那些低质量、重复、无意义的内容,效率会比人工筛选高几十倍。“
“第三步,喂给模型训练。这一步和之前的区别不大,就是把清洗好的数据送进训练管线。“
潘思放下马克笔,转身看向陈林:
“整个流水线搭建起来以后,就相当于一个'自动化数据工厂'。“
“只要服务器不停,它就会不断地从互联网上抓取数据、清洗数据、生成训练语料。“
“虽然在垂直领域的专业数据方面可能还是有所欠缺,但至少能解决'量'的问题。“
陈林听完,在心里快速评估了一下这个方案的可行性。
从技术角度来看,这个方案是可行的。
用已有的小模型来辅助数据清洗,是业内常见的做法。
只不过大多数公司的小模型质量一般,清洗效果也就那样。
但演海不一样。
他们的YanHai-1.5B,可是用陈林那套“魔法架构“训练出来的。
别看参数量只有1.5B,实际能力已经接近甚至超过了市面上的7B模型。
用这玩意儿来做数据清洗,效果绝对不会差。
“这个方案......“
陈林沉吟了几秒,然后点了点头:
“可以。“
潘思脸上顿时露出笑容。
“不过“
陈林话锋一转:
“在正式启动30B模型训练之前,我觉得应该先把这条数据流水线搭起来。“
“一来是为30B模型储备更多的训练数据,二来也是验证一下这套流程能不能跑通。“
他看向潘思:
“这条流水线的开发,你来牵头。“
“需要什么人手,你直接调配。“
潘思立刻点头:“没问题。“
陈林又转向白迁:
“白博士,流水线搭建完成之后,30B模型的训练由你负责。“
“收到。“白迁也点了点头。
最后,陈林的目光落在沈妍和孙宇身上。
“你们两个,这段时间就先跟着潘思,帮忙做流水线的开发。“
沈妍轻轻“嗯“了一声,表示明白。
孙宇则是一脸兴奋:
“太好了!终于可以干点正经活儿了!“
“我之前写的那些数据清洗脚本,终于派上用场了!“
陈林看着孙宇那副跃跃欲试的样子,嘴角忍不住抽了抽。
这家伙......热情是挺高的,就是不知道能不能靠谱。
不过话说回来
孙宇虽然基础差了点,但这几个月跟着潘思学习,进步还是挺明显的。
从最开始的Python零基础,到现在已经能独立写一些简单的脚本了。
虽然代码风格有点......呃......朴素?
但至少能跑通,也算是可用的生产力了。
“行,那就这么定了。“
陈林站起身,宣布散会:
“流水线开发这块,大家全力配合潘思。“
“有任何问题,随时找我。“
会议结束后,众人开始忙碌起来。
潘思召集白迁、沈妍和孙宇,开了个小型的技术对接会,讨论流水线的具体实现方案,陈林也在一边听着,他现在的python代码水平也不低,到时候也要帮着一起开发。
时间就这样悄然流逝。
一转眼,就到了中午十二点。
“老板,我们出去吃饭了啊~“