都大学了,小学系统才来? 第232节

  “人都齐了,开个会吧。“

  

  接下来的半个小时里,白迁和潘思轮流汇报了这几天的工作进展。

  核心内容就一个

  YanHai-1.5B模型的测试结果已经全部出来了,各项指标都远超预期。

  “用一句话总结就是“

  白迁推了推眼镜,脸上难掩兴奋之色:

  “我们用五分之一的参数量和十分之一的训练数据,打平甚至超越了市面上主流的中型模型。“

  “这个结果,放在整个AI行业里,都是炸裂级别的。“

  “现在我们要考虑的是下一步怎么办。“

  潘思接过话茬:

  “按照之前的计划,下一步是启动30B参数量模型的训练。“

  “但是......“

  他顿了顿,脸上的表情变得有些凝重:

  “30B模型的训练,跟1.5B完全不是一个量级的。“

  “哪怕有陈总的新架构加持,显存占用已经降低了60%,但全量训练下来,保守估计也需要至少一个月的时间。“

  “而且还有一个问题“

  潘思看向陈林:

  “数据。“

  “我之前准备的那批语料库,质量是没问题的,但在某些垂直领域的覆盖面还不够。“

  “比如医疗、法律、金融这些专业性很强的领域。“

  “如果想让30B模型在这些领域也能表现出色,我们需要更多高质量的专业数据。“

  陈林听完,微微点了点头。

  这个问题他之前就想到了。

  “数据的事,我之前和科技部那边的廖副部长提过。“

  陈林开口说道,语气平淡。

  白迁和潘思同时竖起耳朵,眼睛里闪烁着期待的光芒。

  如果能拿到国家级的数据权限,那可是梦寐以求的事情啊!

  那些被各大官方机构严格保管的高质量数据,随便拿出来一点,都够他们训练好几个模型的。

  然而

  “廖副部长的回复是“

  陈林顿了顿,看着两人那充满希望的眼神,有些不忍心继续说下去。

  但该说的还是得说。

  “首先,数据集团不归科技部管。“

  “其次,目前全国各地都在各自筹建本地的数据集团,华夏数据集团并没有正式成立。“

  “所以暂时没办法给我们全国性的数据权限。“

  话音落下。

  会议室里瞬间安静了下来。

  白迁和潘思对视一眼,脸上的表情都有些失落。

  “唉......“

  白迁叹了口气,摘下眼镜揉了揉眉心:

  “我就知道没这么简单。“

  “国家级数据权限这种东西,怎么可能轻易开放。“

  潘思也点了点头,脸上虽然有些失望,但很快就恢复了平静。

  “行吧,既然官方渠道走不通,那就只能靠我们自己了。“

  他推了推眼镜,语气变得认真起来:

  “其实之前我就想过一个备用方案。“

  “什么方案?“陈林问道。

  “建一条训练数据流水线。“

  潘思站起身,走到白板前,拿起马克笔开始画图:

  “整个流程分三步“

  “第一步,从网上爬数据。这一步本质上就是一个复杂一点的爬虫,技术上没什么难度。“

  “第二步,清洗数据。这一步是关键。“

  他在白板上画了一个方框,里面写着“YanHai-1.5B“:

  “我们可以用已经训练好的1.5B模型作为底层,来快速判断和清洗爬取到的原始数据。“

  “1.5B模型虽然参数量不大,但基本的语义理解和质量判断能力已经足够了。“

  “用它来过滤掉那些低质量、重复、无意义的内容,效率会比人工筛选高几十倍。“

  “第三步,喂给模型训练。这一步和之前的区别不大,就是把清洗好的数据送进训练管线。“

  潘思放下马克笔,转身看向陈林:

  “整个流水线搭建起来以后,就相当于一个'自动化数据工厂'。“

  “只要服务器不停,它就会不断地从互联网上抓取数据、清洗数据、生成训练语料。“

  “虽然在垂直领域的专业数据方面可能还是有所欠缺,但至少能解决'量'的问题。“

  陈林听完,在心里快速评估了一下这个方案的可行性。

  从技术角度来看,这个方案是可行的。

  用已有的小模型来辅助数据清洗,是业内常见的做法。

  只不过大多数公司的小模型质量一般,清洗效果也就那样。

  但演海不一样。

  他们的YanHai-1.5B,可是用陈林那套“魔法架构“训练出来的。

  别看参数量只有1.5B,实际能力已经接近甚至超过了市面上的7B模型。

  用这玩意儿来做数据清洗,效果绝对不会差。

  “这个方案......“

  陈林沉吟了几秒,然后点了点头:

  “可以。“

  潘思脸上顿时露出笑容。

  “不过“

  陈林话锋一转:

  “在正式启动30B模型训练之前,我觉得应该先把这条数据流水线搭起来。“

  “一来是为30B模型储备更多的训练数据,二来也是验证一下这套流程能不能跑通。“

  他看向潘思:

  “这条流水线的开发,你来牵头。“

  “需要什么人手,你直接调配。“

  潘思立刻点头:“没问题。“

  陈林又转向白迁:

  “白博士,流水线搭建完成之后,30B模型的训练由你负责。“

  “收到。“白迁也点了点头。

  最后,陈林的目光落在沈妍和孙宇身上。

  “你们两个,这段时间就先跟着潘思,帮忙做流水线的开发。“

  沈妍轻轻“嗯“了一声,表示明白。

  孙宇则是一脸兴奋:

  “太好了!终于可以干点正经活儿了!“

  “我之前写的那些数据清洗脚本,终于派上用场了!“

  陈林看着孙宇那副跃跃欲试的样子,嘴角忍不住抽了抽。

  这家伙......热情是挺高的,就是不知道能不能靠谱。

  不过话说回来

  孙宇虽然基础差了点,但这几个月跟着潘思学习,进步还是挺明显的。

  从最开始的Python零基础,到现在已经能独立写一些简单的脚本了。

  虽然代码风格有点......呃......朴素?

  但至少能跑通,也算是可用的生产力了。

  “行,那就这么定了。“

  陈林站起身,宣布散会:

  “流水线开发这块,大家全力配合潘思。“

  “有任何问题,随时找我。“

  

  会议结束后,众人开始忙碌起来。

  潘思召集白迁、沈妍和孙宇,开了个小型的技术对接会,讨论流水线的具体实现方案,陈林也在一边听着,他现在的python代码水平也不低,到时候也要帮着一起开发。

  时间就这样悄然流逝。

  一转眼,就到了中午十二点。

  “老板,我们出去吃饭了啊~“

首节上一节232/428下一节尾节目录