都大学了,小学系统才来? 第208节

  陈林有些语无伦次地问道。

  他发现自己居然有点紧张。

  沈妍轻轻地点了点头,然后像是察觉到了什么,连忙移开了目光,假装去看旁边的一排领带。

  就在这时

  “来,让我看看。“

第二百三十二章 出发

  云清的声音从旁边传来。

  她快步走到陈林面前,伸出手,开始帮他整理领带。

  “你这个结打得不太对,领口也有点歪了。“

  她说着,手指灵巧地解开了领带,然后重新系了一个漂亮的温莎结。

  整理完领带,她又顺手帮他把衣领也整理了一下。

  这个过程中,两人的距离很近,近到陈林甚至能感受到她呼出的温热气息。

  云清的指尖不经意间擦过他的脖颈,留下一丝若有若无的触感。

  一股淡淡的香味飘入鼻间。

  是洗发水的味道,带着一丝清甜的花香。

  陈林的呼吸不自觉地放轻了一些。

  他低下头,正好对上云清抬起的目光。

  那双眼睛很亮,带着一丝狡黠的笑意,还有一些......陈林读不懂的东西。

  “好了。“

  云清退后一步,满意地看着自己的“作品“。

  “这样就完美了。“

  她冲着陈林眨了眨眼睛,嘴角上扬:

  “老板,你这样子,比那些电视剧里的霸道总裁都帅。“

  陈林:“......“

  他不知道该怎么回答。

  气氛一时间有些微妙。

  沈妍站在一旁,目光落在云清刚才帮陈林整理领带的那双手上。

  她抿了抿嘴,眼神里闪过一丝不易察觉的情绪。

  就在这时

  “先生,这套真的非常适合您!“

  店员适时地走了过来,打破了这略显暧昧的气氛。

  “要不要再看看其他款式?我们还有几款新到的......“

  “不用了。“陈林如蒙大赦,连忙说道,“就这套吧,买单。“

  结账的时候,陈林看了一眼价格。

  西装、衬衫、领带,加上一条配套的西裤,总共两万八。

  对于现在的他来说,这点钱真的只是“洒洒水“。

  ......

  12月22日,周一,上午十点。

  演海公司的办公区里,气氛比往常更加热烈。

  1.5B模型的训练,已经进入了最后的冲刺阶段。

  20B tokens的训练数据,已经跑完了15B,剩下的5B正在全速推进。

  白迁坐在电脑前,眼睛紧紧盯着屏幕上那条稳步下降的loss曲线。

  “还剩最后3B......“

  他喃喃自语道,手指不自觉地敲击着桌面。

  潘思站在他身后,推了推眼镜:

  “根据目前的训练速度,今天晚上应该就能跑完。“

  “嗯。“白迁点了点头,“等跑完了,我再做一轮完整的benchmark测试。“

  ......

  当天晚上十一点。

  最后一个batch的数据跑完了。

  白迁已经写好了自动化测试脚本,在训练跑完的时候自动启动了,测试结果也会发送到白迁的邮箱里,这样哪怕白迁不加班也能第一时间看到测试结果。

  凌晨两点,评测结果出来了。

  白迁看着屏幕上那一连串数字,整个人都愣住了。

  他揉了揉眼睛,以为自己看错了。

  但那些数字,清清楚楚地摆在那里,不容置疑。

  “我靠......“

  白迁深吸了一口气,颤抖着手,把评测报告发到了公司的工作群里。

  然后,他给陈林发了一条微信:

  【陈总,最终版的评测报告出来了。你明天一定要看看。牛逼,太牛逼了。】

  ......

  12月23日,周二,上午七点半。

  陈林是被手机的连续震动吵醒的。

  他迷迷糊糊地拿起手机,看到群里炸开了锅。

  孙宇:“卧槽卧槽卧槽!!!“

  潘思:“这数据......我没看错吧?“

  沈妍:“太厉害了。“

  云清:“虽然我不太懂,但感觉好像很牛的样子?“

  黄依依:“恭喜恭喜!“

  陈林眉毛一挑,点开了白迁发的那份评测报告。

  一张详细的表格,出现在屏幕上。

  | Benchmark | YanHai-1.5B (10B tokens)| Llama-1.5B | Llama-7B | Llama-13B

  |-----------|------------------------|------------|----------|----------|

  | MMLU | 63.7%| 42.1%| 62.5%|68.2%

  | GSM8K | 51.2%| 11.2%| 47.3%|56.8%

  | HumanEval | 35.6%| 8.1%| 29.8%|38.1%

  | ARC-C | 58.9%| 39.4%| 53.2%|61.7%

  | HellaSwag | 78.5%|62.3%| 75.8%|80.1%

  陈林的手微微颤抖。

  MMLU,63.7%!

  超过了Llama-7B的62.5%,逼近了Llama-13B的68.2%!

  GSM8K,51.2%!

  比Llama-7B的47.3%还高了将近4个百分点!

  HumanEval,35.6%!

  同样超过了Llama-7B的29.8%!

  这意味着什么?

  这意味着,演海公司用1.5B参数、20B tokens的训练数据,训练出来的模型

  在综合能力上,已经可以和7B甚至13B参数的模型掰手腕了!

  而那些7B、13B的模型,用的训练数据可是百亿级别的!

  陈林继续往下看。

  报告里还附了一段文字说明:

  【推理速度测试:

  在处理8K长度的文本时,YanHai-1.5B的推理速度是Llama-1.5B的4.2倍。

  在处理32K长度的文本时,YanHai-1.5B的推理速度是Llama-1.5B的7.8倍。

  注:Llama-1.5B在处理超过16K的文本时,开始出现明显的注意力崩塌现象,生成内容质量急剧下降。

  而YanHai-1.5B在处理32K长度的文本时,生成质量依然保持稳定。】

  陈林看完报告,靠在床头,久久没有说话。

  他的心里,涌起一股难以言喻的激动和自豪。

  这个架构,是他一个人推导出来的。

  从最初的数学框架,到具体的公式设计,再到后来和白迁一起解决的各种工程问题......

  每一步,他都亲身参与。

  而现在,这个架构,真的成功了。

  它不是纸上谈兵,不是空中楼阁。

  它是一个真真切切的、可以运行的、效果远超业界水平的人工智能模型!

  陈林深吸了一口气,拿起手机,在群里回复道:

  【各位辛苦了。这个结果,比我预期的还要好。】

  【白博士,潘博士,这两天你们继续优化一下代码和文档。等我从帝都回来,咱们正式开始30B模型的训练!】

  白迁秒回:【收到!】

  潘思:【明白!】

首节上一节208/428下一节尾节目录