首富从AI浪潮开始第121节_都市

　　上面是一份打开的文档

　　《汤圆模型-意图理解：可能的技术路径分析》

　　“这是我昨晚连夜写的。”刘大海说。

　　技术人的邀功还是直白了点。

　　他把屏幕对着郑晓波，往前推了推。

　　“先说排除法，指定不是架构创新。”

　　“意图理解这条赛道，OpenAI的GPT现在是公认的天花板，也就78分出头。他拿一个开源的7B架构，参数量只有人家的零头，跑出85.2。郑总，这么跟您说吧，这就好比一个我们那县城中学的一个差生，用别人的旧课本自学，高考分数比全省状元还高三十分。我拍胸脯地说，绝对不是架构创新，7B的架构就那么点东西，翻不出花来。”

　　“现在大模型的竞争，已经过了参数军备竞赛的那个阶段了。几百亿参数、几千亿参数，架构上大家都整的差不多。Transformer还是那个Transformer，无非是层数搁（gě）那儿多一层少一层，注意力头多一个少一个。”

　　刘大海一边说一边仔细观察郑晓波的表情。

　　技术人给领导汇报，又怕说多了太多技术细节，领导听不懂。又怕说的太少太简略，领导觉得不满意。只能小心翼翼，随时调整。

　　“我能想到唯一的解释，除非这个县城学生用的不是别人的旧课本，而是一份全世界别的学生都没有的，黄金复习资料。”

　　郑晓波还是面无表情。

　　这时程远插话了他没听懂，这没关系，但他主要是怕郑总也没听懂，这种问题不能让郑总来问。

　　“刘博士，不好意思，你这个比喻指的是？”

　　“是标注数据。”刘大海也意识到自己说上头了，赶紧扯回来，“郑总也大概了解，我就简单说一下。”

　　他把电脑转过来，去网上搜了一个流程图，再转回去面向郑晓波。

　　“咱们训练大模型主要分为几个阶段，先是预训练，就是堆语料，咱们恨不得把互联网上所有的东西都给它整进去。”

　　“然后是监督微调，找一帮人给模型做示范，教它学明白啥是好赖话儿。”

　　“再往后就是对齐，让模型学着按人的想法来排，回答得更像正常人说话。”

　　刘大海指了指屏幕上的流程图。

　　“第一步大家用的语料都差不多，互联网就那么多东西，你抓我也抓。真正拉开差距的是后面两步，谁的数据标注质量高，谁训出来的模型就强。”

　　“所以我说，那个……对方效果能做的这么好，一定是有好的标注数据。”

　　刘大海把韩路一的名字忘了，公司名字也忘了，只好中途改口。

　　不行，一会回去得查查这个公司，那个技术负责人，看看他的论文。

　　做出训练出这种水平的模型，不可能没有学术积累。

　　听到这，一直沉默不语的郑晓波突然开了口：“Scale AI。”

第一百四十三章把他的数据供应商，挖过来

　　郑晓波这句话一出口，刘大海就知道自己不用再说了。

　　郑晓波是真的懂。

　　执掌鼎盛这样一个巨头，确实得有两把刷子，知识储备到了，至少沟通成本能低不少。

　　而且AI赛道正在风口上，哪家大厂也不敢掉队，对行业的关注甚至不比领域内的投资人和从业者少。

　　Scale AI，硅谷最炙手可热的独角兽之一，他们不做模型，不做产品，只专注做一件事数据标注，可以说是AI时代的卖铲人。

　　就凭这一项业务，Scale AI的估值做到了几百亿美金。

　　这是什么概念？小半个鼎盛了。

　　于是刘大海在文档里连翻了几页，跳过了准备好的铺垫，直接翻到一张对比图。

　　“2023年6月，微软研究院发了一篇论文，叫《Textbooks Are All You Need》（你只需要教科书），用精心筛选的教科书级别的数据训了一个十三亿参数的小模型，Phi-1，在代码生成任务上打赢了市面上那些参数量是它十倍、训练数据是它一百倍的大模型。”

　　程远插了一句：“刘博士，这是什么概念？”

　　“当时除了GPT没有一个模型跑得过它。”刘大海说，“只有十三亿的参数，8张A100训练了4天，就这么点成本。这篇论文证明了一件事，数据质量够高，小模型就能干翻大模型。”

　　他转向郑晓波。

　　“这和汤圆的情况完全吻合。7B，就是七十亿的参数，一万条训练数据，意图理解打赢了坤元。关键不是模型有多大，是数据质量得好。”

　　最近几年，这几乎已经成为AI行业的共识了：谁的标注质量高，谁的模型就强。架构变化不大，算力的边际效益递减，但高质量的数据标注才还有很长的进步空间。

　　问题是，所有人都知道数据标注重要，却没人知道数据标注得好到什么程度才足够。

　　OpenAI、Anthropic、Meta，每年砸几十亿美金在数据标注上，模型的表现确实是一代比一代强，但进步也越来越慢，谁也不知道什么时候会撞墙，也没人知道极限在哪。

　　不管资本炒的多么火热，这个行业的所有从业者，大家都在一望无际的大海上摸索前行。

　　直到看到汤圆，刘大海确信自己看到了未来的信标。

　　郑晓波没说话。

　　刘大海的语速慢下来了，声音压低了半度。

　　“从模型表现倒推，他们的标注精度恐怕是我从业这些年能想象到的最高水平。不是高一点，是高整整一个量级。”

　　办公室又安静了。

　　郑晓波的手指在扶手上轻轻敲了两下。

　　“那他的数据，会是从哪来的？”

　　这个问题一出来，刘大海和程远同时看向他。

　　郑晓波的表情没有变化。

　　刘大海先开口了：

　　“郑总，我先给您算一笔账，搂一搂。现在行业里最顶级的标注服务，Scale AI的专家级标注，一条大概七八十美金。但那种精度和汤圆的数据比起来，肯定还差了一截。如果按汤圆这个精度去买，市场上根本没有这个服务，硬要估价的话，一条怎么也得一百美金往上。他们说的是不到一万条数据，就算一万条，光数据成本就是一百万美金。”

　　“这种精度的标注不可能是一两个人手工做的。要么有专业的标注团队，要么有独家数据源，要么是和哪个大型研究机构合作。”

　　郑晓波看向程远，下了命令：

　　“让商务情报团队去查，源码科技的工商变更、公开的合作披露，看看他们最近半年有没有和标注公司或数据机构打过交道。再查查他们的招聘岗位，有没有招过标注相关的人。”

　　程远点头，在文件夹内页空白处快速记了几笔。

　　“找到他的数据供应商，”郑晓波说，“直接挖过来。”

　　刘大海补了一句：“如果能找到标注规范文档，那比数据本身还值钱。有了规范至少知道方向在哪，咱们可以试试自己做。”

　　郑晓波看了他一眼，微微点了点头。

　　“第二件事，”他的视线回到程远身上，“算力合作可以先谈着。”

　　程远抬头，好像自己没想通：“谈合作。”

　　“但是有条件。合作框架里必须包含一条共享训练数据。”

　　“如果韩路一不同意呢？”程远问。

　　“先谈着，但别把姿态摆太高。”郑晓波的声音中气很足，“算力他能找别人要，这个数据我们暂时还找不到第二家。”

　　“等找到他的供应商，就不用谈了。”

　　程远露出恍然大悟的神色，赶紧把这句话也记下了。

　　刘大海在旁边全程看着，觉得这俩人聊天跟演双簧似的。这拍马屁的功夫，比机器学习还难学哦。

　　郑晓波把转椅一转，面向落地窗。

　　黄浦江在下面拐了个弯，对岸的写字楼群在冬天的薄雾里若隐若现。

　　他背对着两个人，说了最后一个问题。

　　“大海，你跟我说句实话。”

　　刘大海看着他的背影。

　　“如果拿到他们的数据，坤元能提高多少？”

　　刘大海没有立刻回答。

　　他想了几秒钟。

　　作为一个在机器学习行业泡了十几年的人，他太清楚85.2意味着什么。坤元的意图理解是78，已经是国内第一梯队。换句话说，从78到85，这七个点，鼎盛模型组两百多人干了半年也没摸到门。

　　而那俩人，哦对，韩路一，用一万条数据就做到了。

　　关键不是他的模型有多好，关键是那一万条数据有多好。

　　他越想越是兴奋。

　　“郑总，如果咱们能拿到他那种精度的标注数据，哪怕只给我五万条”

　　他停了一下。

　　“坤元能把这个行业的天花板，给捅个窟窿出来。到时候就是咱们鼎盛的模型在全球第一。”

　　郑晓波转过身来，窗外灰白色的天光勾出他的轮廓，脸上带着淡淡的笑意。

　　“那我就拭目以待了。”

　　“程远，你去办吧。”郑晓波拿起桌上的矿泉水喝了一口，“算力合作的事，先别给韩路一回复，让他等两天。”

　　程远愣了一下：“郑总，这是……”

　　“记住，在谈判桌上，先开口的人，输。”

　　……

　　与此同时，源码科技。

　　韩路一坐在办公室，点开视界，花了二十分钟，又标了三百多条数据。

　　看了看精力值，他打了一个哈欠。

　　这时，韩路一的手机响了一下，他拿起来一看，是【404寝室】群的消息，有人@他。

　　前段时间马小飞和张浩然看球在群里面刷屏，他设置了消息免打扰，有几天没看了。

　　韩路一翻了一下聊天记录。

　　【马小飞】：儿子们都干啥呢！咱多久没见了，出来聚聚不？

　　【张浩然】：半死，微活。

　　【张浩然】：还是你们媒体人有活力啊。

　　【马小飞】：怎么了，铁饭碗还能把你给累着？

　　【张浩然】：开玩笑呢，现在行里搞全员吸储，我这个季度的考核还没着落呢。

　　【马小飞】：连你们技术岗都不放过？！

　　【张浩然】：你来得正好，救救哥，你的人脉里有款爷吗？

　　【马小飞】：手动帮你找款爷，@我的父亲韩路一

　　【马小飞】：老韩你这是什么群昵称，占我便宜是吧？

　　韩路一爬完了楼，一拍脑门。

首富从AI浪潮开始 第121节

推荐阅读

首富从AI浪潮开始第121节