上面是一份打开的文档
《汤圆模型-意图理解:可能的技术路径分析》
“这是我昨晚连夜写的。”刘大海说。
技术人的邀功还是直白了点。
他把屏幕对着郑晓波,往前推了推。
“先说排除法,指定不是架构创新。”
“意图理解这条赛道,OpenAI的GPT现在是公认的天花板,也就78分出头。他拿一个开源的7B架构,参数量只有人家的零头,跑出85.2。郑总,这么跟您说吧,这就好比一个我们那县城中学的一个差生,用别人的旧课本自学,高考分数比全省状元还高三十分。我拍胸脯地说,绝对不是架构创新,7B的架构就那么点东西,翻不出花来。”
“现在大模型的竞争,已经过了参数军备竞赛的那个阶段了。几百亿参数、几千亿参数,架构上大家都整的差不多。Transformer还是那个Transformer,无非是层数搁(gě)那儿多一层少一层,注意力头多一个少一个。”
刘大海一边说一边仔细观察郑晓波的表情。
技术人给领导汇报,又怕说多了太多技术细节,领导听不懂。又怕说的太少太简略,领导觉得不满意。只能小心翼翼,随时调整。
“我能想到唯一的解释,除非这个县城学生用的不是别人的旧课本,而是一份全世界别的学生都没有的,黄金复习资料。”
郑晓波还是面无表情。
这时程远插话了他没听懂,这没关系,但他主要是怕郑总也没听懂,这种问题不能让郑总来问。
“刘博士,不好意思,你这个比喻指的是?”
“是标注数据。”刘大海也意识到自己说上头了,赶紧扯回来,“郑总也大概了解,我就简单说一下。”
他把电脑转过来,去网上搜了一个流程图,再转回去面向郑晓波。
“咱们训练大模型主要分为几个阶段,先是预训练,就是堆语料,咱们恨不得把互联网上所有的东西都给它整进去。”
“然后是监督微调,找一帮人给模型做示范,教它学明白啥是好赖话儿。”
“再往后就是对齐,让模型学着按人的想法来排,回答得更像正常人说话。”
刘大海指了指屏幕上的流程图。
“第一步大家用的语料都差不多,互联网就那么多东西,你抓我也抓。真正拉开差距的是后面两步,谁的数据标注质量高,谁训出来的模型就强。”
“所以我说,那个……对方效果能做的这么好,一定是有好的标注数据。”
刘大海把韩路一的名字忘了,公司名字也忘了,只好中途改口。
不行,一会回去得查查这个公司,那个技术负责人,看看他的论文。
做出训练出这种水平的模型,不可能没有学术积累。
听到这,一直沉默不语的郑晓波突然开了口:“Scale AI。”
第一百四十三章 把他的数据供应商,挖过来
郑晓波这句话一出口,刘大海就知道自己不用再说了。
郑晓波是真的懂。
执掌鼎盛这样一个巨头,确实得有两把刷子,知识储备到了,至少沟通成本能低不少。
而且AI赛道正在风口上,哪家大厂也不敢掉队,对行业的关注甚至不比领域内的投资人和从业者少。
Scale AI,硅谷最炙手可热的独角兽之一,他们不做模型,不做产品,只专注做一件事数据标注,可以说是AI时代的卖铲人。
就凭这一项业务,Scale AI的估值做到了几百亿美金。
这是什么概念?小半个鼎盛了。
于是刘大海在文档里连翻了几页,跳过了准备好的铺垫,直接翻到一张对比图。
“2023年6月,微软研究院发了一篇论文,叫《Textbooks Are All You Need》(你只需要教科书),用精心筛选的教科书级别的数据训了一个十三亿参数的小模型,Phi-1,在代码生成任务上打赢了市面上那些参数量是它十倍、训练数据是它一百倍的大模型。”
程远插了一句:“刘博士,这是什么概念?”
“当时除了GPT没有一个模型跑得过它。”刘大海说,“只有十三亿的参数,8张A100训练了4天,就这么点成本。这篇论文证明了一件事,数据质量够高,小模型就能干翻大模型。”
他转向郑晓波。
“这和汤圆的情况完全吻合。7B,就是七十亿的参数,一万条训练数据,意图理解打赢了坤元。关键不是模型有多大,是数据质量得好。”
最近几年,这几乎已经成为AI行业的共识了:谁的标注质量高,谁的模型就强。架构变化不大,算力的边际效益递减,但高质量的数据标注才还有很长的进步空间。
问题是,所有人都知道数据标注重要,却没人知道数据标注得好到什么程度才足够。
OpenAI、Anthropic、Meta,每年砸几十亿美金在数据标注上,模型的表现确实是一代比一代强,但进步也越来越慢,谁也不知道什么时候会撞墙,也没人知道极限在哪。
不管资本炒的多么火热,这个行业的所有从业者,大家都在一望无际的大海上摸索前行。
直到看到汤圆,刘大海确信自己看到了未来的信标。
郑晓波没说话。
刘大海的语速慢下来了,声音压低了半度。
“从模型表现倒推,他们的标注精度恐怕是我从业这些年能想象到的最高水平。不是高一点,是高整整一个量级。”
办公室又安静了。
郑晓波的手指在扶手上轻轻敲了两下。
“那他的数据,会是从哪来的?”
这个问题一出来,刘大海和程远同时看向他。
郑晓波的表情没有变化。
刘大海先开口了:
“郑总,我先给您算一笔账,搂一搂。现在行业里最顶级的标注服务,Scale AI的专家级标注,一条大概七八十美金。但那种精度和汤圆的数据比起来,肯定还差了一截。如果按汤圆这个精度去买,市场上根本没有这个服务,硬要估价的话,一条怎么也得一百美金往上。他们说的是不到一万条数据,就算一万条,光数据成本就是一百万美金。”
“这种精度的标注不可能是一两个人手工做的。要么有专业的标注团队,要么有独家数据源,要么是和哪个大型研究机构合作。”
郑晓波看向程远,下了命令:
“让商务情报团队去查,源码科技的工商变更、公开的合作披露,看看他们最近半年有没有和标注公司或数据机构打过交道。再查查他们的招聘岗位,有没有招过标注相关的人。”
程远点头,在文件夹内页空白处快速记了几笔。
“找到他的数据供应商,”郑晓波说,“直接挖过来。”
刘大海补了一句:“如果能找到标注规范文档,那比数据本身还值钱。有了规范至少知道方向在哪,咱们可以试试自己做。”
郑晓波看了他一眼,微微点了点头。
“第二件事,”他的视线回到程远身上,“算力合作可以先谈着。”
程远抬头,好像自己没想通:“谈合作。”
“但是有条件。合作框架里必须包含一条共享训练数据。”
“如果韩路一不同意呢?”程远问。
“先谈着,但别把姿态摆太高。”郑晓波的声音中气很足,“算力他能找别人要,这个数据我们暂时还找不到第二家。”
“等找到他的供应商,就不用谈了。”
程远露出恍然大悟的神色,赶紧把这句话也记下了。
刘大海在旁边全程看着,觉得这俩人聊天跟演双簧似的。这拍马屁的功夫,比机器学习还难学哦。
郑晓波把转椅一转,面向落地窗。
黄浦江在下面拐了个弯,对岸的写字楼群在冬天的薄雾里若隐若现。
他背对着两个人,说了最后一个问题。
“大海,你跟我说句实话。”
刘大海看着他的背影。
“如果拿到他们的数据,坤元能提高多少?”
刘大海没有立刻回答。
他想了几秒钟。
作为一个在机器学习行业泡了十几年的人,他太清楚85.2意味着什么。坤元的意图理解是78,已经是国内第一梯队。换句话说,从78到85,这七个点,鼎盛模型组两百多人干了半年也没摸到门。
而那俩人,哦对,韩路一,用一万条数据就做到了。
关键不是他的模型有多好,关键是那一万条数据有多好。
他越想越是兴奋。
“郑总,如果咱们能拿到他那种精度的标注数据,哪怕只给我五万条”
他停了一下。
“坤元能把这个行业的天花板,给捅个窟窿出来。到时候就是咱们鼎盛的模型在全球第一。”
郑晓波转过身来,窗外灰白色的天光勾出他的轮廓,脸上带着淡淡的笑意。
“那我就拭目以待了。”
“程远,你去办吧。”郑晓波拿起桌上的矿泉水喝了一口,“算力合作的事,先别给韩路一回复,让他等两天。”
程远愣了一下:“郑总,这是……”
“记住,在谈判桌上,先开口的人,输。”
……
与此同时,源码科技。
韩路一坐在办公室,点开视界,花了二十分钟,又标了三百多条数据。
看了看精力值,他打了一个哈欠。
这时,韩路一的手机响了一下,他拿起来一看,是【404寝室】群的消息,有人@他。
前段时间马小飞和张浩然看球在群里面刷屏,他设置了消息免打扰,有几天没看了。
韩路一翻了一下聊天记录。
【马小飞】:儿子们都干啥呢!咱多久没见了,出来聚聚不?
【张浩然】:半死,微活。
【张浩然】:还是你们媒体人有活力啊。
【马小飞】:怎么了,铁饭碗还能把你给累着?
【张浩然】:开玩笑呢,现在行里搞全员吸储,我这个季度的考核还没着落呢。
【马小飞】:连你们技术岗都不放过?!
【张浩然】:你来得正好,救救哥,你的人脉里有款爷吗?
【马小飞】:手动帮你找款爷,@我的父亲韩路一
【马小飞】:老韩你这是什么群昵称,占我便宜是吧?
韩路一爬完了楼,一拍脑门。