它闭市前从财经新闻里扒出一条《宁德时代与苹果达成深度合作》,反手就把你账户里的两百万梭哈了进去。
第二天你打开账户:跌停。
再一查,那条“深度合作”,其实并不是官方媒体的报道,而是哪个野鸡自媒体博眼球的假消息。
如果你问它,它甚至还会认真地帮你理出这条新闻和买入操作之间缜密的逻辑关系。
一个经常犯傻的模型,装上手脚之后所能造成的危害可比只有嘴的模型大多了。
关于什么是聪明的模型这一点,不从事这个行业的人会有很多误解。
有人说:“所谓大模型,不就是猜下一个词是什么的概率生成器吗?你怎么能指望这种东西产生智能?”
这个说法,其实没错,但容易让人误解。
因为这种概率不是在一张平面表上查的。
它是在一个巨大的多维向量空间里算出来的,每一段语义、每一种逻辑关系,都对应这个空间里的一个方向。
模型把你输入的那段字投进去,让它在这个空间里和见过的所有东西进行比较、融合,最后落到一个点上。
输入越多,落点越精确;空间的维度越高,对细微差别的分辨越清楚。
维度靠什么堆?靠层数。层数越深,这个落点在出来之前就被反复精修得越多,每一轮都更贴合你真正想要的意思。大模型比小模型聪明,核心就是这个原因。
从这个层面上来说,即使模型真的产生了“智能”,似乎也不足为奇,毕竟人的大脑进行思考的时候,也只是神经元的电位运动而已。
只是大脑里神经元之间的连接是以百万亿计的,而现在最大的AI模型,参数量也不过万亿级,还差了几个数量级。
而且,大脑运转的耗电量,还不到AI模型的几万分之一。
所以过去几年全世界的AI公司拼命砸钱,就是要把模型做大、维度做深。
但当算力砸到一定程度之后,每多加一层带来的提升开始递减,代价却越来越贵。
这个时候,标注的价值出来了。
好的标注,相当于提前告诉模型:“这一类问题你不用在整个空间里盲搜,只要在这一小片里搜就行。”分布空间一被收窄,有限的层数就能算出更准的结果。
韩路一面前这堆反复的红,恰好是这件事的反面
具体拿这个任务来说,把三个已经上线模块里各自跑着的队列逻辑,抽成一套通用组件,还要保证迁移完之后一分现有行为都不能变。
模型训练数据里,单独某一套队列的代码有。业务层做抽象的通用组件也有。但“跨三个已经在跑的模块做无损重构”这种要求见得不够多,标注也太稀疏。
一次还要同时装下三个模块的实现加测试用例加“不许改行为”的约束,上下文窗口根本不够。
空间又大、又稀疏、还不准。
模型只能一段一段盲猜,尝试了这么久,没搜到那个窄窄的正确解。
但这不是说这个产品的方向错了。
只是基于现有的模型能力,它没有做足够的优化。
但这是AI未来发展的方向。
给AI工具赋能,让AI工具承担更多的工作。
韩路一很期待。
“小姜。”韩路一说道。
“嗯嗯?”姜亦心小心翼翼。
“东西做得很好,你找几个人完善一下,内部先用上。”韩路一说着合上了笔记本电脑,递给姜亦心。
“可是刚才苏总试的那个场景……”姜亦心有点犹豫。
苏念念微微笑了一下:“所有的工具刚出来的时候都有这样那样的问题,有它能做的,也有它做不了的。”
“先当内部工具用着,把使用反馈都收集起来。”韩路一补充了一句,“尤其是失败的例子,对我来说更有用。”
姜亦心突然想起一件事,又问道:“那和Nexus的合作呢?”
苏念念看了韩路一一眼,转过头和姜亦心说:“两个都由你负责,但是优先这个,合作那边如果你管不过来了,可以来找我。”
“嗯嗯!”
“回去吧。”
姜亦心抱着笔记本电脑,走到门口,她回了一下头,两个老板都没动。
她从外面带上了门。
会议室里只剩韩路一和苏念念。
“念念,我突然有一个感觉。”
“什么?”
“招到对的人之后,就不停地有好东西自己蹦出来”
“好爽。”
韩路一说完,脸上露出了笑容。
这就是资本家的快乐吗?
苏念念也欣慰的笑了小姜确实是个人才。
……
会议室的门合上。
韩路一一个人坐了会儿。
窗外夜色深了,前滩那条江的倒影在玻璃上晃。
他回想着姜亦心今天给他带来的惊喜。
现在最大的限制来源于模型的能力。
既然这样,等我给它装个好脑子。
韩路一拿出手机,上面是程远下午发来的微信:
“韩总,我们对上次您带来的展示原型很感兴趣,不知道您对合作是什么意向,我们先对接一下?”
隔了两天才回,我还真以为你不着急呢。
韩路一把之前和顾司商量好的条款草稿翻了出来。
作为律师,顾司对这个条款的评价是:“会不会太狠了。”
韩路一的评价是不会。
在商业谈判中,谁掌握了独一无二的资源,谁赢。
优势在我。
发送。
第一百四十七章 你们查到什么了?
周六,上午。
鼎盛大厦三十三层,程远的独立办公室。
桌子尽头的屏幕亮着,一个幻灯片演示,一张张翻过去,工商截图、招聘平台空白搜索结果、几张LinkedIn账号、Scale AI的对外合作公告,再往右是几张源码科技在职员工的小黄书和抖音。
“工商这边,源码从A轮融资后没有任何变更。没有新设公司,没有股权调整,没有对外投资,也没有变更经营范围。”
“招聘这边,BOSS、拉勾、脉脉、领英全都筛过了。源码最近六个月发出的所有职位,没有一个跟数据标注沾边的,一个都没有。”
“模型团队的负责人,赵文渊,他的个人领英最后一次更新是十月二号,更新内容是换了个头像。”
“对外合作披露、媒体报道,能查到的部分都查了,没跟任何数据服务供应商签过对外能查到的合同。”
程远脸上露出了笑容。
皮笑肉不笑的笑容。
“什么都没查到,你还给我做了个幻灯片?”
程远的话是对着吴有天说的。
吴有天是鼎盛商务情报部的经理。
他也觉得很委屈,两天前突然接到副总裁的一个紧急任务,去调查一家叫源码科技的初创企业。
这家企业最近做的风生水起,在AI赛道也算有名,可查来查去有关的都是他们做代码模型的消息,领导却指明了要通用大模型,尤其是数据标注。
结果是什么都没查到,但是这两天加班加点,没有功劳也有苦劳啊。这幻灯片里虽然没有有用的信息,但是至少能证明兄弟们这两天的时间花进去了。
除了吴有天,桌子一边还坐着另外两个人。外面的一个,是外部调查机构的对接人,姓周;最里面那个,是吴有天手下的一个小主管,姓陈,年纪最轻,他已经吓得不太在状态了。
程远转向旁边的周总。
虽然是乙方,但毕竟不是自己的直属手下,程远的态度稍微好一些。
“周总,你这边有什么发现吗?”
周总翻开文件夹。
“程总,外包的数据标注这一块,我们是国内顶尖的渠道,我们能接触到的资源,这两天已经都查过了。”
“国内的,澜舟、格灵、星环、Scale AI国内分公司、数据堂、寻它众测,全部确认过,没有任何一家接过源码的单。”
“海外的,Scale AI总部、Labelbox、Snorkel、Surge AI,我们这边走了行业里的关系,对面都给了准信儿,没合作记录。”
“独立标注承包人说实话,这个圈子不大,全国能干的也没有几个,我们问到了八九个,没人接过这种活。”
周总翻到了下一页。
“按贵司提供的信息,一条标注的价值至少不低于五十美金,一万条就是五十万美金。五十万美金的标注订单,不太可能一点风声都没有。”
程远坐在办公桌后面,觉得头一阵阵的发晕。
缓了一会,他才慢慢地开口说道:
“周总。”
“程总,您说。”周总回道。
“你跟我说。”程远的声音向上提高了一些,“你们花了两天时间,把整个行业各个企业都问了一圈儿,结果就是告诉我,说他的数据不是从任何一家买的。那我倒是想问问,你觉得,他的数据能是从哪儿来的?”
“程总,这个我确实有些个人见解。”周总的声音不卑不亢,“源码科技作为行业里走在最前面的一批AI初创,拳头产品开物的用户量接近百万。这个量级的用户,他们一定积攒了大量的行为数据,有内部的数据分析和标注团队是非常正常的。”
“他们那数据,和做通用大模型的、和做意图理解的标注数据,那能一样吗?”程远说着说着,激动的站了起来。
周总微微一笑,并不退缩:“我们和贵司合作很久了,相信贵司的商业判断。我只是好奇,贵司怎么就知道,他们在意图理解方面有数据积累呢?”
听到这,程远不说话了。
他虽然情绪激动,脑子毕竟还清醒。有些事情,不能让外部的人知道甚至不能全让下面的人知道。
要是都知道了,还要他干什么?
“既然这样,那就谢谢周总了,资料我们留下,内部再讨论一下。”
程远这是很不客气的送客了,周总也不在意,站起身告辞。