三十题,还是全对。
怎么回事?
章闻铎把椅子往前拉了拉。
脚本已经运行到五十题了,依旧是全对。
章闻铎感觉有点儿凉,摸了摸头,出了一层细汗。
没去继续关注正在运行的脚本,章闻铎点开其中一题,看了看汤圆的输出。
逻辑很严密啊!
行家一出手,就知有没有,这些章闻铎特意收集起来的题,强调的就是任务的复杂性,按照一般大模型的处理方式,在这么复杂的条件下,很容易就会出现注意力分散,关键条件被忽略的问题。
可是这个问题在汤圆的答案上一点儿没出现。
章闻铎静静地看着终端里的脚本跑完,最后一百二十七题里面对了一百二十题,错了七道。
但是这七道里还有不同寻常的事。
其中有一道题,汤圆回答的是“我不知道”。
作为一个AI模型的研究者,章闻铎知道这有多难。
光凭提高数据质量就可以做到这一步吗?
章闻铎突然觉得脸上有点儿热,而且越来越热。
他摸了摸脸,这个酒后劲儿这么大的吗?
又上头了。
章闻铎拿起手杯去接了杯水,然后一饮而尽。
他拿出手机,找到刚才加的韩路一的微信好友。
聊天记录里有一句话:
“我通过了你的朋友验证请求,现在我们可以开始聊天了”
章闻铎盯着输入框看了好一会儿,开始打字。
【韩总,刚才吃饭的时候我说话有点】
打到这,他停住了。
有点儿什么呢?冒犯?没分寸?自以为是?
他皱着眉,把这几个字删掉了,又重新打。
【韩总,我刚才验证了一下汤圆,是我之前的判断太武断了】
这个也不行,显得太傲慢了吧。
章闻铎想了想,还是算了,人家也许不介意呢。
水平这么高,人还这么低调。
唉。
章闻铎躺在床上,感受着脸上一阵阵发烫,心想,这酒劲怎么越来越大了。
睡吧,睡醒了酒就醒了。
突然,他从床上坐了起来。
明天韩总的讲座是在哪来着?千万得去听,不能忘了!
第二百六十二章 世界模型才是最好的
周一早晨,六点整。
水木大学博士生公寓的一个房间里,手机发出了一阵蜂鸣声。
声音不大,但是章闻铎已经睁开了眼睛,伸手关掉了闹钟。
他没有赖床或者玩手机,利落地翻身下床、洗漱、换上了一身衬衫牛仔裤,然后坐在了电脑前,这个时候是六点二十分。
硕博连读五年,章闻铎就是用这样严苛的作息要求自己的。
经过一晚上的睡眠,昨晚那点微醺的酒劲,和因为自己的狂妄所产生的不适都消散的差不多了。
现在还有更重要的事去做。
昨天晚上,汤圆的API静态测试集测试证明了它不是一个用过拟合作弊的骗子。作为一个即将答辩的顶级计算机博士,章闻铎很清楚这意味着什么。
在业界所有人都在卷算力、卷参数、卷更大的模型的时候,汤圆给出了另外一种解答数据质量能把模型能力提高到什么程度。
这对前沿研究者的价值不可估量。
章闻铎的博士研究方向不是传统的基于语义关系的大语言模型,因为他认同很多业界先驱的想法,认为纯粹的语义推断已经到达了它的上限。
想要让人工智能的研究突破到下一个阶段,必须走出一条新路来。
这也是为什么昨天晚上他敢于直接当面质疑韩路一的原因。
虽然最后证明,是他的判断错了,但这更有价值。
既然现在手里有着世界第一的闭源模型的API,可不能浪费了。
章闻铎调出了自己博士论文的核心代码,一个用于探测大模型内部是否具备反事实因果推理的“世界模型(World Model)”状态探针。
所谓世界模型,是和现在流行的大语言模型(LLM)完全不同的研究方向。如果说大语言模型要做的是,基于前文,后面会出现的“话”;那世界模型是,基于前面的事件信息,现实世界中会发生的下一件“事”。
而状态探针,探测的就是一个模型不管他的内部实现机制是什么有没有能够用内部状态表达世界的能力。
比如说,在网上流传的一个很经典的笑话,如果你问AI大模型:“五米外有个洗车店,我要洗车,我该走着去还是开车去?”大部分的AI都会回答走着去。
为什么?
因为“五米外”和“走路”在传统的大语言模型中是注意力强关联,洗车店和开车作为弱信号被忽略了。
但是你问任何一个智力正常的成年人,都不太可能会在这道题上翻车。
这就是语言模型在理解世界上的天然缺陷,而章闻铎的论文讨论的就是大语言模型和世界模型的关系。
在学术界,研究世界模型的学者一直分为两派。
一派认为现在的大语言模型这种基于语义的推理方向是个岔路,最终会走到死胡同,也就是说,做大语言模型永远也没办法做成世界模型。
而另外一派则认为,语言是人类对世界的抽象,当大语言模型的能力进步到一定程度的时候,它也可以具备世界模型的能力。
“死路派”和“殊途同归派”,两派在这个问题上争论不休,至今没有哪一派能说服了另一派。
章闻铎自己就是“死路派”的,他对汤圆的质疑甚至都不是针对汤圆的,他对所有的大语言模型都有这抵触,觉得这些都是实现AGI道路上的歧途。
他的理论提出了很多,但是理论需要验证。
对研究者来说,最痛苦的事就是缺乏顶级模型的验证机会。
而对中国的研究者来说,则有更大的一层障碍在。
现在,境外最强的闭源模型们对中国大陆研究者几乎断绝,偶尔可以通过一些中转站测试一下,但是模型能力不稳定,不确定中间有没有夹杂多余的提示词,还无法进行大规模反复验证。
而国内的顶级模型又还没强到能产生有意义的行为分叉。差一点的模型各种推理能力糊成一团,跑探针等于白跑。
章闻铎之前的诸多理论假设,就一直停留在纯数学推导阶段,也只能拿着一个半成品去做论文答辩。
而现在,汤圆向他敞开了大门。
想到这,章闻铎迫不及待地打开了御风。
在让探针调用汤圆的API之前,他先让御风帮他把那段已经写了将近两年的核心代码做几处适配改动。
原本的探针是按照GPT规格的模型校准的,输出格式不太一样,他把几个参数调了调,让御风给他写一个格式转换层。
这种事以前要花大半天,御风给了三个方案,他扫了一眼,选了最干净的那个,大概十分钟就完成了改动。
他开始调用汤圆的API进行第一批实验序列。
等待。
终端开始输出。
章闻铎坐在那,上身微微前倾,眼睛紧紧地盯着屏幕。
前面几组结果都在意料之中。
章闻铎没什么反应,这本来就是基准,连差一点的模型都能过的题,不算什么。
从第十一组开始,是探针的核心序列。
他设计了一套“状态追踪“题组:同一个场景,以十七种不同的表述方式喂给模型。措辞不同,信息顺序不同,中间插入大量干扰句,为的就是破坏语义的注意力机制。
如果模型只是在做语义匹配,换了表面形式之后答案就会飘移。
想要保证答案的一致性,需要模型在它内部维护一个“世界状态”,这样无论表面怎么变化,逻辑答案都应该保持一致。
当然,现在的大语言模型都不会去“维护”这个状态,但是章闻铎想要探索的方向是:
如果模型在训练过程中形成了稳定的因果结构表征,它就可以表现得“像”是有一个内部状态一样,输出得答案就应该保持一致。
之前他在国外的顶级模型上进行过小范围验证,答案如他预料的一样,没有模型能够表现出这种能力来。
然而汤圆不一样。
终端里,汤圆的答案一条条输出,现在已经进行到了第十五组验证。
前面几组验证数据的特征值已经远超章闻铎验证过的国外顶尖模型。
而第十五组的最后一个变体,在插入了七条干扰句,汤圆依然输出了正确答案,并且在它的思考过程中还提示了更多的信息:“需要注意的是,尽管文中多次提及初始状态,但根据第三段的描述,该状态在后续已发生变化,正确答案应基于最终状态而非初始状态。”
探针还在继续运行。
但是章闻铎的心思已经不在屏幕上了。
基于现在看到的这冰山一角的结果,他已经预感到了。
汤圆作为一个纯语义训练的模型,理解世界状态的能力大幅高于他测试过的其他模型。
这说明了什么?
章闻铎抬头看了看窗外,时间已经从清晨到了上午,而他完全没有察觉。
京城的天空今天是一片澄澈的蓝色,没有一丝云。
那条他以为走不通的岔路,其实走得通。
高质量的原始数据和语义标注对世界模型的方向也是有意义的。
章闻铎的心里说不好是开心还是痛苦。
他不再关注还在运行的探针脚本,起身去接了一杯水。
妈蛋,论文要重新写了
结论还是一百八十度的大掉头!
第二百六十三章 开启时代的演讲