69书吧最新网址:www.69hao.com
首页 > 精品推荐 > 学霸的征途是星辰大海 > 第168章 重启SLRM研究 四

第168章 重启SLRM研究 四(2/2)

目录
好书推荐: 梁朝九皇子 救命!高冷女总裁赖在我家不走了 六零年代,冷清妍的逆光人生 四合院,傻柱你爸被你哥送去当兵 大唐:让你教太子,没让你套麻袋 四合院我能无限合成 人在玄幻,给我无限弹药什么鬼 末日车队,让子弹在公路上飞一会 序列车队:求生纪元 家族修仙:从打下小型位面开始

但现在,每当qwen-7b生成一个推理步骤,slrm就会在后台的高维几何空间里构建一个“逻辑盒子”。如果下一步的推理超出了这个盒子的范围,slrm会立刻施加惩罚梯度,强迫它修正逻辑。

测试开始。

进度条走动。

最终分数定格:94.5%。

“嘶……”徐辰自己都吸了口凉气。

原始水平:~75%。

加持后:94.5%。

gpt-4水平:~92%。

“在nli这种基础任务上,直接超越了sota(当前最佳)!”

……

第二战:logiqa。

这是一个硬骨头。题目全是类似“如果a去,b就不去;如果b不去,c必须去……”这种绕口令。

qwen-7b原始水平大约是38%,这个水平基本就是蒙的。

gpt-4的水平大约是76%。

徐辰加载模型,运行测试。

十分钟后。

最终分数:81.2%。

翻倍!直接翻倍!

在这个榜单上,即便是千亿参数的llama-3-70b,也还在65%左右徘徊。徐辰用7b的模型,跑出了比gpt-4还高5个点的成绩!

……

第三战:proofwriter。

这是终极考验。不仅要对,还要对得有理有据。

qwen-7b原始水平大约是45%,会经常胡编乱造证明过程)。

laart (qwen-7b + slrm):98.4%。

“98.4%……”

徐辰看著这个数字,忍不住感嘆slrm的逻辑能力確实够强。

“虽然推理速度慢得像蜗牛,泛化能力也有限,但在『逻辑严谨性』这一块,它就是当之无愧的王者。”

“有了这些数据,这篇论文,稳了。”

……

隨著徐辰將一份份测试结果上传到hugging face的leaderboard,整个ai界,再次被那个神秘的“x”给震动了。

这一次,不再是clutrr一个榜单的孤立事件。

snli、logiqa、proofwriter……

几乎所有主流的、公认最难啃的逻辑推理榜单,在一夜之间,全部被那个简单的字母“x”给血洗了!

而且,分数不是微弱的领先,而是断层式的碾压!

在logiqa这种“智商测试”榜单上,x的模型甚至比第二名高出了整整5个百分点!

那一连串绿色的“new sota”標誌,就像是一排排闪烁的霓虹灯,刺痛了所有ai巨头的眼睛。

更可怕的是,这些成绩的背后,依然没有公开任何模型权重,没有一行代码,甚至连那个“x”到底是谁,依然是个谜。

……

目录
新书推荐: 悟性逆天:化身禁忌,被妹妹上交 大唐:皇位你们争,我去发展封地 神秘复苏:从S级开始称量阳间 神话再临!从民俗志怪开始 六零年代的重组家庭 都重生了,受欢迎很正常吧 死神,从进入露琪亚身体开始 四合院:无限垂钓,开局四九城首富 诸天,从用概念技治疗道伤开始 我能通过日记回到过去
返回顶部