69书吧最新网址:www.69hao.com
首页 > 精品推荐 > 学霸的征途是星辰大海 > 第167章 重启SLRM研究 三

第167章 重启SLRM研究 三(2/2)

目录
好书推荐: 梁朝九皇子 救命!高冷女总裁赖在我家不走了 六零年代,冷清妍的逆光人生 四合院,傻柱你爸被你哥送去当兵 大唐:让你教太子,没让你套麻袋 四合院我能无限合成 人在玄幻,给我无限弹药什么鬼 末日车队,让子弹在公路上飞一会 序列车队:求生纪元 家族修仙:从打下小型位面开始

“slrm也需要属於它的『tpu』。”

徐辰的目光变得深邃,“最好的办法就是针对slrm的运算特性,单独开发一个適合几何运算的处理器,也许可以称之为——lpu(逻辑推理单元)。”

当然,这一切得建立在slrm带来的经济价值足够大的前提下。

……

隨后,徐辰又思考了一下,slrm应该还有其他2个问题。

一个是泛化能力的边界。

slrm的强大,建立在“逻辑可形式化”的基础上。

对於数学题、逻辑题、代码生成这种有著严格规则的任务,它简直就是神。

但是,对於那些模糊的、感性的、没有標准答案的任务呢?

徐辰目前在这几个测试集中能有较好表现,本质上是因为这些数据本身含有逻辑信息,可以训练模型。

但是,现实世界中的逻辑关係千奇百怪。

比如“猫”。在生物学上,它是猫科动物;在文学上,它可能是“高冷”的代名词;在网络文化里,它甚至是“主子”。

而且有些场景就是天然弱逻辑的,比如写诗,比如閒聊,比如情感諮询。

slrm的几何约束太强了,它像一把铁钳,死死地卡住了模型发散思维的翅膀。它不允许模型说任何“逻辑不严谨”的话,哪怕那是修辞,是比喻,是艺术。

“成也逻辑,败也逻辑。”

“看来,未来还需要设计一个更灵活的『调度器』,让模型知道什么时候该用slrm,什么时候该放飞自我。但这又是一个巨大的工程量。”

……

另一个问题,是训练数据的匱乏。

徐辰目前能跑出sota,是因为他用的这几个数据集(snli、logiqa等)都是经过人工精心標註的高质量逻辑数据。

但是,这种数据在海量的网际网路文本中,占比极低。

想要让slrm真正具备通用的逻辑能力,就需要海量的、覆盖各种领域(法律、医学、常识)的逻辑数据来训练。

“没有数据,slrm就是个空壳子。”

“而且,不同的逻辑问题下,逻辑的判断归属是不一样的。这依然需要强大的参数量来擬合。”

徐辰现在的slrm模块,参数量仅仅只有0.5b。

“如果要记住更多的逻辑,可能要把slrm扩大到7b,甚至70b,再配合海量的逻辑数据。“

“到时候,它和transformer结合后的威力,绝对不是简单的1+1=2。”

“也就是说一个7b的transformer架构的模型,加上7b的slrm模型,组合起来,可能有超过100b参数的能力。”

“但是……我是没有能力搞到这么多数据了。”

……

经过一番实操,徐辰得出了结论:

“这个模型学术成果价值比较强,走產业化路线,还有很大的空间。”

“不过,因为是系统出品,我对这个方向的產业化还是比较有信心的。”

徐辰又转念一想,“现在这样,作为学术成果,其实刚刚好。”

“既展示了顛覆性的潜力,又留下了足够的改进空间给后来人。”

“这,才是一篇顶级论文该有的样子。”

他甚至可以预见,这篇论文一旦发表,將会养活多少嗷嗷待哺的ai方向研究生。

“《基於slrm的医疗问答系统优化》、《slrm在法律文书生成中的应用》、《一种改进的gumbel-box几何嵌入算法》……”

徐辰掰著手指头数了数,忍不住笑出了声。

“光是把slrm里的几何图形换成『球』、『锥』、『高斯分布』,就能水出几十篇论文。”

“再把应用场景换一换,从数学题换成代码生成、换成情感分析,又能水出几百篇。”

“更別提那些搞硬体加速的,搞模型量化的,搞分布式训练的……这简直就是给整个ai圈送了一波『全家桶』级別的选题啊!”

“我这哪里是发论文,我这是在给全球ai界创造就业岗位啊!”

“功德无量,功德无量。”

徐辰双手合十,一脸慈悲。

目录
新书推荐: 崩铁:cos繁育星宝,濒死被捡 恐怖复苏:我从诡佛开始进化 寒窗十年中秀才,方知此世是神鵰 养成系实习生 诸天万界黄金树,从风之谷开始 恋综拐跑天后,你说你只是个厨子 军区大院来了个睡美人 人在雪中:开局剑挑北凉王府 种气全球 双城:在下法师,蓄意轰拳
返回顶部