69书吧最新网址:www.69hao.com
首页 > 精品推荐 > 重生2008:从助教逆袭为院士 > 第102章 BPE算法完成!

第102章 BPE算法完成!(1/2)

目录
好书推荐: 综漫:从骨王开始的原罪之主 北电第一怪人,出山了! 1885,我来拯救希腊 斗罗龙王:都封号斗罗了才来系统 葬天棺! 魔女,请自重! 华娱春秋,我的女友都是顶流 盗三界 联盟:满属性的我,随机降临S赛 邪修与冒险者日志

第102章 bpe算法完成!

喝完粥后,閔欣柔去洗碗。

吴辰则打开电脑,把给康寧药厂的解决方案写成了一份文档。

前后时间总共花了不到半个小时。

但这份文档,却能为他赚100万。

等明天钱到帐后,就又是1000点的技能点到帐。

等梁嘉诚帮自己把深圳的地皮搞定后,他就可以从系统商城中买设备生產初级的显卡了。

伸了个懒腰,忙碌了一天的吴辰也感受到了一丝倦意。

他站起身想回臥室睡觉,一转头才发现閔欣柔还坐在旁边看著自己,吴淑芬则在她纤细的大腿上呼呼大睡。

“你怎么不去睡觉,有什么问题吗?”

吴辰问。

閔欣柔似乎走神了。

她连忙挪开目光,神情有些慌张。

不过说到问题,她又冷静了下来,不好意思道:“老师,我在实现bpe算法的时候发现merge规则很怪,词表切出来全是单字,英文还被拆成一个一个字母。”

“我看看。”

吴辰坐到她身边,看向了她的屏幕。

从上次他帮閔欣柔理清思路后,小姑娘的工作果然进入了正轨。

她先花了两天从天涯上抓取了5000条高质量的帖子,並且將贴子的每一个部分都分成了標题、

內容两个部分。

除此之外,每个贴子还包含了至少5条有效回復。

而且她没有像最开始的200多条数据那样去標记各种顏色,甚至还加粗加下划线来標註重点。

因为那是给人看的。

这一次的数据数据,完全就是最原始的数据。

虽然这项工作的绝大部分时间都是在机械的复製和粘贴,十分考验耐心。

但它的成果,也是用来训练人工智慧大语言模型最佳的分词语料。

吴辰运行了一下她的分词算法程序。

果然如閔欣柔所说,虽然能运行,但生成的分词结果却不对。

但这个问题应该不是语料质量不够。

吴辰一时也想不明白,必须要仔细看一下她的代码才能发现问题。

101看书 海量小说在 101 看书网,101??????.??????任你读 全手打无错站

干是他道:“你帮我去泡杯咖啡,然后把菸灰缸拿过来。”

閔欣柔站起身,一瘤一拐的先去把菸灰缸拿了过来。

但她犹豫了一下道:“老师,今天太晚了,您要是累了的话就先休息,我再研究研究,明天您再帮我看也是一样的。”

“不用。”

吴辰直接拒绝了。

深夜才是调试代码的最好时机。

没有產品经理在旁边bb,没有沙雕同事突然把资料库弄坏,也没有閒著没事干的领导突然要开站会。

见他態度坚决,閔欣柔便没有再劝,而是乖乖去厨房了。

“喵!”

閔欣柔都没说什么,倒是刚刚睡在她大腿上的吴淑芬不满了。

吴辰瞅了它一眼,当即给了几个耳刮子。

这傻猫不知道在叫什么,要是他们现在不努力,它哪还有罐罐吃。

等閔欣柔泡好咖啡回来后,吴辰已经把她的代码基本看了一遍,並且已经发现了问题。

於是喝了一口后,他立即开始指导了起来。

“首先,你在这个地方的pair频次统计用的不对,你遍歷的是vocab的键,完全忽略了每个词条的出现次数,所以每一轮选出来的最频繁符號对其实並不频繁。”

pair频次统计在bpe分词算法中,是用来决定每一轮要合併哪一对相邻符號的。

只有把词频权重算进去,merge规则才会稳定收敛。

閔欣柔把它的代码写成了这样:

这就导致她每轮合併挑到的pair像抽籤一样,越训练越碎,最后分词当然乱。

盯著吴辰指出的地方看了半天,閔欣柔才若有所思的开口。

“老师,是不是要在遍歷时加权,而且合併时还要考虑边界?”

“没错。”

吴辰夸奖了一句。

他果然没有看错人。

本章未完,点击下一页继续阅读。

目录
新书推荐: 捕鱼大亨:从北海道渔村开始 爱情公寓之心有凌熙 玄幻版斗罗 这里就是漫威之癫! CS:加点!压donk干载物! 从神之细胞开始 四合院:我才八岁,吓哭全院 漫威:交友系统,死侍是我好基友 火影:做医生的我怎么会祸乱忍界 人在漫威:S级天赋多到用不完
返回顶部