第3章 计划(2/2)
第一,搭建大模型基础框架——一套属於自己的深度学习框架。
第二,transformer架构。
这是他最大的底牌。
他要提前“发明“这个基於“注意力机制“的划时代模型。
它將是未来所有大语言模型的基石。
第三,小模型。
基於新框架和transformer架构,做出一个参数量在20亿到30亿的“小“模型。
“这个方案已经是极限了。“
陈阳在心里默念:
“必须在13年底完成训练。2014年1月,准时发布。“
“第三阶段:发布模型”
有了钱和名气,他的最终目的才真正开始。
“13年,必须完成三件事。”
大模型基础框架:搭建一套属於自己的深度学习框架。
陈阳在心里默念著这个计划的核心。
深度学习框架,说白了就是ai的“作业系统“。
它要解决两个最核心的问题:模型並行和模型通信。
2012年,单块显卡的显存只有几个g,根本装不下一个大模型。
唯一的办法,就是把模型“切开“——一部分放在这块显卡,一部分放在那块显卡,让它们协同工作。
就像一本太厚的书,一个人拿不动,只能撕成几本,分给几个人同时看。
这是模型並行。
但问题来了——这几个人需要频繁交流,才能把內容串起来。
显卡之间也一样,它们要不断传递数据,互相配合。
这就是模型通信。
如果通信效率低,几块显卡互相等待,再多显卡也没用。
这两个技术,將是未来做大模型的核心基础。
谁掌握了高效的模型並行和通信,谁就能训练更大的模型。
陈阳很清楚,现在市面上,这两块几乎还是一片空白。
他要做的,就是一套支持大规模模型並行和高效通信的框架。
等这套框架成熟了,別人想做大模型,就得用他的“作业系统“。
那时候,他就掌握了整个行业的底层规则。
transformer架构:
这是他最大的底牌。
为什么transformer是跨时代的?
两个原因。
第一,它能理解前后关係。
传统技术一个字一个字往后看,看到后面,前面就忘了。
transformer基於“注意力机制“,能看懂一句话里,哪些词和哪些词有关係。
比如“他拿起苹果,咬了一口“——它知道“咬“和“苹果“有关联。
这让ai第一次能真正“读懂“一段话。
第二,它能並行处理。
传统模型必须一个字一个字按顺序处理。
transformer可以同时处理所有字,效率高出几十倍。
这两个特性,让transformer成为未来所有大语言模型的基石。
陈阳要提前把它“发明“出来。
最后基於新的框架和transformer架构,做出一个参数量在30亿(3b)的小模型。
“30亿参数...“
陈阳很清楚这个数字意味著什么。
在fp32精度训练中,光是模型权重就需要12gb显存。
但训练时,还要存储梯度、优化器状態...
总共需要超过100gb的显存。
“2013年11月,k40显卡发布。“
陈阳在心里盘算著时间节点。
k40是英伟达即將推出的新一代旗舰计算卡,12gb显存,性能强悍。
“要容纳100gb的训练显存,用12gb的k40来算...“
陈阳在脑海中快速计算。
“至少需要9张卡,才能勉强装下这个模型。“
但他的眉头很快皱了起来。
“只有9张卡,训练速度太慢了。到14年年中?恐怕到15年都训不完!“
他的目標是4个月內完成训练。
怎么办?
陈阳的眼中闪过一道精光。
“唯一的办法——数据並行。“
把这个9卡组合的最小单元,再复製4套。
让4个模型同时开工。
9张卡x 4套= 36张卡。
“这样才能4个月內完成训练。“
陈阳在心里默念。
“必须提前订购,等11月硬体到位,立刻开始训练。“
“趁著14年初谷歌6亿美金收购deepmind(一个人工智慧公司)的热度,年中发布模型。“
到时候,当所有人还在为识別猫狗而欢呼时,他要拿出一个30亿参数的语言模型。
那不是领先一步,而是领先一个时代。
届时,全世界的目光,无论是学术界还是投资界,都將被迫匯聚到他身上。
他將有足够的资本和话语权,去迎接即將到来的、波澜壮阔的人工智慧大时代。
窗外传来几声犬吠,打破了深夜的寂静。
陈阳长长地吐出一口气,接下来有的忙了。