第11章 问答(2/2)
“你的网络现在用在验证码识別上?“姚教授问。
“是的。“陈阳说,“我训练了一个18层的模型,对主流的验证码识別准確率都在98%以上。“
“50层?“姚教授有些惊讶。
姚教授站起来,在办公室里走了几步:“陈阳,你的这个工作非常有价值。不仅解决了实际问题,而且在理论上也有创新。“
他停顿了一下,转头看著陈阳:“你有没有在更大规模的数据集上测试过这个方法?比如imagenet?“
“测试过。“陈阳点点头,“我用imagenet 2012的数据集训练了一个152层的深度残差网络。“
“152层?!“姚教授眼睛瞪大。
“是的。“陈阳说,“因为有了残差连接,网络可以训练得非常深,而且不会出现退化问题。“
“还用了並行框架”陈阳心里说道,只是没表示出来。
“效果怎么样?“
陈阳深吸一口气:“top-5错误率,6.7%。“
姚教授的手颤了一下。
办公室里安静了几秒。
“6.7%?“姚教授盯著陈阳,声音都有些颤抖,“你確定这个数字?“
“確定。“陈阳说,“我跑了三遍验证,结果都在6.7%左右。“
姚教授走到窗边,背对著陈阳站了一会儿。
然后他转过身:“陈阳,你知道这意味著什么吗?“
“知道。“陈阳说,“这意味著深度学习在图像识別领域,已经可以达到一个非常高的水平。“
“不仅如此。“姚教授说,“根据我所知的信息,你的6.7%,是一个质的飞跃。这已经非常接近人类的识別水平了。“
他走到电话前,拿起话筒:“小陈,帮我联繫一下张文凯老师和李明教授,就说我这里有个很重要的事情,请他们现在过来一下。“
掛了电话,姚教授转头对陈阳说:“你等一下,我请了两位计算机视觉方向的教授过来。他们需要看看你的工作。“
“好的。“
十分钟后,两位教授赶到了。
张文凯老师陈阳见过,是给姚班上计算机视觉课的老师。
另一位李明教授年纪稍大,是清华计算机系视觉方向的学术带头人。
“老姚,这么著急叫我们来干什么?“李明教授笑著问。
“你们看看这个学生的工作。“姚教授指著陈阳。
陈阳又把刚才的內容讲了一遍,並且在白板上详细画出了残差网络的结构。
两位教授一开始还比较隨意,但越听越认真,到最后都站到了白板前仔细研究。
“你这个跳跃连接,“张文凯问,“会不会导致梯度爆炸?“
“不会。“陈阳说,“因为加法操作的梯度是1,不会放大也不会缩小。反向传播的时候,梯度可以直接通过跳跃连接传回去,所以很稳定。“
“你说在imagenet上测试了?“李明教授问,“能看看结果吗?“
“可以。“陈阳打开笔记本电脑,调出测试结果和训练曲线。
两位教授盯著屏幕看了很久。
训练曲线很平滑,loss稳定下降,准確率稳步上升。
测试集上的最终结果,清清楚楚写著:top-5 error: 6.7%。
“6.7%.!“李明教授喃喃自语,“这个数字太惊人了。“
“这不是一个小的改进,“
张文凯说,“这是在说明,网络深度確实可以带来性能的巨大提升,前提是你能训练好它。“
“陈阳,“李明教授转头问,“你用了多少层?“
“152层。“
“什么?!“两位教授都惊了。
“152层还能训练?“张文凯难以置信,“不会梯度消失吗?“
“不会。“陈阳说,“因为残差连接的存在,梯度可以直接传播回去。而且我发现,网络越深,只要能训练好,效果就越好。“
“你做了消融实验吗?“李明教授问,这是一个很专业的问题,“比如对比不同深度的网络?“
“做了。“陈阳切换ppt,展示了一组对比实验,“我训练了18层、34层、50层、101层、152层五个不同深度的网络。结果显示,在我的架构下,网络越深,效果越好。“
屏幕上显示著一张图表,横轴是网络深度,纵轴是错误率。曲线清晰地显示:隨著深度增加,错误率持续下降。
“天才,真是天才。“李明教授感嘆,“大一新生就能做出这样的工作。“
“不仅是天才,“张文凯说,“更难得的是,他解决了一个困扰深度学习领域很久的问题——如何训练真正的深层网络。“
姚教授看著陈阳,眼中满是讚许:“陈阳,你这个工作必须儘快整理成论文发表。这是深度学习领域的重大突破。“
“我正在整理。“陈阳说,“但我想再做一些补充实验,比如在其他数据集上验证,或者探索更多的应用场景。“
“有什么不懂的隨时来找我们。“张文凯说,“论文写作、实验设计、投稿流程,我们都可以帮你。“
“对,“李明教授补充道,“这个工作如果投cvpr或者iccv,绝对是spotlight甚至best paper级別的。“
“谢谢老师。“
“不用谢。“李明教授笑道,“应该是我们谢谢你,给我们这些老傢伙长了脸。清华能出你这样的学生,是我们的骄傲。“
姚教授看著陈阳,语气认真:“陈阳,你打算继续在姚班读书吗?“
“当然。“陈阳有些不解,“为什么这样问?“
“因为我担心,“姚教授笑了笑,“像你这样的学生,很容易被其他学院或者公司挖走。“
“不会的。“陈阳说,“姚班是最適合我的地方。“
“那我就放心了。“姚教授对两位教授说,“我们得保护好这个学生。等他的论文发表出来,恐怕google、facebook、百度这些公司都会来抢人。“
“对对对。“李明教授点头,“这样的学生,一定要留在学术界。至少读完博士再说。“
“我会好好考虑的。“陈阳说。
几位教授又问了很多技术细节,从网络结构到训练技巧,从数据增强到模型优化。
陈阳一一回答,展现出了远超大一新生的专业水平。
討论一直持续到晚上七点。
“今天就到这里吧。“
姚教授看了看时间,“陈阳,你先回去休息。我们会商量一下,看怎么帮你把这个工作做得更完善。另外,关於论文发表,我们会给你一些建议。“
“好的,谢谢姚教授,谢谢两位老师。“
陈阳走出办公室,长出一口气。
今天的目標完美达成了。
不仅在姚教授面前留下了深刻印象,还得到了两位计算机视觉教授的认可。
更重要的是,他找到了一个合理的身份。
一个在暑假创业过程中,为了解决实际问题,无意中发现了残差网络的天才学生。
这样一来,等resnet相关的论文发表时,就不会显得太突兀了。