第213章两天！我只需要两天！（1/2）

赵阳没有立刻给出答覆，他表情严肃地看著幕布上的基因表达调控网络图，此时他的大脑正在飞速运转。

在179智商的推演下，结合他lv5的数学和信息学等级，很快，他脑海中构建出了几种处理这种高维度生物数据的数学模型。

“常规的负二项分布模型处理这种带有大量重复序列的数据，必然会导致方差估计不准。”

沉默了一会儿之后，赵阳看著顾明教授和周围的眾人，缓缓说出了自己的分析。

“这种农作物本身的基因组过於庞大，市面上现成的商业生信分析软体，底层的统计算法大多是基於普通的二项分布或者泊松分布。在面对海量重复序列和测序深度不均时，极其容易將背景噪音放大，这就是你们得出几万个假阳性差异基因的根本原因。”

会议室里的眾人都安静地听著。两个研二的学长连连点头，他们这几天被这些假阳性数据折磨得痛不欲生。

“我来吧，教授。你把测序的原始数据文件全部拷贝给我。”

赵阳看著顾明教授，直接给出了最终的解决方案。

“我回去重新写一个比对和定量算法。不用现成的软体，我直接在底层用隱马尔可夫模型（hmm）和多维主成分分析（pca）结合的方式，对你们的表达量矩阵进行重新聚类。”

赵阳的语气里带著绝对的自信。

“隱马尔可夫模型可以通过观察到的测序序列序列状態，推断出隱藏的真实基因表达状態，最大程度滤除测序仪產生的物理噪音。然后用pca降维，剥离次要因素。”

“我会儘可能地將假阳性的范围压缩到一百个基因以內。然后结合加权基因共表达网络分析，找出连接度最高的hub基因。最多两天时间，我给你们一个个位数的候选基因列表。你们直接拿去打抗体或者做qpcr验证就行了。”

会议室里安静了下来。

周围眾人眼神之中都带著不可思议的目光看著赵阳。

两天？

那两个学长面面相覷，都从对方的眼里看到了震惊。

这里面的原始测序数据可是以tb来计算的！光是把这几个tb的fastq文件在电脑里解压读取一遍，普通的伺服器都需要十几个小时。

自己写底层算法？还要在两天內跑完数据，输出最终的个位数靶点列表？

两天时间也太短了。这在传统的生物信息学分析流程里，是绝对不可能完成的任务。

“两天时间够吗？”

顾明教授也有些迟疑地看著赵阳。他知道赵阳在数学和计算机上极强，但这毕竟是庞大的数据。

“我们这个实验倒也是没有那么急，距离结题还有一段时间，你可以多花点时间稳妥处理……”

“够了。”

赵阳笑著摇了摇手，打断了顾明教授的话。

“不过就是洗数据改算法的事情。底层的数学逻辑我刚才已经在脑子里建构完了，剩下的只是敲代码和让cpu跑运算的物理时间。两天时间足够了。”

“真不愧是数学天才！计算机天才！真厉害啊！”

顾明教授兴奋地说道，双手用力搓了搓。

本章未完，点击下一页继续阅读。

第213章 两天！我只需要两天！（1/2）