第213章 两天!我只需要两天!(1/2)
赵阳没有立刻给出答覆,他表情严肃地看著幕布上的基因表达调控网络图,此时他的大脑正在飞速运转。
在179智商的推演下,结合他lv5的数学和信息学等级,很快,他脑海中构建出了几种处理这种高维度生物数据的数学模型。
“常规的负二项分布模型处理这种带有大量重复序列的数据,必然会导致方差估计不准。”
沉默了一会儿之后,赵阳看著顾明教授和周围的眾人,缓缓说出了自己的分析。
“这种农作物本身的基因组过於庞大,市面上现成的商业生信分析软体,底层的统计算法大多是基於普通的二项分布或者泊松分布。在面对海量重复序列和测序深度不均时,极其容易將背景噪音放大,这就是你们得出几万个假阳性差异基因的根本原因。”
会议室里的眾人都安静地听著。两个研二的学长连连点头,他们这几天被这些假阳性数据折磨得痛不欲生。
“我来吧,教授。你把测序的原始数据文件全部拷贝给我。”
赵阳看著顾明教授,直接给出了最终的解决方案。
“我回去重新写一个比对和定量算法。不用现成的软体,我直接在底层用隱马尔可夫模型(hmm)和多维主成分分析(pca)结合的方式,对你们的表达量矩阵进行重新聚类。”
赵阳的语气里带著绝对的自信。
“隱马尔可夫模型可以通过观察到的测序序列序列状態,推断出隱藏的真实基因表达状態,最大程度滤除测序仪產生的物理噪音。然后用pca降维,剥离次要因素。”
“我会儘可能地將假阳性的范围压缩到一百个基因以內。然后结合加权基因共表达网络分析,找出连接度最高的hub基因。最多两天时间,我给你们一个个位数的候选基因列表。你们直接拿去打抗体或者做qpcr验证就行了。”
会议室里安静了下来。
周围眾人眼神之中都带著不可思议的目光看著赵阳。
两天?
那两个学长面面相覷,都从对方的眼里看到了震惊。
这里面的原始测序数据可是以tb来计算的!光是把这几个tb的fastq文件在电脑里解压读取一遍,普通的伺服器都需要十几个小时。
自己写底层算法?还要在两天內跑完数据,输出最终的个位数靶点列表?
两天时间也太短了。这在传统的生物信息学分析流程里,是绝对不可能完成的任务。
“两天时间够吗?”
顾明教授也有些迟疑地看著赵阳。他知道赵阳在数学和计算机上极强,但这毕竟是庞大的数据。
“我们这个实验倒也是没有那么急,距离结题还有一段时间,你可以多花点时间稳妥处理……”
“够了。”
赵阳笑著摇了摇手,打断了顾明教授的话。
“不过就是洗数据改算法的事情。底层的数学逻辑我刚才已经在脑子里建构完了,剩下的只是敲代码和让cpu跑运算的物理时间。两天时间足够了。”
“真不愧是数学天才!计算机天才!真厉害啊!”
顾明教授兴奋地说道,双手用力搓了搓。
本章未完,点击下一页继续阅读。