登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 开题报告 > 计算机类 > 计算机科学与技术 > 正文

微生物组序列大数据流形学习在进化分类学中的应用研究开题报告

 2020-02-20 09:02  

1. 研究目的与意义(文献综述)

微生物组是指一个特定环境或生态系统中全部微生物及其遗传信息,微生物是生命发展过程中重要的生物资源,人的正常生命活动离不开微生物,微生物组研究得到学术界广泛关注。2007年,美国国家卫生研究院(nit)启动人类微生物群系计划(hmp:human microbiome project),2016年,美国宣布启动“国家微生物组计划”;2017年底,中国科学院启动微生物组计划;微生物组研究已成为各国科学家关注的研究热点。

近年来,利用新一代高通量测序技术,能在较短时间内产出大规模微生物组序列数据,数据量以超越摩尔定律的幅度飞速增长。国内外生物信息领域学者通过对微生物组序列大数据分析,旨在获取具有明确生物学意义的有价值信息。生命从何而来的问题一直困扰着全球的科学家,微生物组序列数据分析是进化分类学中重要的技术手段。多年来,国内外研究学者在微生物的进化分类领域进行了一系列深入研究。16s序列作为分子指标成为微生物进化分类的强有力工具,具备种类少,含量大,分子大小适中,稳定性高、多拷贝、多信息,长度适中的特征,在结构和功能上具有高度的保守性,故常用来标记生物进化距离和亲缘关系。目前美国卫生研究院已对2000种占真细菌总数的50%以上的真细菌的16s序列进行了测序,不同菌属的16s序列同源性为70%~95%,根据同源性则可基本判定真细菌是否为同一菌属。研究发现,由于所有种类细菌中至少有一个16s基因拷贝,且16s基因拷贝序列并一定完全相同,若不同细菌中有两个16s基因序列同源性不高于97%,则可判定他们属于不同的菌种。通过对16s序列的序列比对、同源性分析,可以计算不同菌属和菌种在遗传进化方面的距离,从而判定其遗传关系的远近,绘出进化树,从而达到对微生物进行分类的目的。由于不同区域具备不同的保守性,进化速率难以测定。利用16s序列数据集,进行进化分类分析一直是生物信息领域的难题。

微生物组16s序列数据集为大规模数据,且微生物组序列为非欧式高维空间数据,数据降维成为微生物组序列大数据分析的关键技术。现有的维数约简方法中,pca、ipca方法对具有线性结构的数据集处理效果很好,小波、傅里叶变换处理图像的结果也很好。然而这些方法皆忽略了数据的几何结构,缺乏几何上的直观解释。流形学习很好地解决了这个问题,得到学术界广泛关注。流形学习于2000年《science》杂志提出,成为信息科学领域研究热点。近年来,许多国内外研究学者对流形学习展开了深入研究。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

2. 研究的基本内容与方案

本次毕业设计研究的基本内容包括两方面:一方面,通过对公开的微生物16s序列参考数据集进行流形建模,16s序列有高度保守区又有可变区,高度保守区反应了物种之间的亲缘关系,可变区反应了物种之间的差异。利用微生物16s序列不同区域数据集,进行聚类分析,再采用流形学习方法投影到低维空间,提取数据空间关键特征,从而分析微生物进化过程中16s序列不同区域的进化趋势差异和进化方向上的偏向。另一方面,利用人体多部位的微生物采样数据,应用到第一部分内容的流形模型,对人体多部位的微生物进行分类,发现微生物在人体多部位之间迁移的规律。

本次毕业设计的研究目标为:分析16s序列的不同区域的进化趋势差异和进化方向上的偏向;将人体多部位的微生物采样数据应用于流形模型,聚类分析各部位微生物物种,发现微生物在人体多部位之间迁移的规律。

本次毕业设计拟采用的技术方案为:使用常用的生物序列数据库,利用blast工具进行微生物基因序列比对,获得微生物基因序列的相似性,确定微生物之间的亲缘关系;结合usearch工具进行聚类分析;同时研究运用流形学习方法,构建流形学习模型,根据参考数据集训练模型,设计算法解决该模型,并分析算法稳定性与复杂度,不断改进算法以适应于实际需求。接着,对聚类结果进行降维处理,获取16s序列不同区域在密度等方面的明显差异。最后,将人体多部位的微生物采样数据应用到上述模型中,获取各部位微生物序列之间的相似性和差异性,从而获得微生物之间的亲缘关系。基于两微生物亲缘关系近则为同一来源的假设,针对个体不同部位的微生物亲缘关系,运用投票机制,判断人体中多部位中的微生物是否发生迁移,从而发现微生物在人体多部位之间的迁移规律。

剩余内容已隐藏,您需要先支付后才能查看该篇文章全部内容!

3. 研究计划与安排

时间节点

任务安排

Week1-2

查阅文献,外文翻译,完成开题报告

Week3-6

数据采集与预处理,模型与算法设计

Week7-8

编码实现,算法测试,实验结果分析

Week9-10

模型与算法改进,实验结果分析

Week11-14

撰写及修改毕业论文

Week15-16

准备答辩

4. 参考文献(12篇以上)

[1] tenenbaum jb, de silva v and langford jc. aglobal geometric framework for nonlinear dimensionality reduction. science290(5500):2319-2323. 2000

[2] roweis st and saul lk. nonlineardimensionality reduction by locally linear embedding. science 290(5500):2323-2326.2000

[3]xingpeng jiang, xiaohua hu, tingting he. time series analysis of microbiomedata regularized by local linear manifold. 2015ieee international conference on bioinformatics and biomedicine (bibm), 11/2015

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图