登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 文献综述 > 计算机类 > 软件工程 > 正文

基于深度测序的微生物组进化分析及物种溯源算法研究文献综述

 2020-04-21 16:20:10  

1.目的及意义

近年来,以新一代高通量测序技术为代表的大规模数据产出,为生物学研究提供了强大的工具。高通量测序技术可以在较短时间内,以低廉的价格产生包含大量基因序列的测序数据,为分子生物学研究提供了大量精确、个体化、定量化的数据,很大程度上改变了传统的生物学研究方式及流程。新一代测序技术已经在微生物学、遗传病学、免疫基因组学、环境基因组学等领域得到广泛应用,并得到学术界的广泛关注。例如,基于新一代测序技术进行的人类肠道微生物宏基因组学研究,入选了Science杂志2011年度评出的十大科技进展。由美国国家卫生研究院(NIH)发起的人体微生物工程项目(Human MicrobiomeProject,HMP)和由欧盟欧洲委员会发起的人体消化道微生物宏基因组学项目(MetaHIT, Metagenomicsof the Human Intestinal Tract),均以高通量测序为主要研究手段,资助金额分别高达1.15亿美元和1140万欧元,显示了欧美政府对该领域研究的重视程度。基于高通量测序技术进行的基因组学研究,目前已经直接应用到代谢疾病、急性病和传染病、生物燃料、生物采矿、高分子材料等工业、农业、医药领域,显示了相当广阔的应用前景。

序列的种群分类问题是高通量基因测序技术广泛引入生物学领域之后引发的新问题。由于物种本身的基因进化机制和测序技术过程中的偏差,测序数据在序列空间的分布会以一系列群簇结构的形式呈现。这些群簇反映的是分子生物学层面的群聚关系,而非传统的生物分类学种群划分。由于物种基因异构性等现象的存在以及测序方案的局限性,分子生物学聚类并不一一对应到生物分类学划分结果,然而,对生物学研究者而言,理清分子生物学聚类结果与传统生物分类的区别与联系,寻找在统计意义上与分类学准则相符的基因型划分方案,以此为基础对测序结果进行功能基因组学和进化生物学解读,对揭示数据体现的自然规律仍然具有相当重要的意义。目前,大部分相关研究在种群分类问题上,主要依赖一些经验规则将级联聚类结果映射到对应的分类学种群上(例如通常以97%基因相似度作为同种物种的阈值,95%基因相似度作为同属物种的阈值),存在相当大的随意性,影响了对测序结果的后续精确分析。文献提出了利用少量标定序列作为参考确定最符合生物分类学定义的相似度阈值、以此切分聚类树获得基因型划分方案的方法,然而,该方法采用直接最大化标定序列的分类错误的判据,没有考虑在占数据主体的未知序列上的泛化性能,产生了与机器学习领域过拟合现象类似的问题;此外,该方法采用单一阈值,忽略了不同种群之间进化历程的不均匀性导致的群簇尺寸差异,这两种因素导致了其划分结果与实际物种分类存在很大的偏差。有些研究则采用混合高斯模型,试图运用机器学习技术寻找群簇的自然边界而进行种群或基因型分类。但是,该方法使用的模型在求解过程中极易陷入局部极值,并且需要一系列人为参数进行控制,这些参数很难事先标定,因此其实测性能并不尽人意,也难以推广。这一领域的研究,仍然处于初步探索阶段。

本研究的目的就是从高通量测序分析的海量数据中获取具有明确生物学意义的发现。研究具有高数据吞吐量、高精确度的序列数据进化树构建方法和序列的种群分类方法。

{title}

2. 研究的基本内容与方案

{title}

现有进化分析方法着眼于处理同类/近缘物种的进化路径,假设所有序列是同源的,而且采样默认是均匀的。而在微生物组分析中存在如下问题:1)不同物种之间的亲缘关系可能很远,需要采用恰当的准则将序列划分成子集,然后再对子集内的近缘物种进行分析,而划分准则又反过来要依赖于序列数据之间的亲缘分析。2)采样是不均匀的(如某个物种可能会在发源地比较集中,而扩散地的数量比较少),由此可能会对序列之间的距离分布产生影响,进而影响分析结果;3)除了针对个体物种进行亲缘关系分析之外,微生物组分析还需要对环境样本之间的相似性进行量化评估,提出对应的计算模型公式。研究的目标就是提出可以满足上述三个要求的宏基因组物种进化关系分析算法及对应的软件工具。

拟采用的技术方案和措施:

1)用快速聚类方法(如ESPRIT-Tree)对数据进行级联聚类,然后采用固定阈值划分OTU,以每个OTU为物种单元建立进化关系树并量化分析不同环境样本内该物种的亲缘关系和可能的传播途径。

2)改进进化关系树的构建方法:用快速聚类方法对数据进行级联聚类,然后按聚类顺序对序列数据进行逐次级联比对,计算相近序列的距离并用Neighbor Joining方法建立进化关系树(一定距离阈值以下),提出一个根据进化距离分布对进化树进行切分的方法,获得阈值灵活的(可能是多层次的)物种分类单元划分结果。

3)采用流型学习的方法进一步改进进化关系树的构建。

4)形成可针对多个微生物组样本进行物种溯源与进化分析、生成结果数据表的软件工具。3. 参考文献

[1] Breakthrough of the Year: The Runners-Up. Science. 334(6063):1629-1635. 2011

[2] The NIH HMP Working Group, Peterson J, Garges S, et.al. TheNIH Human Microbiome Project. Genome Res. 19: 2317-2323. 2009

剩余内容已隐藏,您需要先支付 10元 才能查看该篇文章全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图