生物数据分析的深度学习方法开题报告

2020-02-10 22:35:58

1. 研究目的与意义（文献综述）

肝癌是导致全世界男性死亡率的第二大癌症。根据美国癌症协会的数据，2017年，美国估计有4万多人被诊断患有肝癌。它是发病率和死亡率增加最少的癌症类型之一，在美国每年增加约3%。肝细胞肝癌是最常见的类型（70%-90%）。原发性肝癌的病因及确切分子机制尚不完全清楚，目前认为其发病是多因素、多步骤的复杂过程，受环境和因此双重因素影响。流行病学及实验研究资料表明，乙型肝炎病毒（hbv）和丙型肝炎病毒（hcv）感染、黄曲霉素、饮水污染、酒精、肝硬化、性激素、亚硝胺类物质、微量元素等都与肝癌发病相关。由于各种风险因素，不同人群肝癌5年生存率差异较大，平均不到32%。高度异质性的hcc，连同复杂的病因，使得预后预测非常具有挑战性。此外，治疗hcc的策略非常有限，需要额外的迫切需要开发预测患者生存率的工具。

为了解决这些问题，我们在多组学hcc数据集上使用了深度学习计算框架。我们选择autoencoder框架作为多组集成的深度学习的实现。自动编码器的目标是使用非线性函数的组合来重建原始输入，然后这些非线性函数可以用作表示数据集的新功能。这些算法已经被证明是产生与临床结果相关的特征的有效方法。成功地将自动编码技术应用于高维基因表达数据的分析和异质数据的整合。值得注意的是，自动编码转换倾向于聚集具有相似路径的基因，因此使其具有解释生物学功能的吸引力。

我们从tcga多组学队列中的360个hcc样本中获得了该模型，这些样本具有mirna表达、rna表达、cpg甲基化和临床信息。我们发现了两种在存活率上有显著差异的亚型。除临床特征外，这些亚型对患者生存率具有独立的预测价值。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

2. 研究的基本内容与方案

（1）研究内容及目标

从tcga多组学队列中的360个hcc样本中获得了该模型，这些样本具有mrna表达、小rna表达、cpg甲基化和临床信息。发现了两种在存活率上有显著差异的亚型。然后选择autoencoder框架作为多组集成的深度学习的实现。自动编码器的目标是使用非线性函数的组合来重建原始输入，然后这些非线性函数可以用作表示数据集的新功能。这些算法已经被证明是产生与临床结果相关的特征的有效方法。成功地将自动编码技术应用于高维基因表达数据的分析和异质数据的整合。值得注意的是，自动编码转换倾向于聚集具有相似路径的基因，因此使其具有解释生物学功能的吸引力。

剩余内容已隐藏，您需要先支付后才能查看该篇文章全部内容！

3. 研究计划与安排

1-3周：查阅文献，完成开题报告
4-6周：总体设计，完成论文综述
7-10周：设计算法，功能模块设计
11-13周：编码和测试
14-15周：写论文，提交初稿，给老师检查，修改定稿，答辩

4. 参考文献（12篇以上）

1.chaudhary k, poirion o b, lu l, et al. deep learning–based multi-omics integration robustly predicts survival in liver cancer[j]. clinical cancer research, 24(6): 1248-1259, 2017.

2. syafiandini a. et al., cancer subtype identification using deep learning approach[c]. in proc. of 2016 international conference on computer, control, informatics and its applications. ieee, pp. 108-112, 2016.

3.常继伟，一种基于深度神经网络模型及蛋白相互作用预测癌症相关蛋白及蛋白组合的新方法[d].华中农业大学,2018.

剩余内容已隐藏，您需要先支付 10元 才能查看该篇文章全部内容！立即支付

注册

找回密码