基因数据分析云平台的设计与实现毕业论文

2021-06-24 22:57:44

摘要

随着高通量测序技术的发展，生物信息数据的生产呈现出指数级的增长，对于生物领域的研究人员来说，如何快速及时的对这些数据进行分析成为了一个挑战。为了应对这种挑战，本文提出了一种被大家普遍认可的解决方式，即采用云平台进行数据分析的模式。

本文对于云平台的设计主要针对后端的任务调度，任务计算来进行设计。任务调度设计包括调度节点从前端接收任务，对任务进行模块分解，将分解的模块任务下发到指定计算节点，当任务计算完成时，将任务计算结果反馈信息从计算节点返回给调度节点，最后将任务完成情况返回给前端这一整套流程。任务计算的设计即是对传入的数据进行具体的分析，当任务进行模块分解下发到计算节点后，根据下发的信息进行相应的流程分析。

最终，我们实现了这个云平台系统，当用户选择系统中已有模块进行计算时，系统会自动跑完整个流程。

关键词：云平台；高通量测序；任务调度；任务计算；

Abstract

With the development of high-throughput sequencing technology, bioinformatics data production showing exponential growth, the researchers in the biological field, how fast and timely analysis of these data has become a challenge. To deal with this challenge, we propose a universally accepted by everyone solution, which uses cloud platform for data analysis.

In this paper, the main design is the back-end of cloud platform, and solve the problem of task scheduling and task calculations. Task scheduling design includes scheduling node receive the task from the front end, the tasks module decomposition, sending decomposition task to the specified calculation node, when the task is calculated, and then the task results feedback information returned from the compute nodes to scheduling node, Finally, the completion information of the task back to the front end of this whole process. Task calculation is designed to calculate the incoming data in corresponding analysis, when the task is issued by modular decomposition to compute nodes, according to information issued.

Finally, we finish the cloud system. The cloud system will run the complete process automatically when the user choose the module that exists in the system.

Key Words: cloud computing platform; High-throughput sequencing; task Scheduling; task calculations;

第1章绪论 1

1.1 背景介绍 1

1.2 国内外研究现状 1

1.3 课题研究内容 2

1.4 论文组织结构 2

第2章调度系统设计 4

2.1 调度端设计 4

2.1.1 需求说明 4

2.1.2 任务分解 4

2.1.3 任务下发 7

2.1.4 接收反馈信息 8

2.1.5 其他相关说明 9

2.2 任务调度设计 10

2.2.1调度端 12

2.2.2计算节点端 13

2.2.3 Gearman启动 14

2.3 web service 15

第3章计算节点端分析模块设计 16

3.1 原始测序数据评估 16

3.2 数据比对 16

3.3 基因表达分析 17

3.4 GO分析 17

3.5 KEGG分析 18

第4章文件管理系统与数据库设计 19

4.1 文件管理系统 19

4.1.1简介 19

4.1.2 创建Bucket 19

4.1.3 查看Bucket列表 19

4.1.4 删除Bucket 19

4.2 数据库设计 19

第5章结论与展望 23

5.1 结论 23

5.2 展望 23

参考文献 24

致谢 25

第1章绪论

1.1 背景介绍

随着第二代测序技术的发展与普及，基因组测序数据增长速率开始高于计算机存储计算能力的速率，生物产业对于计算与存储的需求呈现指数级的增长速度^[1]。这种由于不断产生的信息洪流而形成的对计算与存储能力超常规的增长，使得生物数据的计算与存储成为一个急需解决的问题。由于在DNA (deoxyribonucleic acid)测序技术上的重大突破，基因组测序已经成为了医疗中重要的工具^[2]。高度自动化的测序仪每天都产生了数百万兆字节的新数据用于基因检测，如何高效的对这些海量的生物医学数据进行后续分析却成为一个难题。生物医学大数据处理的相关问题已成为生命科学研究发展的重要挑战^[3]。

云计算是一种利用互联网即可随时随地、按需便捷地访问共享资源池的模型，其体系架构可分为三层：核心服务、服务管理和用户访问接口^[4]。将云计算应用在生物技术领域的研究在近两年才开始崭露头角，研究者们利用云计算架构从数据库或其他信息平台获取信息，通过对数据的筛选、计算和分析得到其他方法难于得到或难于快速得到的结论，从而揭示生物系统的代谢机理和规律^[5]。云计算庞大的资源和几乎无限制的运行速度能够很好地解决生物运算中由于计算量过大而造成的组合爆炸等问题，为生物分析提供了一种新的途径方法^[6]。因而，云计算在生物技术领域的应用已经引起了越来越多的关注。

1.2 国内外研究现状

关于基因数据分析云平台这块，由于高通量测序技术的发展，关于基因数据分析云平台在前几年才开始变得火热起来。

2010年，北京市科学技术研究院，北京市计算中心开始着手做的一个云平台，名为biocloud平台。技术实现上主要分为四个层次: 表达层、支撑服务层、中间件层与资源层。用户与BioCloud 门户系统通过HTTP SSL 协议进行交互，前台再通过SOAP 协议与各类服务的守护进程进行通信，服务与资源管理层之间的通信通过应用程序接口( API ) 调用完成，服务与MySQL 数据库之间通过JDBC、Hibernate 及HQL通信，服务与文件系统之间通过LDAP ACL 实现访问控制^[7]。但由于某些问题，现在已经关闭而无法使用。

您需要先支付 80元 才能查看全部内容！立即支付

注册

找回密码