登录

  • 登录
  • 忘记密码?点击找回

注册

  • 获取手机验证码 60
  • 注册

找回密码

  • 获取手机验证码60
  • 找回
毕业论文网 > 毕业论文 > 电子信息类 > 电子信息工程 > 正文

基于Java的SNP数据分型算法的设计与实现毕业论文

 2021-05-15 11:05  

摘 要

基因分型(Genotyping)是利用生物学检测方法测定个体基因型(Genotype)的技术。通过对SNP基因分型进行研究,希望能够从根本上解决疾病,保障人们的生命安全和身体健康,促进人类社会的进步。

本文主要研究实现SNP数据的分型,需进行简单的数据文件的读取,预处理与基于距离的分型算法的设计,最后编程实现简单的数据预处理与分型程序。实验数据来源于昂飞公司的SNP6.0芯片数据,使用SDK读取基因数据,CEL、cdf文件作为输入;将读出的SNP强度数据进行中值滤波处理,去除人为设定的范围外的数据,得到更具有生物学意义的基因数据,进行对数操作,将处理后的数据在坐标系上显示;计算各点到对角线的距离a,根据人为设定的基因型浓度计算出该浓度时的该点到对角线的距离b1、b2(分别对应杂合子、纯合子)。如果a小于或等于b1,则基因型为杂合子AB;如果a大于b2,则基因型为纯合子AA或BB;靠近等位基因A浓度坐标轴的点基因型为AA,靠近等位基因B浓度坐标轴的点基因型为BB。此次研究实现了对SNP数据文件的读取和简单的预处理,并将预处理后的数据显示在坐标系上,通过计算点到对角线间的距离实现了SNP的分型。

关键字:SNP分型;SDK读取基因数据;分型算法

Abstract

Genotyping (Genotyping) is using biological detection method was developed for the determination of individual genotypes (Genotype) technology. Through the SNP genotyping, hope to be able to fundamentally solve the disease, safeguard people's life safety and body health, promote the progress of human society.

This paper mainly studies of SNP data classification, need a simple data file is read, pretreatment and the design of the classification algorithm based on distance, simple data preprocessing and classification is realized by programming. Experimental data from the flying company SNP6.0 chip data, using the SDK read gene data, CEL, CDF file as input; Will read out the intensity of SNP data processing, median filtering to remove artificial outside the scope of the data, get more biological significance genetic data, logistic operation, after processing the data displayed on the coordinate system; Point a, the distance to the diagonal is calculated based on the artificial genotype concentration calculated when the concentration of the distance to the point at which a diagonal b1, b2 (heterozygous and homozygous) respectively. If a is equal to or less than b1, for heterozygous genotype AB. If a is greater than the b2, homozygous genotype of AA and BB; Near the allele A concentration axis point to AA genotype, near the allele B concentration axis point for BB genotype. The study realized the SNP data file reading and simple pretreatment, and the data display on the coordinate system after pretreatment, through calculating the distance between points to the diagonal realized SNP.

Key words: SNP parting; SDK read gene data; classification algorithm

目录

第1章 绪论 1

1.1国内外研究现状 1

1.2目的意义 1

1.3课题研究内容及预期目标 1

1.3.1 课题研究内容 1

1.3.2 预期目标 2

第2章 理论准备 3

2.1基因分型 3

2.1.1 SNP 3

2.1.2 基因分型原理 3

2.1.3 基因分型常见方法 4

2.2 java语言面向对象思想 5

第3章 基因分型算法的实现 7

3.1 整体流程 7

3.1.1 读取数据模块: 8

3.1.2 数据预处理模块: 11

3.1.3 基因分型算法模块 13

3.1.4 确定基因型模块 15

3.3 生成数据文件及散点图 16

3.3.1 生成数据文件 16

3.3.2 生成散点图 21

第4章 问题的发现与解决 25

第5章 论文总结 28

致谢 29

参考文献 30

第1章 绪论

1.1国内外研究现状

在2002年10月,国际单倍型图谱计划(Haplotype Map Project)正式启动,这是一种单倍型图谱计划,用于研究SNP,也是一种用来找寻已作标示的SNP遗传变异图谱计划,具有广泛的国际性。在2003年,“国际单倍型图谱计划”十分之一的任务有中国进行负责并执行[1]。从这一点可以体现出,我国在研究基因领域方面的能力的不断提高,以及,巨大地提升了我国在国际范围内的学术地位,尤其是在生命科学方面的地位。开始这样的计划,会帮助人类更快的、更精确的找到导致人患病的基因。人不人之间的基因序列具有高度的一致性,但是仍有些许不同,体现在碱基的排列顺序上,就是这一点使得人类的遗传具有多态性。HapMap计划就是研究这0.1%差异的排列顺序[2]

在2000年4月,我们建立了JSNP数据库,目标是要建立多态性的分析工具。截至到2002年夏季,就已发现了190562个遗传变异[3]

您需要先支付 80元 才能查看全部内容!立即支付

企业微信

Copyright © 2010-2022 毕业论文网 站点地图