LZ复杂度在生物进化分析中的应用研究.doc

  • 需要金币1000 个金币
  • 资料包括:完整论文
  • 转换比率:金钱 X 10=金币数量, 即1元=10金币
  • 论文格式:Word格式(*.doc)
  • 更新时间:2018-12-19
  • 论文字数:8390
  • 当前位置论文阅览室 > 原创论文 > 文献综述 >
  • 课题来源:(Yangbaobao)提供原创文章

支付并下载

摘要:经历生物数据爆炸时期的我们,如何对这样大量的信息进行研究学习,是一个很大的难题,所以我们就应该要去找出能解决这个问题的办法。对于这样复杂而且数量巨大的生物数据,以前的传统方法已经不能够满足统计分析这些数据的需求了。生物信息学就产生在这样的环境里了。

本文中,我们提出了k字间隔序列的概念来反映k字在DNA序列中的分布情况,并将k字间隔序列的Lempel-Ziv(LZ)复杂度作为k字特征,构建了一个4k维的特征向量,通过欧式距离构建距离矩阵,并通过邻接法构建了三组数据的进化树。当k的取值从2到7时,我们分别构建了进化树,通过比较发现k的值取7时,构建的进化树比较可靠。通过与经典结果进行比较,说明了我们方法的有效性。

 

关键词:k字;LZ复杂度;进化树

 

目录

摘要

Abstract

1.1 生物信息学产生的背景-3

1.1.2 生物信息学的定义-3

1.2 生物信息学的研究对象和发展-3

1.2.1 生物信息学的研究任务与发展前景-3

1.2.1 核酸-4

1.2.2 DNA-4

1.2.3 RNA-4

2  进化树构建方法-5

2.1比对方法-5

2.2非比对方法-6

2.2.1 图形表示模型-6

2.2.2信息复杂度模型-8

2.3  进化树构建方法-9

2.3.1 基于距离构建法-10

3 基于LZ复杂度的进化树构建-11

3.1 数据集介绍-11

3.1.1  30种哺乳动物线粒体基因-11

3.1.2 24种脊椎动物的转铁蛋白-14

3.1.3 48种戊型肝炎病毒-16

3.2 信息提取方法介绍-19

3.3 构建的进化树-19

结    论-23

参 考 文 献-23

致    谢-24