关于序列类论文范文资料,与深圳杯数学建模夏令营文集相关本科毕业论文
本论文是一篇关于序列类本科毕业论文,关于深圳杯数学建模夏令营文集相关毕业论文开题报告范文。免费优秀的关于序列及数学建模及生物学方面论文范文资料,适合序列论文写作的大学硕士及本科毕业论文开题报告范文和学术职称论文参考文献下载。
40;局部性和全局性的特征.我们给出厂衡量分类方法优劣的标准,即在满足一定限制条件的情况下.是否能充分反映序列的各方面特性.
依据我们提出的判别标准.单一标准的分类是无法满足要求的,我们的方法是侧重点不同的三种方法的综合集成.这三种方法分别体现了序列中元素出现的概率,序列中元素出现的周期性,序列所带有的信息含量.利用这个方法.完成了对未知类型的人工序列及自然序列的分类工作.最后.对分类模型的优缺点进行了分析,并就模型的推广作了讨论.
1问题的提出(略)
2问题的分析
这是一个比较典型的分类问题,为了表述的严格和方便,我们用数学的方法来重述这个问题.已知字母序列其中,有字符序列集合A,B,满足并当时,现要求考虑当与集合A及集合B的关系.
在这里,问题的关键就是要从已知的分好类的20个字母序列中提取用于分类的特征.知道了这些特征,我们就可以比较容易的对那些未标明类型的序列进行分类.下面我们将首先对用于分类的标准问题进行必要的讨论.
3分类的标准及评价
首先,我们提取的特征应该满足以下两个条件:
(1)所取特征必须可以标志A组和B组.也就是说,我们利用这些特征应该可以很好的区分已经标示分类的20个序列.这是比较显然的一个理由.
(2)所取特征必须是有一定的实际意义的
关于序列类论文范文资料
对于这样的一个复杂的分类问题,需要考虑的因素很多,也是就说,可供我们使用的分类特征有许多.如何从众多的因素中提取分类的主要因素,是我们处理这个问题的困难之处.上面的第一个条件是我们的分类方法所必须满足的,可以看作是个限制条件,而第二个条件是我们在设计分类方法时必须考虑到的,可以看作是对分类方法优劣的一种衡量,是某种意义下的目标函数.
4模型的建立及分析
由上面的分析可知,由于DNA序列本身的复杂性,我们很难在不知道确切的分类标准的情况下,使用单一的方法来处理这个分类问题.由于,DNA序列同时具有局部性和全局性的特征,我们尝试综合使用几种设计思想不同的方法来处理这个问题,以使该分类方法具有好的分类性能和相当的健壮性.
下面我们先从不同的角度出发,提出三种侧重点不同的分类方法,第一种从频率角度出发,第二种从字母出现的周期性的角度出发,第三种从序列所带的某方面的信息量出发,并给出它们单独使用时的分类结果.我们认为,这三方面综合考虑,可以较好的体现出序列各个方面的特征,最后,从这三种方法出发,得到一个综合系统的分类方法,并利用它得到了最终的182个序列的分类结果.
方法1基于字母出现频率
不同段的DNA中,每个碱基出现的概率并不相同,从生物理论中,我们知道,编码蛋白质的DNA中G,C含量偏高,而非编码蛋白质的DNA中A,T含量偏高.因此,A,G,T,C的频率中会含有很多的信息,下面给出A,B组的频率统计.见表1,表2(略).
由统计的数字可以看出,A组的碱基构成与B组的碱基构成有较大的不同.A组的G含量较高,B组的T含量较高.为做定量化的分析,引入数学中的内积概念,即将A,T,G,C的频率分别作为四维向量的四个分量(),现在我们得到两组向量,然后将未知的序列21~40作为一个新的向量C,要将它归人A组或B组,我们可以尝试在Hilbert空间中将向量归一化后求C与A组和B组的平均距离.记,,为归一化后的向量.为此,我们计算内积和,其中内积定义为欧氏度量引导出的内积(c1,c2,c3,c4).(a1,a2,a3,a4)等于clal+c2a2+c303+c4a4.即
内积小的两个序列,我们可以认为它们的相关性小,而内积大的序列,我们就认为其相关性大.因此,如果则认为C应归人A类,否则认为它应归人B类.
由此,我们找到了区分C组的一种方法,这种比较的方法,我们可以归纳为一个目标函数F1(l),即
表3
未知的序号与A组的内积与B组的内积属于的类型未知的序号与A组的内积与B组的内积属于的类型1
2
3
4
5
6
7
8
9
100.815781
0.926922
0.939727
0.788524
0.948194
0.801201
0.953019
.0746071
0.931007
0.8977740.938814
0.803952
0.656827
0.937135
0.772076
0.930121
0.76695
0.968035
0.613193
0.844082B
A
A
B
A
B
A
B
A
A11
12
13
14
15
16
17
18
19
200.852231
0.866976
0.860955
0.961689
0.960322
0.904282
0.944724
0.75862
0.885631
0.755840.920957
0.853967
0917122
0.67678
0.739089
0.747578
0.723664
0.954652
0.811837
0.941B
A
B
A
A
A
A
B
A
B
方法一讨论这种方法是从概率统计的角度分析问题,通过对每个字母出现频率的计算,找出A,B两类DNA链中的频率特性,建立四维向量空间,然后对待求分类的序列统计频率,与已知分类的向量进行内积运算,找出量化的关联性,从而将其分类.但这种方法也有其局限性,在统计字母出现的频率时,忽略了字母所在位置以及各个字母之间的相互关系,造成用这种方法对已知分类的序列进行检验时,个别频率特性不明显的序列不太容易分类.所以,这种方法虽然有其科学性,但还不够完善,不能完全体现序列的所有特征.
方法二基于字母出现周期性
在以上进行了基于字母出现频率的分类之后,我们认为,一个序列所含的信息远不止每个字母出现的频率,还有字母出现和它前后若干个字母的相关联性,字母在序列中出现的规律性等等.前一个问题我们留到下面讨论,现在我们想办法处理后一个问题.
对于某单个字母,以d为例,假设它在序列中第九,扎.等,扎+,,个位置出现,我们试图找出这些数字之间的关联.首先,可以认识到考查乙的分布及绝对值是意义不大的,因为序列是一大段DNA中的一'个片断,片断的起始段不同会导致乙的不同.于是为了抵消打的线性位移,考虑下面一组值
即字母"出现的间距.
可以看出,序列的大小包含的信息是"的"稠密度",也可看成一个与频率有关的量,前面已经处理过.所以我们可以考虑序列的波动幅度,幅度越小,说明的值越趋于统一,即a的出现周期性越大.而表征波动幅度的量在统计·中是中心矩.现求,,的二阶中心矩,即方差.
同理,可以求出Varg,,Vart,,Varc,
由所得数据知,对Varg与Vart,上述方法对A,B组的区分率很高,就有良好的可分辨性.为了强调这种特征的显着性,我们用F2等于Varg/Vart作为这种方法的目标函数.
由图1可以看出点与原点连线的斜率在A组中和B组中有显着差别,根据这个特征,A组和B组可以很好地区分开来.并且较
关于序列类论文范文资料,与深圳杯数学建模夏令营文集相关本科毕业论文参考文献资料: