h404249623
2008-04-06, 13:11
选用从基因库GenBank中选择二十条已知编码区和非编码的DNA序列,分别对其进行以下的设计与仿真,将仿真结果与已知的编码区进行对比,若一致则说明此方法准确有效,可以用于预测蛋白质编码区。
1、 将DNA符号序列映射为数值序列
一个基因组序列可以看做是由A,T,G,C四种碱基所构成的符号序列,再对基因组序列进行计算分析之前,先将其转化成数值序列。为了对DNA序列应用功率谱进行分析,可采用下面所述方法将DNA序列转换为数值序列。一个基因组序列在某一个位置j出现某一种核苷酸 这一事件,可以被看作是定义在概率空间上得随即过程 ,其中 ={A,T,C,G},而 。因此,对任意一段DNA序列,都可以把它转化为四个子序列 , , , 。
例如,对任意一段DNA序列AGCAGTACA,本文把它转化为XA, XT, XC, XG,四个子序列,如下:
XA=100100101; XT=000001000; XC=001000010; XG=010010000
一个长度为N的子序列 的公里谱为:
(1)式中离散频率 , …,N/2; =-1。长度为N的DNA序列总的功率谱为: (2)
2. 方案流程图
DNA序列经过映射把符号序列转换为数值序列后,用傅立叶变换就可得到反映其能量与频率的功率谱。对DNA序列的功率分析很轻易地揭露了蛋白编码区的显著特征,这个特征就是核苷酸序列在f=1/3处有峰值存在,即外显子的三周期特征。根据这一特征,可以用下面一个简单的预测DNA序列编码区的方法:
①将生物的DNA序列映射为数值序列。
②取分析窗口长度为M,用快速傅立叶变换计算对应窗口DAN序列在f=1/3处的功率谱 ,再以DNA序列被预测区域的第一碱基起,沿DNA序列以步长3滑动窗口,得到得到 相对于DNA序列位置j的函数S(j)(j为长度为M窗口的中间位置)。
③如果一个窗口的核苷酸序列在f=1/3处有峰值存在,则这段核苷酸序列就构成编码区的一部分,否则就是非编码区的一部分
1、 将DNA符号序列映射为数值序列
一个基因组序列可以看做是由A,T,G,C四种碱基所构成的符号序列,再对基因组序列进行计算分析之前,先将其转化成数值序列。为了对DNA序列应用功率谱进行分析,可采用下面所述方法将DNA序列转换为数值序列。一个基因组序列在某一个位置j出现某一种核苷酸 这一事件,可以被看作是定义在概率空间上得随即过程 ,其中 ={A,T,C,G},而 。因此,对任意一段DNA序列,都可以把它转化为四个子序列 , , , 。
例如,对任意一段DNA序列AGCAGTACA,本文把它转化为XA, XT, XC, XG,四个子序列,如下:
XA=100100101; XT=000001000; XC=001000010; XG=010010000
一个长度为N的子序列 的公里谱为:
(1)式中离散频率 , …,N/2; =-1。长度为N的DNA序列总的功率谱为: (2)
2. 方案流程图
DNA序列经过映射把符号序列转换为数值序列后,用傅立叶变换就可得到反映其能量与频率的功率谱。对DNA序列的功率分析很轻易地揭露了蛋白编码区的显著特征,这个特征就是核苷酸序列在f=1/3处有峰值存在,即外显子的三周期特征。根据这一特征,可以用下面一个简单的预测DNA序列编码区的方法:
①将生物的DNA序列映射为数值序列。
②取分析窗口长度为M,用快速傅立叶变换计算对应窗口DAN序列在f=1/3处的功率谱 ,再以DNA序列被预测区域的第一碱基起,沿DNA序列以步长3滑动窗口,得到得到 相对于DNA序列位置j的函数S(j)(j为长度为M窗口的中间位置)。
③如果一个窗口的核苷酸序列在f=1/3处有峰值存在,则这段核苷酸序列就构成编码区的一部分,否则就是非编码区的一部分