Labfans是一个针对大学生、工程师和科研工作者的技术社区。 | 论坛首页 | 联系我们(Contact Us) |
![]() |
![]() |
#1 |
初级会员
注册日期: 2008-04-03
年龄: 38
帖子: 5
声望力: 0 ![]() |
![]()
选用从基因库GenBank中选择二十条已知编码区和非编码的DNA序列,分别对其进行以下的设计与仿真,将仿真结果与已知的编码区进行对比,若一致则说明此方法准确有效,可以用于预测蛋白质编码区。
1、 将DNA符号序列映射为数值序列 一个基因组序列可以看做是由A,T,G,C四种碱基所构成的符号序列,再对基因组序列进行计算分析之前,先将其转化成数值序列。为了对DNA序列应用功率谱进行分析,可采用下面所述方法将DNA序列转换为数值序列。一个基因组序列在某一个位置j出现某一种核苷酸 这一事件,可以被看作是定义在概率空间上得随即过程 ,其中 ={A,T,C,G},而 。因此,对任意一段DNA序列,都可以把它转化为四个子序列 , , , 。 例如,对任意一段DNA序列AGCAGTACA,本文把它转化为XA, XT, XC, XG,四个子序列,如下: XA=100100101; XT=000001000; XC=001000010; XG=010010000 一个长度为N的子序列 的公里谱为: (1)式中离散频率 , …,N/2; =-1。长度为N的DNA序列总的功率谱为: (2) 2. 方案流程图 DNA序列经过映射把符号序列转换为数值序列后,用傅立叶变换就可得到反映其能量与频率的功率谱。对DNA序列的功率分析很轻易地揭露了蛋白编码区的显著特征,这个特征就是核苷酸序列在f=1/3处有峰值存在,即外显子的三周期特征。根据这一特征,可以用下面一个简单的预测DNA序列编码区的方法: ①将生物的DNA序列映射为数值序列。 ②取分析窗口长度为M,用快速傅立叶变换计算对应窗口DAN序列在f=1/3处的功率谱 ,再以DNA序列被预测区域的第一碱基起,沿DNA序列以步长3滑动窗口,得到得到 相对于DNA序列位置j的函数S(j)(j为长度为M窗口的中间位置)。 ③如果一个窗口的核苷酸序列在f=1/3处有峰值存在,则这段核苷酸序列就构成编码区的一部分,否则就是非编码区的一部分 |
![]() |
![]() |
![]() |
|
|
![]() |
||||
主题 | 主题作者 | 版面 | 回复 | 最后发表 |
[原创]ISAR匀速运动目标R-D算法 | starsky | MATLAB论坛 | 7 | 2011-05-14 22:30 |
扩频通信的载波恢复方法 | winegdsky | MATLAB论坛 | 2 | 2008-12-20 01:19 |
[求助]先求出一个函数的反函数,然后再把未知量的值代入进行运算 | zhanggongrui | MATLAB论坛 | 6 | 2008-10-23 19:39 |
[求助]如何把matlab建立的曲面导入到solidworks里? | 心际依然 | MATLAB论坛 | 1 | 2008-04-24 09:56 |
[求助]matlab画曲面图的自变量取值问题 | 心际依然 | MATLAB论坛 | 5 | 2008-04-20 17:18 |