同源性来确定进化的时间序列,也是功能结构相似性的概率
蛋白质结构和功能预测是序列的遍历和升维,首先是特定模块的寻找,然后是组合和组合的模式寻找,然后有多层次的耦合,即对网络的筛选。最后我们可以对生物发育机理、代谢过程和疾病认识加深。
数据增长的摩尔定律,指数级增长---数据管理,解读,利用
(1)新算法和统计学方法研究;(2)各类数据的分析和解释;(3)研制有效利用和管理数据新工具。---预测
序列的聚类,此时视为节点,我们网络的平均距离是收敛的
不同匹配度的序列的功能是相应的离散状态
分子序列构建数,然后利用序列的相似性耦合起来,形成网络结构
从数据的积累转向数据的解释,如同从简单的加减乘除上升到微积分,同时也可以视为简单的图灵机
对从自动测序仪中出来的序列的处理是一种黑箱处理,借鉴当初中医对人体这个黑箱各种理论的探讨:阴阳,五行,经络,气血等等理论,我们寻找的序列匹配理论不也一样?当然它们的进化速度不一样
不同层次的频率的分布函数,如碱基频率在基因区域,重复序列区域是不同的:碱基相邻的频率不是独立的。碱基相邻(两个,三个……)的频率一般不等于单个碱基频率的乘积。频率比对。密码子的对应:不同氨基酸对应的密码子的数目不同,由于密码子第3位置上碱基的改变常常不会改变氨基酸的类型,则其收敛范围为3。这也是马尔科夫链的机制:第k阶马尔科夫链假定在序列中某一位置上碱基的存在只取决于前面k个位置上的碱基
重复序列也是一种模块