蛋白质的三维结构直接决定其生物学功能,而通过实验手段解析结构往往耗时耗力。蛋白质结构预测技术则能基于氨基酸序列,通过计算生物学方法快速推断其三维构象,已成为现代生命科学研究中不可或缺的工具。以下是目前主流的预测方法与权威开放数据库/工具:
一、主流预测方法
1. 同源建模(Homology Modeling)
- 原理:基于“序列相似→结构相似”的原则,以已知结构的同源蛋白作为模板,通过序列比对构建目标蛋白的三维模型。
- 适用场景:目标蛋白与已知结构蛋白的序列一致性 > 30%,是目前最成熟、准确度最高的预测方法之一。
- 代表工具:SWISS-MODEL、Modeller。
2. 穿线法(Threading / Fold Recognition)
- 原理:当目标蛋白无明显同源模板时,将其序列“穿”入已知的蛋白折叠骨架中,评估匹配度以选择最优折叠模式。
- 适用场景:序列一致性 < 30%,用于识别远缘同源蛋白的折叠类型。
- 代表工具:Phyre2、I-TASSER。
3. 从头预测(Ab initio / De novo Prediction)
- 原理:不依赖已知模板,仅通过物理化学能量函数和构象采样,直接从序列预测蛋白的天然构象。
- 适用场景:无同源模板的全新蛋白,目前主要适用于小分子量蛋白(<100 个氨基酸)。
- 代表工具:Rosetta、QUARK。
4. AI辅助预测(AI-based Prediction)
- 原理:利用深度学习模型从海量已知结构数据中学习序列-结构映射关系,实现高精度、高通量的结构预测。
- 适用场景:几乎所有蛋白,尤其适合无同源模板的“暗物质”蛋白。
- 代表工具:AlphaFold2、RoseTTAFold。
二、权威开放数据库与工具 1. AlphaFold Protein Str
