【蛋白质设计】酶与底物特征提取方法总结
酶与底物数据主要来源于蛋白质和化合物数据库。酶数据可从UniProt获取序列信息,PDB获取3D结构,BRENDA获取动力学参数;底物数据可通过PubChem和ChEMBL查询化学结构与活性信息。特征提取方面,酶特征包括序列编码(如One-Hot)、结构参数和理化性质;底物特征包括分子指纹、图网络嵌入和3D描述符。常用工具包括ESM、RDKit等,适用于酶工程优化和药物开发。数据清洗和可视化是重要
1. 酶与底物数据来源
1.1 酶数据来源
酶数据来源: 酶数据主要来自蛋白质数据库,焦点是序列、3D结构和功能信息。
- UniProt:全面蛋白质数据库,提供酶序列、功能注释、相互作用和通路信息。适合初学者查询特定酶(如ID: P12345)。
访问:https://www.uniprot.org/,支持FASTA格式下载。 - PDB (Protein Data Bank):专注于酶的3D结构数据(如晶体结构),有助于理解催化机制。
访问:https://www.rcsb.org/,下载PDB文件。 - BRENDA:酶专属数据库,包含酶-底物动力学数据(如Km值)、抑制剂和来源,从文献挖掘而来。
访问:https://www.brenda-enzymes.org/,通过KENDA工具自动化提取。
1.2 底物数据来源
底物数据主要来自化合物数据库,焦点是化学结构、生物活性和安全性。
- PubChem:免费化合物库,提供底物SMILES、3D结构、生物活性数据。适合搜索特定底物(如D-glucose)。
访问:https://pubchem.ncbi.nlm.nih.gov/,支持批量下载。 - ChEMBL:药物相关数据库,包含底物与酶的交互数据、生物活性(如IC50)和药理信息。
访问:https://www.ebi.ac.uk/chembl/。
2. 酶与底物特征提取
酶与底物特征提取是酶工程的核心步骤,用于将生物/化学数据转化为数值向量,便于机器学习预测交互、催化活性等。作为新手,可理解为“量化”酶(蛋白质)和底物(化合物)特性。
2.1 酶特征提取(主要针对蛋白质序列/结构)
序列-based:One-Hot编码(氨基酸二进制表示);氨基酸组成(AAC,比例统计);预训练模型如ESM(生成嵌入向量,捕捉进化信息,文件示例输出320维张量)。
结构-based:二级结构比例(如螺旋/片层,从PDB提取);功能基序扫描。
理化-based:疏水性、电荷等属性(AAindex数据库)。
工具:ESM、iFeature、Biopython。
2.2 底物特征提取(主要针对SMILES/3D结构)
指纹方法:Morgan指纹(圆形子结构比特向量,示例1024维);MACCS键(166位功能团)。
编码方法:One-Hot(原子类型矩阵)。
图神经网络:MPNN/GCN(分子图嵌入,320维)。
3D方法:分子描述符(形状/惯性矩,RDKit计算);Coulomb矩阵(静电交互特征值)。
工具:RDKit、PyTorch Geometric。
这些方法常结合使用(如ESM+RDKit),应用于酶优化或药物设计。强调清洗数据(如标准化SMILES)和可视化(如t-SNE聚类)。
更多推荐
所有评论(0)