MGBERT利用无监督原子表征学习进行

来源：语言识别时间：2023/5/2

导语

今天给大家介绍一篇来自国防科技大学与浙江大学和中南大学合作发表在年05月05日BIB上的一篇文章《MG-BERT:leveragingunsupervisedatomicrepresentationlearningformolecularpropertyprediction》。本文的第一作者是张小琛博士和吴诚堃研究员。主要合作者来自具有深厚AIDD背景的曹东升教授和侯廷军教授。

由于阅读后对编者启发很大，所以分享出来，以飨读者，如有理解不当之处，恳请大家批评指正。

1动机（motivation)

准确有效地预测分子性质是药物设计和发现流程中的基本问题之一。传统的基于特征工程的方法需要在特征设计和选择过程中拥有丰富的专业知识。随着AI的发展，数据驱动的方法在各个领域都展现出相对于基于特征工程的方法无可比拟的优势。然而，现有的AI模型应用于分子性质预测时，人工智能模型通常存在标记数据稀缺且泛化能力差的问题。

在这项研究中，作者通过设计MG-BERT（分子图BERT），它将图神经网络(GNN)的局部消息传递机制集成到当前自然语言处理领域流行的的BERT模型中。同时通过随机MASK部分原子进行有效的自监督训练，以此来挖掘分子中的上下文信息，同时设定GLOBAL节点来获取分子级别的表征，用于下游任务。得益于BERT的自注意力机制，使得提出的模型具有了很强的解释性，基于以上特点，相对于解释性低的模型，该模型更加可靠，更为进一步优化分子结构提供了指导。

2引入（Introduction)

药物发现是一个危险、漫长且资源密集的过程，通常需要大约10-15年时间和数十亿美元投入。为了提高药物发现的效率，人们开发了许多的计算工具来辅助药物研发。在这些方法中，用于准确预测分子特性的计算模型对药物发现过程具有更显着和直接的影响，因为它们可以减轻对耗时和劳动密集型实验的过度依赖，并大大降低支出和时间成本。在此背景下，高精度分子特性预测模型已成为药物发现过程中许多阶段不可或缺的工具，涵盖命中识别、先导优化、ADMET（吸收、分布、代谢、排泄和毒性）特性评估等。

对于分子性质预测任务，输入的分子表示及其重要，但是，当前的分子表征都具有低扩展性和通用性的问题。

近年来，深度学习（DL）方法在许多领域，如计算机视觉（CV），自然语言处理（NLP）等，DL背后的基本原则是：设计一个合适的深度神经网络(DNN)并在大量原始数据上对其进行训练以自动学习表征，而不是依赖于手工设计的特征。

DL的成功，也引起了药物学家在分子预测上使用这一技术的兴趣，许多的研究也被提出，例如将SMILES字符串送入到DNN来学习分子表征用于下游任务。通过序列模型RNN、LSTM、Tansformer等构建预测模型或者通过自编码器学习分子的低维表示用于下游任务；但是，这些模型需要在复杂的SMILES语法中挖掘出分子有用的特征，这就大大的增加了模型学习和泛化的难度。

最近流行的图神经网络(GNN)模型在学习分子图的特征时具有许多优越的性质，将SMILES序列通过RDKit工具构建分子图后，对每个原子、边赋予相关的特征。通过GNN的消息传递机制（MPNN）每个原子都会聚合来自自己邻居的信息，以此来学习各个节点的表征，在分子性质预测时，通过特定的读出函数（readout）获得分子表征，送入到后面的网络（通常是全连接层）进行预测，但是由于GNN的过平滑问题（oversmoothing）GNN并不能训练的很深，因此不能提取到更加高级的特征。

基于以上问题，作者提出了NG-BERT模型，将MPNN机制融合到BERT模型中，即可以提取到更加深层的特征，同时解决过平滑问题，通过BERT的训练策略学习到上下文敏感的原子表示，充分挖掘分子的上下文信息，最后在11个经典的ADME/T任务中达到了SOTA性能。

3数据集与训练

MG-BERT模型的训练过程包括两个阶段：预训练和微调。

在预训练阶段，需要利用大量未标记的分子来挖掘分子中的上下文信息。从ChEMBL数据库中选取了万个化合物作为预训练数据。为了验证预训练模型，在实验中随机保留10%用于预训练评估。训练集中最终包含了万个数据。

在微调阶段，对预训练模型进行进一步训练，用于特定的分子特性预测。从ADMETlab和MoleculeNet[1]收集了16个数据集（8个用于回归，8个用于分类）涵盖了关键的ADMET性质和各种常见的分子特性来训练和评估MG-BERT。这16个数据集的详细信息见表1。这些数据集中的所有分子都以SMILES字符串格式存储。数据集按8:1:1的比例分为训练数据集、验证数据集和测试数据集。使用SMILES长度分层抽样来使数据集拆分更加均匀。

通过统计分析，最终将数据集中包含的原子总结为以下16个：

[H]、[C]、[N]、[O]、[F]、[S]、[Cl]、[P]、[Br]、[B]、[I]、[Si]、[Se]、[UNK]（不常见原子）、[MASK]（MASK原子）、[GLOBAL]（分子图超级节点）。

表1

最初的BERT模型由三个部分组成：一个embedding层、几个Transformer编码器层，以及一个与任务相关的输出层。在embedding层，输入词token通过一个embedding矩阵嵌入到连续的向量空间中。由于Transformer模型无法自动学习位置信息，因此需要在嵌入层中的每个嵌入向量中添加一个预定义的位置编码向量。在Transformer编码器层，每个词token通过全局注意力机制相互交换信息。嵌入层和Transformer层在预训练和微调阶段共享。最后一层一般是全连接神经网络，进一步处理Transformer层的输出，执行特定的分类或回归任务。预训练和微调阶段的最后一层不共享，分别称为预训练头和预测头。关于BERT模型的更多细节在BERT的原始文献中有描述[2]。

与原始的非结构化NLPBERT模型不同，MG-BERT根据分子图的特点做了一些修改。在嵌入层中，单词标记被原子类型标记替换。由于分子中的原子没有顺序相关，因此无需分配位置信息。在自然语言句子中，一个词可能与任何其他词相关，因此需要全局

转载请注明：http://www.0431gb208.com/sjszjzl/4418.html

上一篇文章：百度预训练模型ERNIE超越微软和谷歌中

下一篇文章：没有了