预训练语言模型邵浩（预训练语言模型邵浩刘一烽 pdf）

大家好，我是讯享网，很高兴认识大家。

以GPT模型为代表的生成式语言模型通过对海量文本的学习，具备了生成和理解复杂语言的能力，深刻的变革了自然语言处理领域。人类的语言和生命的语言DNA本质上都是序列信息。基于这种相似性，语言模型也在基因组学领域得到一系列应用，比如进行功能基因标注或调控片段预测等。但已有的DNA语言模型多是采用BERT架构，利用类似于完形填空的方式进行训练，虽然能够理解DNA序列，但难以像GPT模型那样创造性地生成全新序列。同时这些模型的输入窗口较为狭窄，一次只能处理较短的DNA片段，难以对完整基因组进行分析。

2024年10月30日，北京理工大学邵斌教授课题组在Nature Communications杂志上发表了题为： A long-context language model for deciphering and generating bacteriophage genomes  的最新研究成果， 实现了首个生成式DNA大语言模型，megaDNA。 该模型利用无标注的噬菌体（专门感染细菌的病毒）基因组数据进行预训练，不仅能准确预测噬菌体的必需基因，更能够生成长达10万碱基对的崭新基因组片段——即像写作自然语言一样生成DNA序列。另外，模型在学习过程中获得的深层信息（embedding），还能应用于蛋白质功能预测、基因调控研究，以及无标注DNA片段分类等多个下游任务。

研究者在NCBI GenBank等公开数据库收集了约10万个高质量噬菌体完整基因组作为训练数据。在分词环节没有采用传统的BPE分词器，或者以k-mer方式将DNA切成小片段，而将每个碱基看作独立的文字单元（token），避免了分词环节可能带来的偏差，同时可以使语言模型学习到单碱基精度的DNA调控和设计信息。在模型架构上借鉴了Meta公司开发的多层transformer架构，每层注意力机制用以处理不同精度的DNA信息，克服了传统transformer模型只能处理短序列的限制。最终模型使用了三层transformer结构，包含1.5亿个参数。可以一次性分析长达10万个碱基的序列，足以覆盖多数噬菌体的完整基因组。

研究者假设DNA大语言模型在训练过程中掌握了噬菌体基因组设计的一般准则，对基因组序列的评分（模型损失）能够反映其生物学适应性。为验证这一想法，针对lambda噬菌体基因组进行了基因敲除的模拟实验，对基因组不同位置片段进行突变，利用语言模型计算序列损失，并与实际的CRISPR 基因敲除实验结果进行直接比对。计算发现模型预测的高突变损失区域与实验验证的必需基因高度重合，相应的预测准确度（AUROC）达到0.86。这一结果表明即便没有经过专门的训练和微调，大语言模型通过对大量噬菌体基因组的无监督学习，能够准确识别出其中的必需基因，展现了语言模型在基因组分析上的应用潜力。

另外模型在学习过程中获取的DNA序列信息（即隐含层表示，embedding）能够应用于一系列的下游预测任务。比如在蛋白质突变效果预测上，模型表现和专业工具DeepSequence接近，甚至能够准确预测训练数据中没有出现过的细菌蛋白对应的突变效果。另外在5端非翻译区（5’UTR）转录活性的预测上，预测结果与实验数据的相关系数达到了0.8以上。最后模型的隐含层表示可以针对未标注DNA序列进行分类，构建的简单分类模型针对噬菌体，细菌和古菌序列得到了较高的准确度（AUROC为0.98）。

以GPT为代表的生成式语言模型最重要的能力之一是产生全新的具有丰富内涵的文字序列。研究者利用megaDNA模型生成了一千条崭新的基因组序列，并利用软件geNomad对序列进行系统评估。这些人工生成的基因组序列平均长度为4.3万碱基对，包含67个预测基因，这些特征与训练数据中的真实噬菌体基因组高度相似。其中22%的序列被识别为有尾噬菌体目（Caudoviricetes）。在表达调控方面，这些序列具有完整的可能发挥功能的基因表达系统，包括典型的细菌启动子序列（-35和-10区），其5端非翻译序列的转录活性显著高于随机DNA。同时在起始密码子ATG前具有富含A和G碱基的核糖体结合位点（RBS）。通过EMSFold进行结构预测，发现这些预测基因能够形成有效的蛋白质折叠结构。在功能方面，预测基因编码了噬菌体所需的关键功能蛋白，涵盖尾部结构、DNA代谢、头部组装以及细胞裂解等功能。值得一提的是，这些生成的基因组序列以及预测基因跟已有的训练数据具有极低的序列相似性。

综上所述， 该研究展示了生成式语言模型在基因组序列分析和生成上的巨大潜力，为噬菌体基因组注释和功能序列设计开辟了全新的路径。 虽然目前生成的基因片段还未能实现噬菌体的完整生命功能（如有效自我复制）。但该工作以及后续工作为从头设计以噬菌体为代表的生物体完整基因组提供了新的基础，有望在医疗、农业、食品安全等多个领域取得广泛应用。

北京理工大学邵斌教授（前Broad Institute计算科学家）为文章的第一作者兼通讯作者。上海独立研究者闫嘉伟博士为该工作提供了重要支持。

邵斌课题组从事人工智能与生命科学交叉方向研究，拟每年招收硕士，博士研究生及访问学生，欢迎具有深度学习，物理学或相关交叉学科背景的学生加入，如有意向请投递简历，包含学习，工作经历以及主要研究内容，该招聘长期有效。

简历投递（有意者请将个人简历等材料发至）：

https://jinshuju.net/f/ZqXwZt 或扫描二维码 投递简历