准确率达 97%!普林斯顿大学等提出 MOFSeq-LMM,高效预测MOFs能否被合成

金属有机框架(Metal–Organic Frameworks, MOFs)因其高度可调的孔结构和丰富的化学功能性,在气体存储、分离、催化以及药物传递等应用中展现出巨大潜力。然而,MOFs 庞大的设计空间涵盖了数万亿种可能的构建模块组合,仅依靠实验探索效率极低。

为了加速 MOFs 的发现,计算流程应运而生,旨在生成新型 MOFs、预测其性质,并最终实现合成。在这一过程中,主要挑战集中于「筛选到合成」的低转化率,这在很大程度上源于计算机生成 MOFs 的合成可行性存在不确定性。例如,到目前为止已发表的数千个计算 MOFs 筛选中,仅约十余个伴随有 MOFs 合成。

自由能是评估 MOFs 热力学稳定性和可合成性的重要指标,但传统的计算方法在大规模 MOFs 数据集上代价高昂,难以支持快速筛选。针对这一挑战,来自普林斯顿大学和科罗拉多矿业学院的联合研究团队提出了一种基于机器学习的高效预测方法,利用大语言模型(LLM)直接从 MOFs 的结构序列预测自由能,从而显著降低计算成本,实现高通量、可扩展的 MOFs 热力学评估。该模型在无需重新训练的情况下,展现出极高的通用性:其在判断 MOFs 自由能是否高于或低于基于经验的合成可行性阈值时,F1 值高达 97%。

相关研究成果以「Highly Accurate and Fast Prediction of MOF Free Energy via Machine Learning」为题,已刊登 ACS Publications。

研究亮点:

* 基于该模型进行自由能预测,研究人员能够在无需重新训练的情况下,高精度地模拟完整分子模拟的结果,从而判断 MOFs 的合成可行性。

* 过去需要在实验室或通过分子模拟耗费大量时间的工作,如今耗时可忽略不计。

* 该方法为在基于性能的计算 MOFs 筛选中,将机器学习自由能预测作为早期或后期筛选工具提供了可行途径。

论文地址:
https://pubs.acs.org/doi/10.1021/jacs.5c13960
关注公众号,后台回复「自由能预测」获取完整 PDF

更多 AI 前沿论文:

https://hyper.ai/papers

MOFMinE:涵盖 100 万个 MOFs 原型

为了支撑模型训练,研究团队构建了一个规模庞大的 MOFs 数据集 MOFMinE,涵盖约 100 万个 MOFs 原型,包含了从构件选择、拓扑模板映射到功能化修饰的全流程信息,如下图:


MOFMinE 数据集的构建与表征概览,包含约 100 万个结构

构建方法

数据集生成基于 ToBaCCo-3.0 平台,每个 MOF 的生成方法是将组成构建单元映射到经过适当缩放(以匹配构建单元尺寸)的拓扑模板上,该模板指导了构建单元在 MOFs 晶胞中的空间排列和连接方式。ToBaCCo 构建单元根据其映射位置分为结点型(NBBs)或边型(EBBs):结点型构建单元映射到模板顶点,边型构建单元映射到模板边。NBB 可分为无机或有机类型,其中无机 NBB 对应所谓的 MOF 二级构建单元(SBU),有机 NBB 与 EBB 结合形成 MOFs 连接体。

数据规模与多样性

MOFMinE 包含 1,393 种拓扑模板、27 种无机 NBB、14 种有机 NBB 和 19 种基础 EBB,并涵盖 13 种功能化修饰,保证了化学和拓扑结构的多样性。数据库的孔隙率(void fraction)范围从 0.01 到 0.99,比表面积(GSA)从 26 到 8382 m²/g,最大孔径(LPD)从 2.6 到 127.7 Å,充分覆盖 MOFs 的结构空间。

自由能子集

在这 100 万个 MOFs 原型中,有一个子集共 65,574 个结构收集了自由能数据。该子集包含 379 个拓扑模板、6 个无机 NBB、11 个有机 NBB,以及 12 个基础 EBB,具有 13 种官能化修饰。子集的孔隙性质为:Vf 在 0.01 至 0.97 之间,GSA 在 38 至 7304 m²/g 之间,LPD 在 2.6 至 87.8 Å 之间。该数据集用于 LLM 的自由能预测微调和测试。

用于高效预测 MOFs 自由能的 MOFSeq-LMM 模型

在 MOFMinE 数据集的支撑下,研究团队构建了 MOFSeq-LMM 模型框架,用于高效预测 MOFs 自由能,并实现从结构到性质的全流程数据驱动设计。该框架的核心思想是将 MOFs 的结构信息转化为计算机可理解的序列表示(MOFSeq),并结合大语言模型进行学习和预测,从而在保留物理化学信息的同时显著降低计算成本。

MOFSeq 表征

为克服现有表示策略的局限,并充分利用大型语言模型进行广泛的 MOF 性质预测,研究人员开发了 MOFSeq。这一新型基于字符串的序列表示方法,既紧凑又高度信息化,以优化的方式编码 MOFs 的局部与全局结构特征,使语言模型能够高效且可扩展地处理。

在 MOFSeq 中,局部信息主要包括构建单元的原子组成及其内部连接信息;全局信息主要包括 MOFs 构建单元的高层次描述及构建单元之间的连接模式。局部信息通过 MOFid 工具获取,而全局信息则依赖 ToBaCCo-3.0,如下图:

MOFSeq 的示意图

MOFs 数据库构建与数据处理

基于上文所述的方法构建 MOFMinE 数据集后,所有由 ToBaCCo 生成的 MOF 原型均使用 LAMMPS(2020 年 10 月 29 日版本)中的 UFF4MOF 力场进行优化,以得到最终的 MOFs 结构。

使用 ToBaCCo-3.0 生成的数据集仅包含 MOFname 及其对应的 CIF 文件,作为每个 MOF 的表示。然而,MOFSeq 需要同时包含 MOFname 和 MOFid。为获得 MOFid,研究人员使用 Bucior 等人开发的 MOFid 生成器,该生成器可根据 MOF 的 CIF 结构同时生成 MOFid 和 MOFkey。

最终,793,079 个 MOFSeq 预训练样本被划分为训练集 634,463 个、验证集 79,308 个和测试集 79,308 个。54,443 个 MOFSeq 微调数据点被划分为训练集 43,554 个、验证集 5,444 个和测试集 5,445 个。

LLM-Prop 模型设计

在 MOFSeq 表征基础上,研究团队采用了 LLM-Prop,这是一种专为材料性质预测设计的大语言模型。LLM-Prop 模型规模相对适中,约 3,500 万参数,既保证了学习能力,又兼顾计算效率。模型输入长度设为 2,000 tokens,能够容纳大部分 MOFs 的结构序列信息。通过注意力机制,模型可以在序列中自适应捕捉不同构件及拓扑结构对自由能的影响,形成全局和局部特征的交互表示。

预训练与微调

* 预训练阶段:

研究人员训练 LLM-Prop 通过 MOFSeq 表示预测 MOFs 的应变能。选择应变能是因为其计算成本低,且与自由能高度相关。预训练过程中使用了 dropout 率 0.2 和 0.5,结果表明 0.2 的 dropout 在预训练和下游任务中表现更佳。MOFSeq 输入长度设为 2000 个 tokens。

* 微调阶段:

设置与预训练相同,但模型目标改为预测自由能,并将训练 epoch 数增加至 200。LLM-Prop 设计为轻量化模型,其规模约为 Llama 2 的 1/2000,优先考虑计算效率。这种设计带来权衡:与微调大型 LLM(如 Llama 2 或 GPT-2)相比,LLM-Prop 需要更多训练 epoch 才能达到高性能,但其小规模使训练可行且高效。

预测 MOFs 合成准确率达 97%

在完成 MOFSeq-LMM 模型的训练后,研究团队对模型在自由能预测、合成可行性判定以及多晶型 MOFs 筛选中的表现进行了系统评估。实验结果不仅验证了模型的高精度,也凸显了其在高通量 MOF 设计与筛选中的应用潜力。

自由能预测性能

首先,团队对 LLM-Prop 在未知 MOFs 样本上的自由能预测性能进行了评估。结果显示:模型能够以 0.789 kJ/molMOFatom 的平均绝对误差(MAE)精确预测自由能,同时取得 R² = 0.990 的高相关性,如下图 b。这意味着模型在绝大多数 MOFs 样本中都能给出接近真实值的预测结果。

在预训练阶段,模型通过应变能数据进行训练,取得 MAE 为 0.623 kJ/molMOFatom,R² 为 0.965,如下图 a。这一阶段的高相关性表明,应变能数据能够为自由能预测提供有效的初步信息,验证了研究团队预训练策略的合理性。进一步分析显示,预训练的应变能与微调后的自由能高度相关,证明了应变能作为低成本代理指标在模型训练中的价值。


本研究方法在 MOFs 自由能预测中的性能

消融实验结果

为了深入理解模型性能来源,团队进行了系统的消融实验。实验分别考察了局部特征、全局特征以及预训练对自由能预测的影响。结果如下表:


消融实验结果

仅局部特征:通过预训练,MAE 从 1.242 降至 1.168 kJ/molMOFatom,R² 从 0.971 提升到 0.974,表明预训练能够在局部特征有限的情况下提升模型泛化能力。

* 仅全局特征:

性能明显优于仅使用局部特征,MAE 下降至 1.0 kJ/molMOFatom 以下,R² 提升至约 0.980。预训练在此情况下影响较小(MAE 从 0.994 降至 0.989 kJ/molMOFatom,R² 从 0.979 提升至 0.980),表明全局特征本身对任务信息量更大,对预训练依赖较少即可实现有效学习。

* 局部与全局特征结合:

在预训练的支持下,模型实现了最佳性能,MAE 为 0.789 kJ/molMOFatom,R² 为 0.990,证明两类特征的协同作用对提高预测精度至关重要。

这一消融实验结果清晰表明,MOFSeq 的全局与局部特征设计以及预训练策略是提升模型预测能力的核心要素。

合成可行性判定

在工业应用中,更关键的任务是判定 MOFs 是否具备合成可行性,而非单纯关注自由能绝对值。研究团队将 ΔL_MFFL(基于自由能修正后的指标)设定为 4.4 kJ/molMOFatom 阈值,对 MOFs 的合成可行性进行二分类预测。实验结果如下图显示:

F1 分数与 ROC 曲线

* F1 分数达到 97%——显示了模型的良好泛化能力

* ROC 曲线下面积(AUC)高达 0.98——最终可以理解为,如果模型判断某 MOFs 可合成,该评估错误的概率仅约 2%。

多晶型 MOFs 筛选

对于存在多晶型的 MOFs 系统,实验进一步验证了模型识别最稳定多晶型的能力。在 7,490 个多晶型家族中,每个家族包含 2–50 个晶型,模型能够在自由能差异仅 0.16 kJ/molMOFatom 的情况下正确选出最稳定的晶型,其成功概率约 63%;当自由能差异增大至 0.49 kJ/molMOFatom 时,成功率提升至 89%。

总体来看,模型在多晶型识别任务上的平均成功率约为 78%,如下图,表明其在实验筛选前的高通量预测中具有显著价值。


多晶型选择性能

从实际应用角度来看,如果 LLM 判断某个 MOFs 设计在热力学稳定性和多晶型竞争的评估下可合成,其正确性概率在约 76% 至 98% 之间,概率较高的情况对应于该 MOFs 没有竞争多晶型的情形。

AI 重塑 MOFs 和材料学研究新范式

2025 年 10 月 8 日,瑞典皇家科学院决定将 2025 年诺贝尔化学奖授予日本京都大学教授北川进、墨尔本大学教授 Richard Robson 和加州大学伯克利分校教授 Omar Yaghi,以表彰其在 MOFs 领域的研究贡献。以这一历史性时刻为坐标回望,MOFs 研究已走过三十余年的发展历程,从最初的结构构筑与合成探索,逐步迈向性能调控、应用拓展与产业化落地。站在这一里程碑之后,材料科学正迎来新的变量——人工智能的深度介入,正在重塑 MOFs 乃至整个材料学领域的研究范式与创新节奏。

面对 MOFs 的世界庞大、复杂但缺乏标准化命名的挑战,2025 年 10 月,来自加拿大多伦多大学以及加拿大国家研究委员会清洁能源创新研究中心的研究团队提出 MOF-ChemUnity:一个结构化、可扩展、可拓展的知识图谱。该方法利用 LLM 在文献中 MOF 名称及其同指代与 CSD 中登记的晶体结构之间建立可靠的一一映射,从而实现 MOF 名称及其同义词与晶体结构的消歧。在当前版本中,MOF-ChemUnity 集成了约 1 万篇科学文章以及超过 1.5 万条 CSD 晶体结构及其计算化学性质,以机器可操作的格式呈现。

论文标题:MOF-ChemUnity: Literature-Informed Large Language Models for Metal–Organic Framework Research
论文地址:https://pubs.acs.org/doi/10.1021/jacs.5c11789

在 MOFs 材料的理性设计过程中,结构的合成前预测一直是实现此类材料高效和定向合成的关键难题。针对此,上海交通大学崔勇和巩伟教授团队开发了一种数据驱动的机器学习工作流,实现了对 MOFs 金属节点类型的快速和准确预测。该方法以有机配体的结构信息为输入,通过机器学习模型建立配体特征与金属节点类型之间的映射关系,从而在合成前对可能形成的金属节点类型作出有效预测。经过训练和优化的机器学习预测模型在测试集上实现了 91% 的预测准确率、89% 的精确率和 85% 的召回率。

论文标题:Data-Driven Machine Learning Assisted Prediction of Metal Node Types in Metal-Organic Frameworks for Guiding Linker Design and Targeting Inverse C3H8/ C3H6 Separation
论文地址:http://engine.scichina.com/doi/10.1007/s11426-025-2917-4

传统 MOFs 研究往往以结构或性能为起点,通过局部变量控制和大量实验或计算来逐步逼近目标材料;而在这些新工作中,研究起点本身正在前移——研究者开始首先构建可计算、可推理的材料表示体系,再在此基础上让模型学习哪些结构组合在物理上是合理的、在热力学上是可行的、在合成上是值得尝试的。当模型能够在百万级结构空间中快速给出可信的热力学与结构判断时,材料研究的重心也将随之上移——从「如何计算与测量」,转向「如何定义问题、构建表示并设定决策边界」。这或许正是 MOFs 研究在走过三十余年结构与化学积累之后,所迎来的下一次方法论跃迁。

参考文献:

1.https://pubs.acs.org/doi/10.1021/jacs.5c13960
2.https://phys.org/news/2026-01-tool-narrows-ideal-metal-frameworks.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1164626.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

装备健康管理在汽车智能制造中的应用案例与效果分析

在汽车制造业迈向智能化的进程中,装备健康管理正成为提升生产效率和保障质量稳定的关键环节。随着生产线自动化程度不断提高,单一设备的故障可能导致整条生产线停摆,造成巨大的经济损失。传统的定期维修和事后维修模式已无法满足现代汽车制造…

FPGA 工程师级别与薪资是怎样的?资深工程师一文带你了解清楚

在 FPGA 学习和就业咨询中,被问得最多的一个问题就是: “FPGA 工程师分几个级别?薪资大概什么水平?做到资深到底强在哪里?”这篇文章不谈个例、不造焦虑,而是从工程能力、岗位职责和行业常态出发&#xff0…

论文降重与内容生成利器:8大AI写作平台深度评测与使用技巧分享

AI论文生成工具排行榜:8个网站对比,论文降重写作功能全 工具对比总结 以下是8个AI论文工具的简要排名,基于核心功能、处理速度和适用性对比。排名侧重实用性与用户反馈,数据源于引用内容案例: 工具名称 主要功能 优…

硬核干货|FPGA 基础知识笔记汇总,你想查的这里都有

在 FPGA 学习和实际开发过程中,很多人都会遇到一个问题: 资料看了不少,但知识点零散、概念混乱,用的时候还是要重新查。这篇文章不讲“成功学”,也不走速成路线,而是从工程与学习实践角度,对 FP…

Verdi中查看二维数组 (array) 波形或内容

在Verdi中查看二维数组 (array) 波形或内容,关键在于仿真时正确转储 (dump) 数组数据,通常需要加入 $fsdbDumpMDA() 系统任务,并在编译或启动时加上相应选项,然后在 Verdi 界面中通过 Debug Memory 功能或在波形窗口直接选择信号来…

智能论文写作工具指南:8大平台功能全解析,降重算法与生成质量实测

AI论文生成工具排行榜:8个网站对比,论文降重写作功能全 工具对比总结 以下是8个AI论文工具的简要排名,基于核心功能、处理速度和适用性对比。排名侧重实用性与用户反馈,数据源于引用内容案例: 工具名称 主要功能 优…

学术写作AI助手盘点:8款工具全面解析,降重技术与内容生成效率对比

AI论文生成工具排行榜:8个网站对比,论文降重写作功能全 工具对比总结 以下是8个AI论文工具的简要排名,基于核心功能、处理速度和适用性对比。排名侧重实用性与用户反馈,数据源于引用内容案例: 工具名称 主要功能 优…

VMWare Tools 灰色无法自动安装(二)

文章目录 接上一篇[VMware Tools灰色,无法直接安装解决办法【亲测有效】](https://blog.csdn.net/MelyLenient/article/details/109204228?spm=1001.2014.3001.5501) 安装后,无法自动挂载共享文件夹 已连接 接上一篇VMware Tools灰色,无法直接安装解决办法【亲测有效】 由…

利用AI提升论文写作效率:8款主流工具对比,聚焦降重与内容创新技术

AI论文生成工具排行榜:8个网站对比,论文降重写作功能全 工具对比总结 基于核心功能、处理速度和用户反馈的综合评估,当前主流AI论文工具中,Semantic Scholar凭借精准的文献检索和关联分析位列第一,Elicit以高效摘要生…

深度测评10个AI论文工具,专科生毕业论文必备!

深度测评10个AI论文工具,专科生毕业论文必备! AI 工具正在重塑论文写作方式 随着人工智能技术的不断进步,AI 工具在学术写作领域的应用越来越广泛。对于专科生来说,撰写毕业论文不仅是学习成果的总结,更是对综合能力的…

AI助力学术写作:8款顶尖平台横向对比,降重与内容生成核心功能解析

AI论文生成工具排行榜:8个网站对比,论文降重写作功能全 工具对比总结 以下是8个AI论文工具的简要排名,基于核心功能、处理速度和适用性对比。排名侧重实用性与用户反馈,数据源于引用内容案例: 工具名称 主要功能 优…

Python+Vue的超市商品管理系统 Pycharm django flask

这里写目录标题项目介绍项目展示详细视频演示技术栈文章下方名片联系我即可~解决的思路开发技术介绍性能/安全/负载方面python语言Django框架介绍技术路线关键代码详细视频演示收藏关注不迷路!!需要的小伙伴可以发链接或者截图给我 项目介绍 超市商品管…

2025 CTF 实战不踩雷!自动化脚本(覆盖 Web / 逆向)+ 赛事表,搭配 e 春秋靶场 + 分阶段路线规划!

对于想学习或者参加CTF比赛的朋友来说,CTF工具、练习靶场必不可少,今天给大家分享自己收藏的CTF资源,希望能对各位有所帮助。 CTF在线工具 首先给大家推荐我自己常用的3个CTF在线工具网站,内容齐全,收藏备用。 1、C…

【物流数据驱动系列2】智能调度革命:算法如何重新定义物流效率边界?

为什么车队规模扩大三倍,准时率却下降了?这是华东某物流集团CTO张总在季度经营会上提出的尖锐问题。三年前,公司拥有300辆自有车辆,准时送达率稳定在92%;如今车辆规模扩大到900辆,准时率却下滑到87%。更令人…

Python+Vue的学校实验室管理系统 Pycharm django flask

这里写目录标题项目介绍项目展示详细视频演示技术栈文章下方名片联系我即可~解决的思路开发技术介绍性能/安全/负载方面python语言Django框架介绍技术路线关键代码详细视频演示收藏关注不迷路!!需要的小伙伴可以发链接或者截图给我 项目介绍 随着信息技…

【物流数据驱动系列3】成本透明化:如何让每一分物流费用都有据可查、有源可溯?

"张总,这个月物流费用比预算超了45万,但我查不出具体是哪个环节出了问题。"这是某电商企业物流负责人在季度经营会上不得不做的尴尬汇报。公司每月物流费用支出超过300万元,但成本分析只能停留在"华东区运费120万、华南区100万…

微软承诺解决AI数据中心社区争议问题

微软公司今日宣布了一项名为"社区优先AI基础设施"的五点计划,旨在平息围绕其新建AI数据中心引发的社区愤怒情绪。这项举措是在大型科技公司面临日益严重的数据中心项目反对浪潮背景下推出的。为了满足耗电巨大的AI产品需求,科技公司的数据中心…

Python+Vue的志愿者招募平台 Pycharm django flask

这里写目录标题项目介绍项目展示详细视频演示技术栈文章下方名片联系我即可~解决的思路开发技术介绍性能/安全/负载方面python语言Django框架介绍技术路线关键代码详细视频演示收藏关注不迷路!!需要的小伙伴可以发链接或者截图给我 项目介绍 在当今社会…

浦东电子吸塑托盘厂家:精密电子产品的守护者

在浦东的工业园区里,一台台真空吸塑机正将平整的塑料片材变成一个个量身定制的电子吸塑托盘,这些看似简单的塑料制品,却是保障精密电子产品安全的重要屏障。 在当今电子产品日益精密化的时代,吸塑托盘作为电子制造和物流环节的关键…

3.7 BinaryReader和BinaryWriter

1.BinaryReader和BinaryWriter简介 2.BinaryReader和BinaryWriter示例1.BinaryReader和BinaryWriter简介 a.BinaryWriter: 将.NET 基本类型(int、float、string、byte [] 等)写入流(FileStream、MemoryStream等),按二进制格式存储(而非文本), 体积更小、读写更快b.BinaryReader…